Как понимать публикации об исследованиях AI/ML

Нужно ли специалистам по обработке и анализу данных или специалистам по машинному обучению читать научные статьи?

Короткий ответ: да. И не беспокойтесь, если у вас нет формального академического образования или вы получили только степень бакалавра в области машинного обучения.

Чтение академических научных работ может пугать людей без обширного образования. Тем не менее, отсутствие академического опыта чтения не должно мешать специалистам по данным использовать ценный источник информации и знаний для машинного обучения и разработки ИИ.

В этой статье представлено практическое руководство для специалистов по данным любого уровня квалификации по чтению научных статей, опубликованных в академических журналах, таких как NeurIPS, JMLR, ICML и т. д.

Прежде чем с головой погрузиться в чтение научных статей, первые этапы обучения чтению научных статей охватывают выбор соответствующих тем и исследовательских работ.

Шаг 1: Определите тему

Область машинного обучения и науки о данных является домом для многих предметных областей. Но это не обязательно означает, что решение каждой темы в рамках машинного обучения — лучший вариант.

Хотя специалистам-практикам начального уровня рекомендуется обобщать, я предполагаю, что перспективы карьерного роста, практики и отраслевой интерес часто смещаются в сторону специализации, когда речь идет о долгосрочном машинном обучении.

Определить нишевую тему для работы может быть сложно, но это хорошо. Тем не менее, эмпирическое правило заключается в том, чтобы выбрать область машинного обучения, в которой вы либо заинтересованы в получении профессиональной должности, либо уже имеете опыт.

Глубокое обучение — один из моих интересов, и я инженер компьютерного зрения, который использует модели глубокого обучения в приложениях для профессионального решения проблем компьютерного зрения. В результате меня интересуют такие темы, как оценка позы, классификация действий и идентификация жестов.

В зависимости от ролей ниже приведены примеры профессий ML/DS и связанных с ними тем, которые следует учитывать.

Для этой статьи я выберу тему «Оценка позы» для изучения и выберу соответствующие исследовательские работы для изучения.

Шаг 2: Поиск исследовательских работ

PapersWithCode — один из самых отличных инструментов, которые можно использовать при просмотре научных статей, наборов данных, кода и других связанных материалов, связанных с машинным обучением.

Мы используем поисковую систему на веб-сайте PapersWithCode, чтобы получить соответствующие исследовательские работы и контент для выбранной нами темы «Оценка позы». На следующем изображении показано, как это делается.

Страница результатов поиска содержит краткое объяснение искомой темы, за которой следует таблица связанных наборов данных, моделей, документов и кода. Не вдаваясь в подробности, областью интереса для этого варианта использования являются Величайшие статьи с кодом. Этот раздел содержит соответствующие документы, связанные с задачей или темой. Для этой статьи я выберу DensePose: оценка плотной позы человека в дикой природе.

Шаг 3: Первый проход (получение контекста и понимания)

На данный момент мы выбрали исследовательскую работу для изучения и готовы извлечь любые ценные выводы и выводы из ее содержания.

Вполне естественно, что вашим первым порывом будет начать писать заметки и читать документ от начала до конца, возможно, отдыхая между ними. Тем не менее, наличие контекста для содержания учебной работы является более практичным способом ее чтения. Заголовок, аннотация и заключение — три ключевые части любой исследовательской работы, необходимые для понимания.

Целью первого прохода выбранной вами бумаги является достижение следующего:

  • Убедитесь, что статья актуальна.
  • Получите представление о контексте статьи, изучив ее содержание, методы и выводы.
  • Признать цели, методологию и достижения автора.

Название

Название является первой точкой обмена информацией между авторами и читателем. Таким образом, названия научных статей являются прямыми и составлены таким образом, чтобы не оставлять двусмысленности.

Название исследовательской работы является наиболее красноречивым аспектом, поскольку оно указывает на отношение исследования к вашей работе. Важность названия состоит в том, чтобы дать краткое представление о содержании статьи.

В этой ситуации заголовок звучит как «DensePose: оценка плотной позы человека в дикой природе». Это дает общий обзор работы и подразумевает, что будет рассмотрено, как правильно предоставлять оценки позы в средах с высоким уровнем активности и реалистичных ситуациях.

Абстрактный

В абстрактной части представлена ​​краткая версия статьи. Это короткий раздел, содержащий 300–500 слов, в котором вкратце рассказывается, о чем статья. Аннотация представляет собой краткий текст, который дает обзор содержания статьи, целей, методов и приемов исследователей.

Читая реферат исследовательской работы по машинному обучению, вы обычно сталкиваетесь с упоминанием наборов данных, методов, алгоритмов и других терминов. Ключевые слова, относящиеся к содержанию статьи, обеспечивают контекст. Может быть полезно делать заметки и отслеживать все ключевые слова.

Для документа «DensePose: оценка позы плотного человека в дикой природе» я определил в аннотации следующие ключевые слова: оценка позы, набор данных COCO, CNN, модели на основе регионов, в реальном времени.

Заключение

Нередко возникает усталость при чтении статьи сверху вниз при первом начальном проходе, особенно для специалистов по данным и практиков, не имеющих предшествующего академического опыта. Хотя извлечение информации из последних разделов статьи может показаться утомительным после долгого изучения, заключительные разделы часто бывают короткими. Следовательно, рекомендуется читать раздел заключения в первом проходе.

Заключительный раздел представляет собой краткий обзор автора или авторов работы и/или вклада и достижений, а также обещаний будущих разработок и ограничений.

Прежде чем читать основное содержание исследовательской работы, прочтите раздел заключения, чтобы убедиться, что вклад исследователя, проблемная область и результаты соответствуют вашим потребностям.

Следование этому конкретному краткому первому шагу позволяет получить достаточное представление и обзор объема и целей исследовательской работы, а также контекста ее содержания. Вы сможете получить более подробную информацию из его содержания, просматривая его снова с лазерным вниманием.

Шаг 4: Второй проход (ознакомление с контентом)

Ознакомление с контентом — это процесс, относящийся к начальным шагам. Процесс знакомства — это шаг, который включает в себя вводную часть и рисунки в исследовательской работе.

Как упоминалось ранее, стремление погрузиться прямо в суть исследовательской работы не требуется, потому что акклиматизация знаний обеспечивает более подробное и всестороннее изучение исследования в более поздних проходах.

Введение

Вводные разделы исследовательских работ написаны для того, чтобы дать обзор цели исследовательских усилий. В этой цели упоминаются и объясняются проблемные области, объем исследований, предшествующие исследовательские усилия и методологии.

Нормально находить параллели с прошлыми исследовательскими работами в этой области с использованием схожих или разных методов. Цитаты из других статей обеспечивают объем и широту предметной области, что расширяет исследовательскую зону для читателя. Возможно, на данном этапе достаточно включить процедуру, описанную в шаге 3.

Другим аспектом преимущества, обеспечиваемого вводным разделом, является представление необходимых знаний, необходимых для подхода и понимания содержания исследовательской работы.

Графики, диаграммы и рисунки

Иллюстративные материалы в исследовательской работе гарантируют, что читатели смогут понять факторы, поддерживающие определение проблемы или объяснения представленных методов. Обычно таблицы используются в исследовательских работах для предоставления информации о количественных характеристиках новых методов по сравнению с аналогичными подходами.

Как правило, визуальное представление данных и производительности позволяет развить интуитивное понимание контекста статьи. В упомянутом ранее документе Dense Pose иллюстрации иллюстрируют работу подхода автора к оценке позы.

В сфере глубокого обучения часто встречаются топологические иллюстрации, изображающие структуру искусственных нейронных сетей. Опять же, это способствует созданию интуитивного понимания для любого читателя. С помощью иллюстраций и рисунков читатели могут сами интерпретировать информацию и получить более полное представление, не имея никаких предвзятых представлений о том, какими должны быть результаты.

Шаг 5: Третий проход (глубокое чтение)

Третий проход статьи аналогичен второму, хотя он охватывает более значительную часть текста. Самое важное в этом пассе — это то, что вы избегаете сложных арифметических или технических формулировок, которые могут быть для вас трудными. Во время этого прохода вы также можете пропустить любые слова и определения, которые вы не понимаете или с которыми не знакомы. Эти незнакомые термины, алгоритмы или методы следует отметить, чтобы вернуться к ним позже.

На этом этапе ваша основная цель — получить общее представление о том, о чем идет речь в документе. Подойдите к работе, начиная снова с аннотации к заключению, но обязательно делайте промежуточные перерывы между разделами. Кроме того, рекомендуется завести блокнот, где отмечаются все ключевые выводы и выводы, а также незнакомые термины и понятия.

Техника Помидора — это эффективный метод управления временем, отведенным на углубленное чтение или учебу. Объясняя, что техника Помидора включает в себя сегментацию дня на блоки работы, за которыми следуют короткие перерывы.

Для меня работает разделение 50/15, то есть 50 минут на учебу и 15 минут на перерывы. Обычно я выполняю этот сплит два раза подряд, прежде чем сделать более продолжительный перерыв в 30 минут. Если вы не знакомы с этой техникой тайм-менеджмента, примите относительно простое разделение, например 25/5, и скорректируйте разделение времени в соответствии со своей концентрацией внимания и временными возможностями.

Шаг 6: Четвертый проход (последний проход)

Последний этап обычно требует напряжения ваших умственных способностей и способностей к обучению, поскольку он включает в себя изучение незнакомых терминов, терминов, понятий и алгоритмов, отмеченных на предыдущем этапе. Этот проход фокусируется на использовании внешнего материала для понимания записанных незнакомых аспектов бумаги.

Углубленные исследования незнакомых предметов не имеют определенной временной продолжительности, и иногда усилия растягиваются на дни и недели. Важнейшим фактором успешного финального прохода является поиск подходящих источников для дальнейшего исследования.

К сожалению, в Интернете нет ни одного источника, который бы предоставил вам всю необходимую информацию. Тем не менее, существует множество источников, которые при совместном и надлежащем использовании заполняют пробелы в знаниях. Ниже приведены некоторые из этих ресурсов.

В справочных разделах исследовательских работ упоминаются методы и алгоритмы. Следовательно, текущая статья либо черпает вдохновение, либо опирается на него, поэтому справочный раздел является ценным источником для использования в ваших сеансах глубокого чтения.

Шаг 7. Резюме (необязательно)

За почти десятилетие академических и профессиональных занятий связанными с технологиями предметами и ролями наиболее эффективный метод обеспечения того, чтобы любая новая полученная информация сохранялась в моей долговременной памяти, путем повторения исследованных тем. Переписывая новую информацию своими словами, написанными или напечатанными, я могу понятно и запоминающе закрепить представленные идеи.

Чтобы сделать еще один шаг вперед, можно опубликовать результаты обучения и заметки с помощью платформ для ведения блогов и социальных сетей. Попытка объяснить только что изученную концепцию широкой аудитории, предполагая, что читатель не знаком с темой или предметом, требует понимания темы во внутренних деталях.

Заключение

Несомненно, чтение научных статей для начинающих специалистов по данным и специалистов по машинному обучению может быть пугающим и сложным; даже опытным практикам трудно успешно усвоить содержание исследовательских работ за один проход.

Природа профессии Data Science очень практична и вовлечена. Это означает, что для его практиков требуется академическое мышление, тем более что область науки о данных тесно связана с ИИ, который все еще находится в стадии разработки.

Подводя итог, вот все шаги, которые вы должны выполнить, чтобы прочитать исследовательскую работу:

  • Определите тему.
  • Поиск связанных исследовательских работ
  • Прочтите заголовок, аннотацию и заключение, чтобы получить смутное представление о целях и достижениях исследования.
  • Ознакомьтесь с содержанием, углубившись во введение, в том числе изучив рисунки и графики, представленные в статье.
  • Используйте сеанс глубокого чтения, чтобы переварить основное содержание статьи, просматривая ее сверху вниз.
  • Изучите незнакомые термины, термины, концепции и методы, используя внешние ресурсы.
  • Обобщите своими словами основные выводы, определения и алгоритмы.

Спасибо, что прочитали.

Эта статья изначально была опубликована в Блоге разработчиков Nvidia

Надеюсь, статья оказалась для вас полезной.

Чтобы связаться со мной или найти другие материалы, похожие на эту статью, сделайте следующее:

  1. Поддержите мое письмо, став рекомендателем Medium
  2. Подпишитесь на мой список адресов электронной почты для получения моих информационных бюллетеней
  3. Подключайтесь и связывайтесь со мной в LinkedIn
  4. Получайте обновления в режиме реального времени от меня в Twitter