Лучшие МООК и книги для специалистов по данным

В этой истории я хочу поделиться с вами лучшими курсами, которые я прошел, и лучшими книгами, которые я прочитал до сих пор по науке о данных. Я хотел бы, чтобы эта история помогла людям найти правильный путь при изучении науки о данных, потому что за последние несколько лет значительно увеличилось количество курсов и книг по науке о данных, и может быть трудно угадать правильный путь для вас, чтобы получить хорошую работу.

МООК

Введение в машинное обучение с Tensorflow (Udacity)

В этом Nanodegree вы познакомитесь с основами контролируемого и неконтролируемого обучения с помощью Python с использованием scikit-learn и платформы Tensorflow (есть также эквивалентная Nanodegree, использующая платформу Pytorch) для работы с нейронными сетями. Проекты представляют собой контролируемое обучение (легкий уровень сложности), плотную нейронную сеть для создания классификатора изображений (средний уровень сложности) и неконтролируемое обучение для создания сегментов клиентов. Эта наностепень является базовой, и если вы хотите, вы можете пропустить ее и перейти к наностепени Data Scientist.

2. Аналитик данных Nanodegree (Udacity)

Хотя эта наностепень не является обязательной, я думаю, что это хорошо для Data Scientist. Когда я это делал, курс включал в себя SQL, парсинг веб-страниц, исследование данных, статистику (что было не так просто понять поначалу) и введение в методы машинного обучения. В то время (более двух лет назад) благодаря большим реальным проектам я получил хорошее понимание методов науки о данных и мог уверенно участвовать в собеседованиях по науке о данных и задачах из интервью. Я думаю, что это определенно стоит сделать.

3. Data Scientist Nano Degree (Udacity)

Этот курс по науке о данных является одним из самых известных курсов по науке о данных в Интернете. Он начинается с определения проблемы науки о данных и общих методов, машинного обучения в обработке естественного языка, рекомендательных систем и окончательного проекта, который вы можете выбрать из списка или найти некоторые данные и настроить его полностью по своему усмотрению. Итак, я кратко расскажу о проектах каждого из четырех курсов в рамках этого Наностепени и расскажу, чему я научился из них. Прежде всего, вы можете изучить программную инженерию, если хотите (не обязательно), а после этого вы получите общий обзор методов науки о данных и метода CRISP-DM, применяя изученные методы в некоторых возможных наборах данных, таких как как Airbnb. Во втором проекте вы узнаете, как создавать конвейеры в машинном обучении вместе с инструментами NLP, чтобы предсказывать множество классов для построения конвейера реагирования на бедствия. В третьей части вы познакомитесь со статистическими тестами, такими как A/B-тестирование и рекомендательные системы, чтобы создать свой рекомендательный механизм. Последняя часть — это проект Capstone, который вы можете выбрать среди нескольких проектов, предварительно доступных в рабочей области, или настроить свой собственный проект. Я выбрал проект Sparkify, написанный на PySpark, который можно найти здесь. Полный список созданных мною проектов можно найти в моем аккаунте на GitHub, ссылка на который указана здесь. Определенно стоит пройти эту наностепень, даже если вы опытный специалист по данным.

4. Специализация глубокого обучения (Coursera)

Несомненно, это считается лучшей специализацией от Coursera. В этой специализации, которую преподает Эндрю Н.Г., вы научитесь создавать практически любую нейронную сеть с нуля. Кроме того, вы применяете концепции, изученные на уроках, в реальных проектах. Проекты варьируются от создания с нуля DNN, CNN и RNN до приложений компьютерного зрения. Я не большой поклонник Coursera по сравнению с Udacity, но этот курс выделяется, и он намного дешевле (и намного короче), чем Udacity Deep Learning Nanodegree;

5. Специализация MLOps (Coursera)

Я бы сказал, что эта специализация больше похожа на некое «Введение в MLOps». В этом курсе вы узнаете, как спроектировать производственную систему ML от начала до конца: охват проекта, потребности в данных, стратегии моделирования и требования к развертыванию. Вы также узнаете о концепции дрейфа данных и дрейфа концепции, а также о ценном инструменте под названием Tensorflow Extender (TFX), который может выполнять проектирование, преобразование и выбор признаков. Кроме того, вы узнаете, как обслуживать запросы на вывод в автономном/онлайн-режиме. Вы также получите обзор того, как применять лучшие практики и прогрессивные методы доставки для поддержания непрерывно работающей производственной системы. Эта специализация от легкого до среднего уровня и может быть выполнена при тяжелой работе в течение одного месяца. Только одно замечание: лично я не большой поклонник того, как Coursera преподает облачные вычисления, потому что это всего лишь задания на копирование/вставку.

6. Практическая наука о данных в облаке AWS (Coursera)

В этой специализации, которая, как мне кажется, вполне справедлива в отношении компромисса между тем, что вы изучаете, и тем, за что вы платите, вы получаете общий обзор с некоторыми промежуточными задачами о том, как использовать инструменты AWS SageMaker Cloud. В облаке AWS вы узнаете, как принимать, регистрировать и исследовать наборы данных, выявлять статистическую погрешность, использовать AutoML, а также сохранять функции и управлять ими в хранилище функций. Кроме того, поскольку в ходе курса проводится анализ тональности, мы используем встроенные алгоритмы и пользовательские модели BERT, отлаживаем, профилируем и сравниваем модели для повышения производительности, создаем сквозной конвейер машинного обучения и выполняем настройку гиперпараметров на AWS после что мы развертываем и контролируем модели. Я думаю, что наиболее интересным аспектом курса является построение конвейера с участием человека в цикле для улучшения производительности модели, в котором модель требует вмешательства человека, когда модель не может превзойти порог уверенности в предсказанном классе.

ТЕХНИЧЕСКИЕ КНИГИ

Наука о данных с нуля

Я рекомендую эту книгу, если это ваши первые шаги в науке о данных. В этой книге вы узнаете, как работает наука о данных, реализуя (простые) алгоритмы с нуля. Это важно для новичков, потому что алгоритмы машинного обучения обычно рассматриваются как модели черного ящика, и более точное представление этих алгоритмов поможет вам понять, что происходит под капотом, начиная от простейших наивно-байесовских и заканчивая рекомендательными системами. В этой книге также показаны варианты использования, которые могут помочь вам познакомиться с процедурами обработки данных, используемыми в отрасли.

2. Наука о данных для бизнеса

Эта книга предназначена для людей, у которых уже есть базовые знания в области науки о данных, и призвана показать, как наука о данных может принести реальную пользу вашей компании. Это отличный способ познакомиться с тем, что отрасль ожидает от специалиста по обработке и анализу данных. По сути, вы узнаете, как задавать вопросы по науке о данных, включая изучение корреляции и сегментации, подбора модели, сходства и кластеризации. Автор также обсуждает, что такое хорошая модель, как визуализировать производительность модели и как исследовать анализ текста.

3. Проекты по науке о данных с Python

В этой книге представлен подробный обзор проекта Data Science. Представляя бизнес-задачи, автор показывает, что, почему и как возникает при принятии решения о том, как исследовать, очищать и моделировать данные в реальных ситуациях. Он очень хорошо объясняет, что именно происходит в коде, используемом на протяжении всей книги. Самое лучшее в этой книге то, что кодирование простое, а алгоритмы машинного обучения, используемые в части моделирования, объясняются без использования углубленной математики.

4. Подход к (почти) любой проблеме машинного обучения

В этой книге гораздо больше внимания уделяется методам и хорошим подходам к решению проблем науки о данных/машинного обучения. В этой книге много кодов, но поскольку код для воспроизведения нигде не размещен, цель книги — расширить ваши инструменты и обсудить способы мышления в качестве решателя задач в области науки о данных. Поток книги очень хороший, начиная от базовых концепций и заканчивая изображениями и множеством продвинутых концепций!

5. Базовая статистика

Эта книга (на бразильском португальском языке) содержит статистику, которую вам необходимо знать и понимать, чтобы решать реальные проблемы и выполнять ценный анализ данных. Он показывает, как можно выполнять визуализацию данных, чтобы получить представление о данных, как обрабатываются и могут применяться вероятности, а также случаи использования регрессионных моделей в некоторых реальных данных. В книге больше внимания уделяется теоретическим объяснениям, поэтому я рекомендую ее читателям, не обладающим сильным или даже базовым статистическим образованием.

6. Практическое машинное обучение с помощью Scikit-Learn, Keras и Tensorflow: концепции, инструменты и методы построения интеллектуальных систем

В этой книге вы в основном узнаете, как использовать распространенные модели машинного обучения с учителем, такие как KNN, модели на основе дерева, машины опорных векторов и т. д. Но сильной стороной, на мой взгляд, является использование нейронных сетей с помощью Tensorflow. Самая сильная часть этой книги в том, что она устанавливает мост между теорией и реальными приложениями с помощью нейронных сетей.

7. Начало работы с SQL: практический подход для начинающих

Эта книга дает вам базовые знания SQL, а иногда и достаточные для выполнения запросов среднего уровня в наборах данных. В нем объясняются операторы SELECT, WHERE, GROUP BY и ORDER BY для ОБНОВЛЕНИЯ таблиц и использования СОЕДИНЕНИЙ. Идеально подходит для начинающих, и его можно легко усвоить за две недели или меньше, в зависимости от вашего темпа.

НАУКА ДАННЫХ/ИИ КНИГИ ДЛЯ РАЗВЛЕЧЕНИЯ

Сверхдержавы ИИ: Китай, Кремниевая долина и новый мировой порядок

Эта книга в основном о технологическом споре между США и Китаем и о том, как превосходство искусственного интеллекта станет ключом к тому, чтобы стать преобладающей нацией. Автор обсуждает четыре «волны ИИ» и почему в долгосрочной перспективе Китай будет иметь превосходство ИИ.

2. AI 2041: десять взглядов на наше будущее

В этой книге обсуждается то, что, возможно, будет в будущем через двадцать лет. В коротких рассказах будет показано, как ИИ, вероятно, повлияет на перераспределение рабочих мест, виртуальную реальность и смешанную реальность, квантовые вычисления с блокчейном, возможные сценарии COVID и компьютерное зрение в будущей повседневной жизни. Это своего рода научная фантастика, отлично подходит для людей, которым это нравится. Лично мне книга показалась слишком толстой и длинной.

3. Жизнь 3.0: Быть человеком в эпоху искусственного интеллекта

Эта футуристическая книга, написанная Максом Тегмарком (профессором физики Массачусетского технологического института), показывает возможные сценарии жизни с быстрым ростом искусственного интеллекта в нашей повседневной жизни. Он начинается с рассуждений о трех этапах жизни:

Жизнь 1.0 относится к биологическому происхождению, такому как вирусы;
Жизнь 2.0 относится к культурному развитию человечества;
Life 3.0 относится к таким технологиям, как Искусственный общий интеллект (AGI), которые, возможно, когда-нибудь, помимо способности учиться самостоятельно, смогут также перепроектировать собственное оборудование и внутреннюю структуру. Вещи, которые не могут сделать два других вида жизни.

Изучив текущие проблемы в области ИИ, Тегмарк затем рассматривает ряд возможных вариантов будущего, включая интеллектуальные машины или людей. В книге также рассматриваются потенциальные последствия, которые могут произойти, такие как изменение социальных структур, интеграция людей и машин, а также как положительные (ИИО помогает нам или ОИИ становится «порабощенным»), так и негативные сценарии, такие как авторитарный ИИ или апокалипсис ИИ (ИИО, который может поработить или завоевать землю, и мы, скорее всего, даже не заметим этого).

Наконец, Тегмарк представляет предполагаемое понимание того, каким будет мир через тысячу или десять тысяч лет.

4. Сверхразум: пути, опасности, стратегии

Автор обсуждает несколько концепций и интересных вопросов о характеристиках и последствиях возникновения «сверхразума». Автор указывает на риски и потенциал неконтролируемого сверхразума, а также на то, как им можно разумно управлять. Книга не для чайников, и важно иметь знания как минимум в информатике, политике и экономике.

5. Você, Eu e os Robôs: Como se Transformar no Profissional Digital do Futuro (бразильский португальский)

В этой книге рассказывается о влиянии цифровой революции, а также о преобразованиях, проблемах и возможностях, которые нам предстоит испытать. Книга состоит из трех основных частей:

— Ты и я — люди, ориентированные на человечество, трансформированное цифровыми технологиями;

— Они: восхождение цифровых существ, обсуждение ИИ, робототехники и технологических трендов;

— Мы: гибридное будущее [люди + цифровые существа], где мы спрашиваем себя, куда мы идем, как мы смешиваемся с машинами и как машины могут расширить нас технологически.

Это все люди! Думаю, я прошел через многое.

Если вам понравилась эта история, пожалуйста, дайте ей несколько хлопков.

Вы можете добавить меня в LinkedIn здесь.

С наилучшими пожеланиями!

Лучшие МООК и книги для специалистов по данным

МООК

ТЕХНИЧЕСКИЕ КНИГИ

НАУКА ДАННЫХ/ИИ КНИГИ ДЛЯ РАЗВЛЕЧЕНИЯ

Вопросы по теме