Глубокая история глубокого обучения

Узнайте о росте глубокого обучения за последние десятилетия!

Большинство из нас знает, что глубокое обучение является изобретением 21 века, но, хотите верьте, хотите нет, оно существует с 1940-х годов.

Причина, по которой большинство из нас не знает о достижениях / исследованиях в области глубокого обучения 20-го века, заключается в том, что подходы, использованные в то время, были относительно непопулярными из-за их различных недостатков и того факта, что с тех пор было несколько ребрендингов.

Новые оригинальные исследования в любой области требуют понимания истории, эволюции и основных достижений, которые привели к популяризации этой области. Глубокое обучение - не исключение.

Более широкий взгляд на историю глубокого обучения показывает 3 основных волны достижений:

Кибернетика - 1940–1960 гг.

Коннекционизм - 1980–1990 гг.

Глубокое обучение - с 2006 г.

Исследования, проведенные в течение первых двух волн, были непопулярны из-за критики их недостатков, однако нет никаких сомнений в том, что они помогли продвинуть область туда, где она есть сегодня, и некоторые из алгоритмов, разработанных в то время, широко используются до сих пор в различные модели машинного обучения и глубокого обучения.

Давайте рассмотрим три волны более подробно, чтобы получить представление о них.

Кибернетика

Является самым ранним предшественником современного глубокого обучения, основанного на идее биологического обучения - того, как учится человеческий мозг. Достижения, сделанные во имя кибернетики, были основаны на цели воспроизвести работу мозга человека / животного в более простой вычислительной модели, которая помогла бы построить системы, которые начали бы обучаться, как настоящий мозг, и предоставлять выводы на основе определенных данных. Дальнейшие исследования в рамках этого мировоззрения продолжаются отдельно до сих пор в разделе Вычислительная нейробиология.

Кибернетика началась с разработки Нейрона Мак-Каллока-Питтса. Это была попытка имитировать биологический нейрон. Он был основан на линейной модели, которая принимала различные входные данные [X1, X2…. Xn], для каждого входа модель имела несколько весов [W1, W2… Wn] и выход f (x, w) = X1W1 + X2W2 +…. + XnWn. Эта модель может выводить только True / False на основе входных данных и весов.

Веса нужно было правильно установить и вводить вручную.

Позже, в 1950-х годах, американским психологом Фрэнком Розенблаттом был разработан Персептрон, который автоматически узнавал веса. Перцептрон изначально разрабатывался как электрическая машина, а не как программа / программное обеспечение. Фрэнк построил Perceptron для распознавания изображений, он содержал фотоэлементы (приемники), подключенные к нескольким нейронам, которые классифицировали входы, захваченные фотоэлементами.

Хотя Perceptron был замечательной машиной для того времени, он делал смелые заявления, которые в то время не могли быть выполнены.

АДАЛИН - разработан Бернардом Уидроу, известный как адаптивный линейный элемент, который был разработан примерно в то же время, что и Персептрон, также мог адаптироваться к весам на основе взвешенная сумма входов на этапе обучения.

Функция обучения в ADALINE похожа на хастический градиентный спуск, используемый сегодня в линейной регрессии.

Эти линейные модели имели различные ограничения, и критики, увидевшие эти ограничения, вызвали серьезное падение их популярности и на какое-то время приостановили исследования. Одним из основных ограничений было то, что эти линейные модели не могли обучаться функциям XOR.

Поскольку эти модели были вдохновлены нейробиологическими исследованиями, падение их популярности также вдохновило на изучение моделей, помимо нейробиологической основы.

Коннекционизм

Или параллельная распределенная обработка стала популярной в 1980-х годах. Этот подход был вдохновлен когнитивными науками. Коннекционизм оказался многообещающим по сравнению с различными подходами к символическому мышлению, которые исследователи изучали в 1980-х годах, известные как классицисты.

Даже если мы посмотрим на мозг с более абстрактной точки зрения, подход символического мышления подходит, но его трудно реализовать явно с использованием классических программных моделей. Поэтому практические коннекционисты рассматривали свою работу как использование нейронных сетей для достижения эффекта, аналогичного символическому мышлению.

Но радикальный коннекционист просто отверг идею символического мышления, заявив, что оно не может объяснить различные сложные особенности нашего мозга в любом случае и является неправильным восприятием человеческого мозга.

На этой волне была представлена концепция искусственной нейронной сети (ИНС). Основная идея ИНС заключалась в разработке сети отдельных единиц, которые можно запрограммировать для достижения разумного поведения. Это был первый раз, когда была представлена концепция скрытых слоев.

Сеть искусственных нейронов, связанных друг с другом, позволяла параллельно обрабатывать сигналы, распределенные по различным ветвям сети. Связи между блоками «нейрон» содержали веса для контроля силы воздействия, которое нейрон оказывает на другой.

Этот подход был воспринят как очень похожий на то, что происходит внутри нашей нервной системы, и это вызвало у исследователей некоторые сомнения относительно эффективности этих моделей.

Во время этой волны коннекционизма были разработаны различные модели, такие как LSTM, распределенное представление и обработка, обратное распространение для обучения глубоких нейронных сетей, которые до сих пор остаются ключевыми компонентами различных передовых приложений глубокого обучения.

Но в середине 1990-х стартапы, основанные на ИИ, начали делать нереалистичные заявления и никогда не могли обеспечить такой уровень сложности с помощью этих моделей из-за нехватки вычислительных ресурсов. Инвесторы отступили, и это привело к падению второй волны глубокого обучения.

Вторая волна так и не умерла, но уменьшилась. Исследования продолжались в различных лабораториях, но приложений было очень мало до начала 2000-х годов.

Глубокое обучение

После двух падений в 2006 году прорывалась третья волна. Джеффри Хинтон использовал жадное послойное обучение для обучения Сети глубокого убеждения.

В простейшей форме DBN представляют собой композицию из нескольких скрытых слоев, каждый из которых содержит различные скрытые переменные. Связи существуют ч / б слоями, но не между переменными внутри каждого слоя. Очень простую реализацию DBN также можно назвать ограниченными машинами Больцмана.

Достижения Джеффри Хинтона использовались другими исследователями для обучения различных типов глубоких сетей. Это позволило исследователям во всем мире обучать все более и более глубокие нейронные сети и привело к популяризации термина глубокое обучение.

Хотя может показаться, что Джеффри Хинтон привел к появлению глубокого обучения, нельзя игнорировать увеличение вычислительных мощностей и доступность больших наборов данных. Алгоритмы, разработанные во время коннекционизма, начали давать лучшие результаты при обучении на все больших и больших наборах данных.

Разница между ч / б тогда и сейчас заключается в том, что все больше и больше людей используют онлайн-сервисы, у нас есть намного больше данных и намного больше вычислительных ресурсов для работы с этими данными, что увеличивает точность для различных моделей.

Появляются более интересные и сложные приложения глубокого обучения, но они находятся на ранних стадиях практического использования. Например, глубокое обучение использовалось для разработки трехмерной карты мозга (Коннектом), чтобы помочь нейробиологам и когнитивистам изучать мозг. Фармацевтические компании начинают использовать Deep Learning для прогнозирования реакции различных молекул и ускорения разработки лекарств.

Заключение

Сегодня глубокое обучение превосходит различные подходы к машинному обучению по производительности и широко используется для множества различных задач. Глубокое обучение имеет повышенную точность по сравнению с другими подходами для таких задач, как языковой перевод и распознавание изображений. Но этого не могло / не могло произойти несколько лет, потребовались десятилетия!

Хотя глубокое обучение значительно изменилось со времени своего первого предшественника в 1940-х годах, очень важно помнить, откуда все это взялось и как оно развивалось с течением времени, потому что ему еще предстоит пройти долгий путь. Изучение ранних строительных блоков помогает в разработке новых приложений глубокого обучения в будущем (стоять на плечах гигантов).

Я попытался добавить несколько книг и статей, если какая-либо тема вас заинтересует. Если хотите, то попробуйте Perceptron By Marvin Minskey. Он глубоко изучает персептрон Фрэнка Розенблатта.

Источники и дальнейшее чтение

Книги

Deep Learning от Ian Goodfellow - это необходимо прочитать всем, кто сегодня работает с Deep Learning.

Революция глубокого обучения от Терри Сейновски

Персептроны от Марвина Мински и Сеймура Паперта

Статьи

Нейрон Маккаллоха-Питтса - первая математическая модель биологического нейрона человечества
Хорошо известно, что наиболее фундаментальная единица глубоких нейронных сетей называется искусственным нейроном / перцептроном ... todatascience.com

Сети глубоких убеждений
Сети глубоких убеждений - это вероятностные генеративные модели, состоящие из нескольких уровней стохастических, скрытых… www.scholarpedia.org

Как работает обратное распространение в искусственных нейронных сетях?
С тех пор, как в мире машинного обучения были представлены нелинейные функции, которые работают рекурсивно (т.е. искусственные… todatascience.com

Решение XOR с помощью одного персептрона
Защита полиномиальных преобразований как способа увеличения репрезентативной способности искусственных нейронов. medium.com