Как и мозг, сети ИИ состоят из нейронов — конечно, виртуальных нейронов. Когда эти нейроны взаимодействуют, они запускают нейроны следующего слоя. Во время машинного обучения некоторые нейронные связи усиливаются или ослабевают, чтобы компьютеры могли узнать, например, что собака — это собака. Когда процесс обучения достаточно интенсивен, компьютер может отличить собаку так же, как и человека. Переход от таких простых примеров к более широким концептуальным проектам — это поразительная демонстрация силы и интеллекта глубокого обучения. Эксперты раздвигают границы разума в еще более далеко идущих проектах и ​​проверяют, возможно ли создать настоящий мозг.

Теперь даже машины могут водить машины, рисовать картинки, побеждать в гонках, играть в игры и многими другими способами удивлять своих создателей — нас. Откровенно говоря, никто не думал, что глубокое обучение будет настолько успешным.

В прошлом году видео, которое гуляло по YouTube, было широко распространено и обсуждено исследователями. Спикер, Нафтали Тишби, ученый и нейробиолог из Иерусалимского университета в Иерусалиме, представил доказательства того, как работает глубокое обучение. По словам Тишби, обучение на самом деле происходит через процесс, называемый «информационным узким местом». Фактически, мы можем сравнить это с фильтром. Сотни ненужной информации, которую мы вводим в систему, система отфильтровывает в процессе обучения, оставляя только полезную для нас информацию. Тишби и его студент объяснили нам свое исследование того, как работает этот процесс и как именно он работает.

Заявив, что метод «информационного узкого места» будет широко использоваться в будущем и что этот метод будет очень полезен для них, исследователь Google Алекс Алеми объяснил, что Google уже начал использовать этот метод в своих новых движках. Алеми сказал, что этот метод не только объясняет, почему машинное обучение такое мощное, но и позволяет использовать новые технологии. Даже если некоторые исследователи скептически относятся к этому анализу, среди его сторонников есть интересные имена. Кайл Кранмер, аналитик Большого адронного коллайдера, скептически относится к этой теории, но считает, что она может сработать.

Джеффри Хинтон, работающий в Университете Торонто и Google, лично позвонил Тишби после презентации, чтобы поздравить его. «Возможно, мне пришлось прочитать ее 10 000 раз, чтобы понять, но в наши дни не всегда встретишь такую ​​оригинальную и новаторскую идею», — сказал он, показывая, насколько ему небезразлична теория. По словам Тишби, независимо от того, где вы применяете теорию, будь то к алгоритму, плодовой мушке или к себе, вы всегда будете видеть одни и те же результаты. На самом деле, подавляющее большинство знаний забывается.

Тишби сделал первые шаги в этой теории в 1980-х годах. Тишби, который был очарован способностью людей обрабатывать звук и считал, насколько продвинуты люди в этой области, в то время работал над тем, чтобы компьютеры имели такие функции, как распознавание голоса, различение и обработка. Вопрос, на котором он сосредоточился в то время, заключался в том, каковы наиболее важные компоненты речи и почему нас не сбивают с толку такие переменные, как акцент, бормотание или интонация, создаваемые этими компонентами?

«Этот вопрос задавался много раз на протяжении всей истории, но так и не получил полного ответа. Теория мышления, над которой работали столько лет, на самом деле развивалась совершенно неправильно, и эта неправильность восходит к самым ранним дням теории», — говорит Тишби. «Мы были в 1940-х годах, когда Клод Шеннон впервые выдвинул эту теорию, и теория заключалась в том, что информация не может состоять полностью из единиц и нулей. Но нет недостатка в людях, которые думают, что это не так.

Например, давайте представим себе X как сложную систему данных, например изображения собак, а Y как простую переменную, представленную этими данными, например, почерк собаки. Сжимая систему данных X до точки, где мы все еще можем предсказать Y, мы все еще можем найти взаимосвязь между ними. Фернандо Перейра и Уильям Билаек написали эту теорию вместе с Тишби и опубликовали ее в 1999 году. Тишби сказал: «На самом деле эта теория крутилась у меня в голове по частям, но мы так и не изложили ее в письменной форме. К счастью, глубокое обучение стало тенденцией».

На самом деле глубокое обучение существует уже много лет, как в теории, так и на практике, но только в 2010-х годах оно начало широко использоваться в обработке аудио и изображений. Тишби пришла в голову идея увеличить потенциал этих приложений с помощью алгоритмов обучения после прочтения статьи Дэвида Шваба и Панкаджа Мехды в 2014 году. Дуэт обнаружил, что так называемый сетевой механизм глубокого убеждения, предложенный Хинтоном, работает так же, как перенормировка в физике. Они увидели, что сеть глубокого убеждения, которую они протестировали на своего рода фрактале, может предсказать общее состояние системы, используя эту перенормировку. Это была первая связь между статистической физикой и сетями глубокого обучения.

Но была проблема, мир не состоял из фракталов. По словам Кранмера, «нет глаза над глазом и нет уха над ухом». Глаза на лицах людей, лица на телах, и все на фоне. Вот почему сети глубокого обучения так плохо работают с реальными изображениями.

Но именно во время химиотерапии рака поджелудочной железы Тишби увидел связь между ними. «Наука была единственным, что поддерживало меня тогда», — добавляет он. В исследовании 2015 года, которое он провел со своими учениками, они доказали, что глубокое обучение — это, по сути, процесс просеивания данных, которые считаются шумом, и в конечном итоге получение фундаментальных знаний. В ходе этого исследования они наблюдали, насколько этот процесс обучения соответствует концепции узкого места.
В одном исследовании ученые решили создать небольшую обучаемую сеть и снабдили ее 282 соединениями разного веса. Затем они загрузили в сеть 3000 единиц контента и наблюдали, что произойдет.

Каждые данные, поступающие в систему, запускают в системе движение снизу вверх, и когда данные достигают вершины, результат равен 1 или 0. Каждая разница между вводом и выводом в системе обучала систему и заставляла алгоритм работать лучше. плавно. Чем дольше шел процесс обучения, тем точнее становился механизм принятия решений системой. По мере того, как система продолжала работать, установленные ею связи укреплялись, и она начала распознавать объекты, легко принимая правильное решение.

После этого эксперимента Тишби и его ученики измерили, какое количество данных, полученных ими для каждого этапа, можно передать на следующий этап. Таким образом, ученые слой за слоем видели доказательства теории узкого места. Система обучалась, удаляя бесполезную информацию. Другими словами, максимально уменьшив входные данные, система смогла сделать успешный вывод. В конце этого эксперимента Тишби и его ученики разделили глубокое обучение на две фазы. Они назвали первую часть маркировкой, а вторую часть сжатием. Другими словами, на первом этапе сеть учится и обозначает, что есть что, а на втором этапе она успешно обобщает.

Во время глубокого обучения объем информации, хранящейся в сети, обычно остается постоянным или немного увеличивается. Специалисты сравнивают этот этап с запоминанием. После этой фазы система переходит к фазе сжатия, где она сокращает поступающую информацию, сохраняя только общие и сильные признаки и вычисляя корреляцию между ними. После этого этапа система случайным образом проверяет наличие ложных корреляций, усиливая сети. Эта случайность позволяет системе лучше распознавать входные данные. Например, рассмотрим изображение собаки на фоне дома. В процессе обучения система начинает забывать о связи между домом и собакой. По словам Тишби, именно этот процесс забывания и делает систему успешной.

Очевидно, трудно понять, применима ли эта теория узких мест ко всем алгоритмам глубокого обучения. Многие исследователи считают, что теория Тишби ничем не отличается от многих других выдвинутых теорий. Эндрю Сакс, работавший над глубоким обучением, представляет другую точку зрения. Согласно его исследованию, сети с более глубоким обучением вообще не применяют фазу, называемую сжатием. Вместо этого активируется фаза, называемая ранней остановкой, и таким образом предотвращаются ненужные корреляции. Ранняя остановка сокращает фазу обучения и предотвращает ненужные корреляции.

Тишби считает, что разница между этими алгоритмами не так велика, как можно подумать. Однако он считает, что теория узких мест очень применима к этим алгоритмам.

Люди и компьютеры
Как мозг изменяет сигналы и превращает их в информацию, до сих пор остается для нас загадкой, но мы думаем, что сможем понять это с помощью реверс-инжиниринга. Инженеры искусственного интеллекта уже перестали атаковать различные технологии и пытаются довести существующие алгоритмы до биологического совершенства. Хотя мы опасаемся, что однажды нас заменят машины, исследования идут полным ходом. Бренден Лейк, профессор Нью-Йоркского университета, изучает различия в обучении людей и машин, и, по его словам, теория Тишби отвечает на многие вопросы о человеческом мозге. Но человеческий мозг гораздо больше, чем эта теория. Мозг взрослого человека имеет несколько сотен триллионов соединений и 81 миллиард нейронов. Вся эта сеть может обрабатывать звук и изображения и выполнять сложные операции, недоступные компьютерам.

Например, фаза идентификации и сжатия, описанная Тишби, похоже, плохо работает с детьми. Чтобы ребенок научился писать от руки, не нужно показывать ему миллион разных примеров. Наоборот, одного примера может быть достаточно. Лейк и его коллеги говорят, что думать о картинке как о наборе пикселей и пытаться передать ее компьютеру, разбивая на пиксели. Вместо этого, добавляет он, они ищут алгоритм, который идентифицирует объекты как единое целое.

Следует отметить, что как искусственные, так и настоящие нейронные сети могут иметь трудности с некоторыми обычными задачами. Известно, что у многих людей возникают проблемы даже с умножением чисел на 2. Еще один момент, на который Тишби хочет обратить внимание, — это криптография. Он считает, что алгоритмы глубокого обучения никогда не будут успешными в решении криптографических алгоритмов.