GPT-3: хорошее, плохое и уродливое

"Мнение"

GPT-3: хорошее, плохое и уродливое

Изменит ли большие языковые модели способ разработки приложений НЛП?

Если вы следите за последними новостями об искусственном интеллекте, вы, вероятно, встречали несколько потрясающих приложений последней версии Language Model (LM), выпущенной OpenAI: GPT-3. Приложения, которые эта LM может подпитывать, могут варьироваться от ответов на вопросы до генерации кода Python. Список вариантов использования растет с каждым днем. Посмотрите следующие видеоролики на YouTube: Демонстрация и объяснение GPT-3, 14 крутых приложений GPT-3 и Еще 14 приложений GPT-3.

GPT-3 в настоящее время находится в стадии бета-тестирования, и только ограниченное число людей имеет доступ, но он будет выпущен для всех 1 октября. OpenAI был очень заинтересован в распространении ажиотажа и демонстрации потрясающих образцов классных приложений. По состоянию на 22 сентября 2020 года их стратегия явно отработала. Во время написания этого сообщения в блоге Microsoft объявила, что они приобрели исключительные права на языковую модель. OpenAI, вероятно, продолжит лицензировать доступ к LM через API, но покупка Microsoft позволила OpenAI получить рентабельность инвестиций в размере 4,6 миллиона долларов - ориентировочная стоимость обучения этой массивной LM.

Поскольку OpenAI весьма успешен в своем маркетинге, привлекая множество людей для публикации увлекательных примеров, которые, строго говоря, являются лишь анекдотическим свидетельством возможностей, следует относиться к нынешней шумихе с некоторым скептицизмом. Скорее всего, люди будут публиковать только примеры, подтверждающие их предубеждение в отношении того, что машина «понимает» язык на новом уровне. В то же время негативные примеры, такие как расистские истории, которые автоматически создаются, когда вы подсказываете «три мусульманина», как обсуждается ниже, должны вызывать беспокойство по поводу потенциально большего вреда, чем пользы.

Прежде чем я буду обсуждать более подробно хорошее, плохое и уродливое, давайте кратко рассмотрим, в чем заключается главный вклад GPT-3. В прошлом году OpenAI выпустила предыдущую версию под названием GPT-2. С тех пор технология не изменилась. По сути, это огромный объем данных, который привел к созданию LM с теперь 175 миллиардами параметров по сравнению с используемыми в настоящее время LM, такими как T5 с 11 миллиардами параметров. После обучения данные модели в основном сканировались из Интернета, авторы смогли показать, что система способна достичь или даже превзойти современные системы в различных задачах НЛП (например, ответы на вопросы, машинный перевод). . Однако самым впечатляющим был тот факт, что система никогда не обучалась выполнению задач и смогла достичь приемлемой производительности без одного, одного или нескольких примеров (т.

Рисунок из статьи GPT-3 иллюстрирует, как GPT-3 можно рассказать с помощью нескольких примеров, как выполнять задачу, в отличие от традиционного подхода тонкой настройки модели глубокого обучения путем подачи в нее большого количества примеров (…) . Кроме того, для тонкой настройки также необходимо заранее определить пространство решений (то есть количество меток), и вы должны убедиться, что у вас достаточно примеров в ваших обучающих данных, чтобы машина могла научиться различать разные классы. Все это не требуется при использовании GPT-3 (при условии, что в данных, которые были переданы в LM, было достаточно данных для задачи).

Хорошее

GPT-3 показывает впечатляющие результаты для ряда задач НЛП, таких как ответы на вопросы (QA), генерация кода (или другие формальные языки / редакционная помощь) и (вымышленная) генерация историй. Эти приложения показали впечатляющие результаты и, скорее всего, будут включены в уже существующую систему, демонстрируя улучшения по сравнению с нынешним уровнем развития техники.

В документе GPT-3 показаны, например, впечатляющие результаты для различных задач QA, таких как TriviaQA. Весьма многообещающе, что обучение с несколькими выстрелами часто дает лучшие результаты, чем обучение с одним или нулевым выстрелом, что указывает на то, что с более размеченными примерами LM может улучшиться еще больше.

Это приложение, которое, вероятно, получит наибольшую выгоду от GPT-3:

Улучшение ответов на вопросы (при использовании в качестве дополнительной составляющей сложной QA-системы).
Поддержка создания контента (как мы уже видели с автоматическим предложением). На ум приходят помощники по составлению документов, предложения запросов.
Легкий доступ к технологии глубокого обучения позволит создавать мощные приложения без большого количества обучающих данных.

В частности, последний пункт может привести к предположению, что создавать приложения без особых технических знаний будет легко. Использование игровой площадки GPT-3 позволило бы каждому изучить концепции, которые можно быстро протестировать с помощью обучения с минимальными затратами времени. Следующие примеры показывают, как кто-то, имея всего два примера, может получить ответы на такие вопросы, как «Какие элементы…?» Я искал ответы на первые два вопроса в Интернете, и ответ на третий вопрос был сгенерирован системой. Без этих двух примеров ответ системы был слишком коротким и неинформативным, но только два примера указывают на «правильный» путь (полужирный - мой ввод, нормальный шрифт - продолжение GPT-3):

В: Каковы элементы посягательства на владение?

О: Посягательство - это посягательство на исключительное право другого человека на владение собственностью. Это прямое незаконное вмешательство в чужую собственность. Как правило, основными элементами посягательства являются незаконное вторжение или вторжение в собственность, намерение вторжения, применение силы и последующее причинение вреда владельцу.

В: Каковы элементы мошенничества?

A: В Соединенных Штатах общее право обычно определяет девять элементов, необходимых для установления факта мошенничества: (1) представление фактов; (2) его ложность; (3) его существенность; (4) знание представителем своей ложности или незнание ее истинности; (5) намерение представителя, чтобы лицо действовало в соответствии с ним разумно предполагаемым образом; (6) незнание потерпевшей стороной своей лжи; (7) уверенность потерпевшей стороны в своей правде; (8) право потерпевшей стороны полагаться на это; и (9) последующая и непосредственная травма потерпевшей стороны.

В: Каковы элементы гражданского заговора?

A: (1) соглашение между двумя или более людьми; (2) явное действие одной или нескольких сторон для достижения цели заговора; и (3) убытки, понесенные потерпевшей стороной в результате сговора.

Хотя эти ответы звучат очень впечатляюще (по крайней мере, для меня как не юриста), следует осознавать риски, которые может принести использование LM без каких-либо дополнительных гарантий.

Плохо

Одной из задач QA, на которой был протестирован GPT-3, был NaturalQS, который ориентирован на фактическую точность. GPT-3 не справился с этой задачей, но получил высокие оценки за простые вопросы. Такое поведение вызывает беспокойство, поскольку, похоже, указывает на то, что пары вопросов и ответов, которые часто встречаются в Интернете, с большей вероятностью будут даны как правильные ответы. Но понимание текста, необходимое для ответа на сложный вопрос из одного примера текста, явно выходит за рамки возможностей LM. Однако если ответ звучит авторитетно и написан на правильном английском языке, люди могут не так легко определить неправильный ответ.

На самом деле людям становится все труднее отличать новости, написанные машиной, от статей, написанных людьми. Один из экспериментов, описанных в статье GPT-3, показал, что людям сложно распознавать новости, генерируемые машинами. Чем больше был LM, тем больше проблем возникало у людей при правильной идентификации машинно-написанных новостей, и с самой большой версией GPT-3 (параметры 175B) решение было в основном подбрасыванием монеты.

Другой риск использования этого LM без фильтрации - это отсутствие обоснования ответов. Несмотря на то, что сгенерированное предложение может дать правильный ответ, нет возможности сделать резервную копию этого утверждения. Языковая модель основана только на частотах употребления слов, но не на глубоком понимании законов и прецедентного права, например. Недавняя научная статья Эмили Бендер и Александра Коллера содержит аналогичную критику, утверждая, что значение языка нельзя узнать из LM.

Еще более сокрушительный упрек GPT-3 был сделан Гэри Маркус и Эрнестом Дэвисом в недавней статье MIT Technology Review. Они показали, что модель не понимает, что она генерирует через различные продолжения сложных ситуаций, которые потребуют социального / биологического / физического или другого рода рассуждений (опять же, нормальный шрифт - это продолжение GPT-3):

Вы налили себе стакан клюквенного сока, но затем рассеянно налили в него примерно чайную ложку виноградного сока. Выглядит нормально. Вы пытаетесь понюхать его, но у вас сильная простуда, поэтому вы ничего не чувствуете. Вы очень хотите пить. Итак, вы выпьете.

Вы умерли.

Каким-то образом GPT-3 считает виноградный сок ядовитым, хотя в Интернете можно найти множество рецептов напитков, в состав которых входят клюква и виноград. Причем вывод о том, что напиток может оказаться смертельным, приходит как-то ниоткуда. Маркус и Дэвис приходят к выводу, что GPT-3 «[я] беспрерывный источник чуши, но даже со 175 миллиардами параметров и 450 гигабайтами входных данных он не является надежным интерпретатором мира».

В дополнение к этим рискам, модель LM хорошо работает только для языковой генерации, будь то ответ или вымышленный текст. С другой стороны, другие задачи НЛП не могут быть решены с помощью GPT-3. Типичные задачи, такие как извлечение именованных сущностей (т. Е. Маркировка строк в зависимости от того, являются ли они именами компаний или людей) или задача классификации текста, являются более сложными для LM.

Уродливый

Хорошо известно, что приложениями НЛП, такими как чат-боты, иногда бывает сложно управлять, и в итоге может получиться программа, извергающая расистские или сексистские комментарии, как Microsoft пришлось усвоить, когда они выпустили своего чат-бота Tay в 2016 году. К их чести, OpenAi решила эту проблему с самого начала и выявила токсичный или просто политический контент, созданный с предупреждением. Необходимо увидеть, как они будут контролировать приложения, которые могут только случайно (или намеренно) генерировать расистские или сексистские высказывания.

Другой пользователь бета-версии также поспешил указать, что запрос GPT-3 с «тремя мусульманами» часто приводит к тексту, в котором они изображаются как террористы или преступники. Мои собственные эксперименты подтвердили эту предвзятость, и я также обнаружил аналогичную тенденцию изображать их в стереотипном виде, когда я побуждал LM к другим религиозным группам или национальностям.

Debiasing LM является активной исследовательской темой в сообществе, и я ожидаю увидеть еще большую активность в этой области. OpenAI явно знает об этом, и они тратят много времени на то, как их API следует и не следует использовать в условиях использования.

Выводы

Несмотря на ограничения и возможный токсичный текст, который может генерировать GPT-3, я считаю, что этот LM - увлекательный новый инструмент, который, вероятно, вызовет улучшения задач НЛП, требующих создания языка. В сочетании с другими технологиями и соответствующими мерами безопасности это еще больше расширит возможности искусственного интеллекта, которые мы можем использовать для наших продуктов. Люди могут также придумать новые применения этой технологии, о которых еще никто не думал. Перевод с легальского на простой английский может быть только началом дальнейших инноваций, которые эта технология будет стимулировать.

GPT-3: хорошее, плохое и уродливое

"Мнение"