Пять лучших статей о моделях больших языков: краткий обзор{Часть 3}

Введение

Большие языковые модели (LLM), особый вариант искусственного интеллекта (ИИ), отлично подходят для обработки и создания текстового контента. Они изучают обширные наборы данных, включающие текст и код, что позволяет им понимать статистические корреляции между словами и фразами. Учебными ресурсами для этих моделей являются объемные текстовые данные (например, общедоступное содержимое (WikiPedia и т. д.)), которые облегчают их способность различать закономерности и отношения в языке. По сути, это искусственный интеллект с глубоким обучением, который был специально разработан для создания текстового контента.

Модели больших языков (LLM) могут выполнять массив задач:

Перевод между языками: текст можно конвертировать с одного языка на другой с помощью LLM.
Обобщающий текст: LLM могут создавать сокращенные версии длинного текста.
Отвечая на запросы: эти модели могут отвечать на запросы, касающиеся определенного текста.
Генерация текста: LLM могут создавать различные формы текста, такие как стихи, сценарии, компьютерный код, музыкальные произведения, электронные письма, письма и многое другое.

Вот 5 лучших статей о больших языковых моделях:

1. Внимание — это все, что вам нужно

Авторы: Васвани А., Шазир Н., Пармар Н., Ушкорейт Дж., Джонс Л., Гомес А.Н., Кайзер Л., Полосухин И.
Опубликовано: 2017 г.
Аннотация: В этом документе представлена архитектура трансформатора (описанная в моей предыдущей статье https://shashi-soppin.medium.com/transformers-a-revolution-in-machine-learning-and-beyond- part-2-8e00be2e0195»), которая сейчас является основой большинства больших языковых моделей. Преобразователь — это нейронная сеть, которая использует собственное внимание для изучения долгосрочных зависимостей в данных. Благодаря этому он хорошо подходит для таких задач, как машинный перевод и обобщение текста.
Архитектура Transformer — это революционная модель нейронной сети, которая стала основой для многих больших языковых моделей, используемых в задачах обработки естественного языка (NLP). Он использует механизм самоконтроля для изучения долгосрочных зависимостей в данных, что делает его хорошо подходящим для таких задач, как машинный перевод и суммирование текста.
В этой вышеупомянутой статье предложена новая архитектура нейронной сети, основанная на самовнимании, которая может эффективно фиксировать отношения между разными словами в предложении, не полагаясь на рекуррентные нейронные сети (RNN) или сверточные слои, которые ранее были широко распространены. используется в языковом моделировании.
Механизм внутреннего внимания в Transformer позволяет каждому слову в предложении «обращать внимание» на все остальные слова в предложении при создании собственного представления. Это позволяет модели учитывать весь контекст предложения при кодировании каждого слова, что делает ее особенно эффективной при обработке долгосрочных зависимостей в данных.
Исходная ссылка: https://arxiv.org/abs/1706.03762

2. BERT: предварительное обучение глубоких двунаправленных преобразователей для понимания языка

Авторы: Девлин Дж., Чанг М.В., Ли К. и Тутанова К.
Опубликовано: 2018 г.
Аннотация. В этом документе представлена BERT (представления двунаправленного кодировщика от преобразователей), большая языковая модель, предварительно обученная на массивном наборе данных текста и данных. код. Было показано, что BERT эффективен при выполнении различных задач обработки естественного языка, таких как ответы на вопросы и логические выводы на естественном языке.
В этой статье авторы представили BERT, новую модель языкового представления, предварительно обученную на большом наборе данных текста и кода. BERT – это двунаправленная модель, которая может учитывать как левый, так и правый контекст слова, что делает ее хорошо подходящей для таких задач, как ответы на вопросы и вывод на естественном языке.
Авторы оценили BERT в различных задачах обработки естественного языка и показали, что во всех из них он достигает самых современных результатов. Они также показали, что BERT можно точно настроить для конкретных задач и использовать для повышения производительности других моделей обработки естественного языка.
Результаты показывают, что BERT — это новый мощный инструмент для обработки естественного языка, который может революционизировать то, как мы взаимодействуем с компьютерами.
Ссылка: 1) https://arxiv.org/abs/1810.04805

2) https://medium.com/@skillcate/bert-for-dummies-state-of-the-art-model-from-google-42639953e769

3. Генеративный предварительно обученный преобразователь 3 (GPT-3)

Авторы: Браун, Т. Б., Манн, Б., Райдер, Н., Суббиа, М., Каплан, Дж., Дхаривал, П., … Амодеи, Д.
Опубликовано: 2020
Аннотация. В этом документе представлена GPT-3, большая языковая модель, предварительно обученная на большом наборе данных текста и кода. Было доказано, что GPT-3 эффективен в различных задачах обработки естественного языка, таких как генерация текста, обобщение и ответы на вопросы.
В этой статье авторы представляют архитектуру преобразователя, новую архитектуру нейронной сети, которая достигла самых современных результатов в различных задачах обработки естественного языка. Преобразователь — это модель внутреннего внимания, которая использует собственное внимание для изучения долговременных зависимостей в данных. Это делает его хорошо подходящим для таких задач, как машинный перевод и суммирование текста.
Авторы сравнили преобразователь с другими архитектурами нейронной сети в различных задачах обработки естественного языка и показали, что преобразователь постоянно превосходит другие архитектуры. Они также показали, что Трансформатор можно масштабировать до очень больших моделей, что еще больше повышает его производительность.
Результаты показывают, что трансформер — это новый мощный инструмент для обработки естественного языка, который может революционизировать способы взаимодействия людей с компьютерами.
Исходная ссылка: https://arxiv.org/abs/2005.14165

4. PaLM: языковая модель пути

Авторы: Рэдфорд А., Нарасимхан К., Салиманс Т., Суцкевер И. и Ховард Дж.
Опубликовано: 2022 г.
Аннотация: В этом документе представлена PaLM (языковая модель путей), большая языковая модель, предварительно обученная на массивном наборе данных текста и кода. Было показано, что PaLM эффективен при выполнении различных задач обработки естественного языка, таких как генерация текста, обобщение и ответы на вопросы.
PaLM — это языковая модель с 540 миллиардами параметров, обученная на большом наборе данных текста и кода. Он достигает самых современных результатов в различных задачах обработки естественного языка, включая ответы на вопросы, обобщение и перевод. PaLM все еще находится в стадии разработки, но у него есть потенциал революционизировать то, как мы взаимодействуем с компьютерами.

Вот некоторые из основных выводов из статьи:

PaLM — это мощная языковая модель, с помощью которой можно достичь самых современных результатов в различных задачах обработки естественного языка.
PaLM способен изучать дальнодействующие зависимости в тексте, что делает его подходящим для таких задач, как ответы на вопросы и подведение итогов.
PaLM может создавать связный и информативный текст.
PaLM может переводить текст с одного языка на другой с высокой точностью.

Авторы статьи считают, что PaLM может революционизировать то, как мы взаимодействуем с компьютерами. PaLM можно использовать для создания более естественных и привлекательных пользовательских интерфейсов, для автоматизации задач, которые в настоящее время выполняются людьми, и для создания нового творческого контента.

Вот некоторые из lимитаций PaLM:

PaLM — это большая модель, для обучения и развертывания которой требуется много вычислительных ресурсов (ЦП и памяти).
PaLM обучается на массивном наборе данных текста и кода, который может не отражать весь реальный язык.
PaLM — это статическая модель, которую нельзя обновлять, чтобы отражать измененияв мире.

Авторы статьи считают, что PaLM все еще находится в стадии разработки, и что эти ограничения будут устранены в будущем.

В целом, PaLM — это мощная языковая модель, способная революционизировать наше взаимодействие с компьютерами.

Ссылка: https://arxiv.org/abs/2204.02311

5. Switch Transformers: масштабирование языкового моделирования с блочным вниманием

Авторы: Раффель К., Шазир Н., Робертс А., Ли К. и Суцкевер И.
Опубликовано: 2022 г.
Аннотация: В этом документе представлены Switch Transformers, новая архитектура для больших языковых моделей, которая использует блочное внимание для увеличения размера модели. Было показано, что Switch Transformers эффективны при выполнении различных задач обработки естественного языка, таких как генерация текста, обобщение и ответы на вопросы.

Бумага делает следующие вклады:

Представляет Switch Transformer, новую архитектуру для больших языковых моделей, которая использует блочное внимание для увеличенияразмера модели. .
Демонстрирует, что Switch Transformers могут достигать самых современных результатов в различных задачах обработки естественного языка.
Предоставляет информацию об эффективности переключающих трансформаторов и определяет области для будущих исследований.

Вот некоторые из основных выводов из статьи:

Switch Transformers могут масштабироваться до гораздо больших размеров моделей, чем в предыдущих языковых моделях, без ущерба для производительности.
Switch Transformers способны запоминать долгосрочные зависимости в тексте, что очень важно для таких задач, как ответы на вопросы и подведение итогов.
Switch Transformers могут создавать связный и информативный текст.
Switch Transformers способны переводить текст с одного языка на другой с высокой точностью.

Авторы статьи считают, что Switch Transformers могут революционизировать то, как мы взаимодействуем с компьютерами. Switch Transformers можно использовать для создания более естественных и привлекательных пользовательских интерфейсов, для автоматизации задач, которые в настоящее время выполняются людьми, и для создания нового творческого контента.

Вот некоторые из ограничений Switch Transformers:

Коммутационные трансформаторы представляют собой новую архитектуру, и предстоит еще много исследований, чтобы понять их все возможности.
Switch Transformers — это модель с большими вычислительными затратами для обучения и развертывания.
Switch Transformers обучаются на огромном наборе данных текста и кода, которые могут не отражать все языки реального мира.

Авторы статьи считают, что переключающие трансформаторы все еще находятся в стадии разработки, и что эти ограничения будут устранены в будущих работах.

В целом, Switch Transformers — это многообещающая новая архитектура для больших языковых моделей, которая может революционизировать способ нашего взаимодействия с компьютерами.

Ссылка: 1) https://arxiv.org/abs/2203.07099

2) https://arxiv.org/abs/2101.03961

3) https://towardsdatascience.com/understanding-googles-switch-transformer-904b8bf29f66

Заключение

Вот некоторые из ключевых особенностей больших языковых моделей, описанных ранее:

Огромные наборы данных. LLM обучаются на больших наборах данных текста и кода. Это позволяет им изучать статистические отношения между словами и фразами, что необходимо для таких задач, как машинный перевод и обобщение текста.
Самовнимание.LLM используют технику, называемую самовнимание, для изучения долговременных зависимостей в данных. Благодаря этому они хорошо подходят для таких задач, как ответы на вопросы и логический вывод на естественном языке.
Параметризация. LLM имеют большое количество параметров. Это позволяет им представлять сложные отношения между словами и фразами.