Превосходит GPT-3 с параметрами в 10 раз меньше

С помощью своей новой языковой модели Meta AI хочет доказать, что можно обучать современные LLM, которые легче и используют только общедоступные наборы данных.

Большие языковые модели — вариант закона Мура с использованием ИИ

С момента внедрения языковых моделей на основе трансформеров между исследователями ИИ из Big Tech продолжается гонка вооружений по разработке лучших языковых моделей. Результатом этого процесса стало создание новой категории современных моделей ИИ — больших языковых моделей (LLM). Этот тип архитектуры существует с 2017 года, но стал популярным в ноябре 2022 года, когда OpenAI представила ChatGPT.

Многие говорят, что мы наблюдаем новую вариацию закона Мура. Первоначальный закон гласил, что количество транзисторов на микрочипе будет удваиваться каждые два года,увеличивая вычислительную мощность и снижая стоимость одного транзистора. Закон Мура, основанный на искусственном интеллекте, больше похож на бремя.

Архитектура LLM позволяет повысить их производительность за счет наложения дополнительных слоев преобразователя, которые строятся на огромном количестве обучаемых параметров. Это привело к тому, что количество параметров LLM увеличивалось в 10 раз каждый год.

Чем больше слоев мы используем, тем больше вычислительной мощности и данных требуется для настройки их параметров. Это делает исследования языковых моделей значительно менее инклюзивными.

Стоимость обучения одной модели к 2030 году должна достичь 500 миллионов долларов, что значительно превышает нынешнюю стоимость в 100 миллионов долларов. Переобучение, тонкая настройка и обслуживание логических выводов также требуют огромных ресурсов. Это ставит перед независимыми исследователями и стартапами задачу успешной разработки и использования растущего потенциала языковых моделей.

Чтобы решить эту проблему, Meta AI представил LLaMA, набор базовых языковых моделей с параметрами от 7 до 65 миллиардов. Как говорится в пресс-релизе Meta AI, LLaMA был «разработан, чтобы помочь исследователям продвинуть свою работу в этой области ИИ.

Меньшие по размеру и более производительные модели, такие как LLaMA, позволяют другим членам исследовательского сообщества, не имеющим доступа к большому объему инфраструктуры, изучать эти модели, еще больше демократизируя доступ в этой важной, быстро меняющейся области.

Вот обзор набора обучающих данных, архитектуры и производительности LLaMA.

Набор обучающих данных

В отличие от большинства существующих больших языковых моделей, которые полагаются на данные, которые либо не являются общедоступными, либо недокументированы, LLaMA обучался с использованием только общедоступных данных, например:

Английский CommonCrawl (67% всего набора данных)
Набор данных C4 (15%)
Набор данных Github (4,5%)
Википедия (4,5%)
Гутенберг и книги3 (4,5%)
Арксив (2,5%)
Обмен стеками (2%)

Текстовые данные были токенизированы с использованием алгоритма сжатия данных кодирования пар байтов (BPE). После токенизации весь обучающий набор данных содержит 1,4 триллиона токенов.

Архитектура

LLaMA, как и другие LLM, основан на архитектуре Transformers, обученной на большом количестве текстовых данных. Хотя это не совсем оригинальная архитектура, представленная в 2017 году. Ее архитектура была дополнена различными улучшениями, которые впоследствии были внедрены и использовались в предыдущих языковых моделях, например:

Предварительная нормализация — нормализация входных данных вместо выходных с использованием алгоритма RMSNorm.
Замена функции активации ReLU на SwiGLU (также используется в PaLM)
Замена абсолютных позиционных вложений на поворотные позиционные вложения (RoPE)

Обучение

Согласно документу, обучение модели с 65 миллиардами параметров по всему набору данных занимает примерно 21 день на графическом процессоре 2048 A100 с 80 ГБ ОЗУ. Модели обучались со следующей настройкой:

AdamW оптимизатор со значениями параметров β1 = 0,9 и β2 = 0,95
График косинусной скорости обучения (с конечной скоростью обучения, равной 10% от максимальной скорости обучения)
Уменьшение веса на 0,1
Обрезка градиента 1,0
2000 шагов разминки
Дополнительные усилия по повышению эффективности обучения (параллелизм последовательности моделей, уменьшение количества активаций и перекрытие их вычислений, эффективный оператор многоголового внимания)

Производительность

Основываясь на оценках производительности из документа LLaMA, мы видим, что самая большая версия модели LLaMA (65 миллиардов параметров) способна достичь аналогичной производительности или даже превзойти большинство ведущих LLM, таких как Chinchilla (70 миллиардов параметров) и PaLM (до 540 миллиардов параметров). Даже версия с 13 миллиардами параметров способна превзойти GPT-3, несмотря на то, что она в 10 раз меньше.

Модели LLaMA также показывают многообещающие результаты в контрольных тестах, которые измеряют предвзятость, токсичность и дезинформацию.

Область, в которой процветают модели LLaMA, — это уменьшение углеродного следа. Большие языковые модели из-за высокой потребности в вычислительной мощности потребляют огромное количество электроэнергии. Чем меньше параметров используется, тем эффективнее обучение и обслуживание.

Выводы

С тех пор, как к власти пришли языковые модели на основе преобразователей, независимому специалисту по данным стало гораздо труднее вносить свой вклад в исследование. Новейшая разработка Meta LLM — это шаг в многообещающем направлении. Наличие более крупного исследовательского сообщества, способного экспериментировать на фундаментальном уровне этих моделей, может ускорить повышение производительности и надежности современных приложений ИИ.

Также стоит отметить, что исследователи искусственного интеллекта Big Tech принимают во внимание снижение других рисков, не связанных с качеством модели, таких как распространение дезинформации/предубеждений и воздействие на окружающую среду.

Превосходит GPT-3 с параметрами в 10 раз меньше — Meta AI представляет LLaMA