Публикации по теме 'large-language-models'


Расширение возможностей языковых моделей: предварительное обучение, тонкая настройка и обучение в контексте
Введение: Языковые модели достигли значительных успехов в понимании и генерации естественного языка. Эти модели обучаются посредством сочетания предварительного обучения, точной настройки и обучения в контексте. В этом сообщении блога мы углубимся в эти три основных подхода, поймем их различия и изучим, как они способствуют процессу изучения языковых моделей. Предварительная подготовка: Предварительное обучение — это начальная фаза изучения языковых моделей. Во время..

Масштабирование до 1 000 000 000 токенов: сила расширенного внимания в LONGNET
Трансформаторы, представленные Васвани и др. в 2017 году, несомненно, являются краеугольным камнем современного LLM и многих других задач машинного обучения. Одной из основных причин их беспрецедентного успеха является механизм самообслуживания. Однако по мере масштабирования моделей этот самый механизм стал узким местом в вычислениях, особенно для длинных последовательностей. В этом блоге я подробно расскажу об инновационном подходе под названием Расширенное внимание , центральном в..

Магистр права: от нуля до героя. Эти статьи — все, что вам нужно — Часть 2
Давайте продолжим о том, как оценивать LLM. Критерии оценки включают возможности модели, размер, точность, скорость вывода, размер контекста и стоимость. Возможности Большие модели Gpt4, Palm 2 и cohere (больше параметров) с закрытым исходным кодом обычно дают лучший отклик и обладают гораздо большими возможностями. (Классификация, ответы на вопросы, рассуждения, обобщение, генерация кода). Llama2, которая на данный момент является ведущей моделью с открытым исходным кодом, лишь..

Как использовать вызов функций OpenAI
Обзор вызова функций и его значения для создания приложений LLM Структурирование неструктурированного Вызов функций — это инновация от OpenAI , которая расширила возможности разработки приложений на основе больших языковых моделей. Однако я обнаружил, что некоторые по-прежнему неправильно его понимают. В этой статье я постараюсь пояснить вызовы функций за то время, которое вам нужно, чтобы приготовить чашку кофе. Если у вас есть стремление создавать приложения LLM, интегрировать..

FlashAttention: быстрое и экономичное точное внимание с поддержкой операций ввода-вывода
Стандартное внимание имеет квадратичную сложность с точки зрения длины последовательности (количества токенов). Чтобы уменьшить сложность, в методах эффективного внимания были предложены разреженные и / или низкоранговые приближения. Эти приближения уменьшают сложность до линейной или почти линейной по отношению к длине последовательности. Тем не менее, эти методы либо отстают по производительности, либо не обеспечивают ускорения настенных часов по сравнению со стандартным вниманием...

Пять лучших статей о моделях больших языков: краткий обзор{Часть 3}
Введение Большие языковые модели (LLM), особый вариант искусственного интеллекта (ИИ), отлично подходят для обработки и создания текстового контента. Они изучают обширные наборы данных, включающие текст и код , что позволяет им понимать статистические корреляции между словами и фразами. Учебными ресурсами для этих моделей являются объемные текстовые данные (например, общедоступное содержимое (WikiPedia и т. д.)), которые облегчают их способность различать закономерности и отношения..

Как оценить качество чат-ботов на основе LLM
Стратегии программной и качественной оценки чат-ботов, созданных с помощью GPT и LlamaIndex. Почему меня волнует оценка чат-ботов В рамках Buildspace Nights and Weekends в настоящее время я работаю над изучением способов надежного повышения производительности чат-ботов с поддержкой данных. Я пытаюсь улучшить производительность одного конкретного приложения, моего Legal Tech Bot , чтобы найти стратегии, которые могут быть применимы в более широком смысле. Сначала несколько..