Публикации по теме 'large-language-models'
Расширение возможностей языковых моделей: предварительное обучение, тонкая настройка и обучение в контексте
Введение:
Языковые модели достигли значительных успехов в понимании и генерации естественного языка. Эти модели обучаются посредством сочетания предварительного обучения, точной настройки и обучения в контексте. В этом сообщении блога мы углубимся в эти три основных подхода, поймем их различия и изучим, как они способствуют процессу изучения языковых моделей.
Предварительная подготовка:
Предварительное обучение — это начальная фаза изучения языковых моделей. Во время..
Масштабирование до 1 000 000 000 токенов: сила расширенного внимания в LONGNET
Трансформаторы, представленные Васвани и др. в 2017 году, несомненно, являются краеугольным камнем современного LLM и многих других задач машинного обучения. Одной из основных причин их беспрецедентного успеха является механизм самообслуживания. Однако по мере масштабирования моделей этот самый механизм стал узким местом в вычислениях, особенно для длинных последовательностей.
В этом блоге я подробно расскажу об инновационном подходе под названием Расширенное внимание , центральном в..
Магистр права: от нуля до героя. Эти статьи — все, что вам нужно — Часть 2
Давайте продолжим о том, как оценивать LLM. Критерии оценки включают возможности модели, размер, точность, скорость вывода, размер контекста и стоимость.
Возможности
Большие модели Gpt4, Palm 2 и cohere (больше параметров) с закрытым исходным кодом обычно дают лучший отклик и обладают гораздо большими возможностями. (Классификация, ответы на вопросы, рассуждения, обобщение, генерация кода). Llama2, которая на данный момент является ведущей моделью с открытым исходным кодом, лишь..
Как использовать вызов функций OpenAI
Обзор вызова функций и его значения для создания приложений LLM
Структурирование неструктурированного
Вызов функций — это инновация от OpenAI , которая расширила возможности разработки приложений на основе больших языковых моделей.
Однако я обнаружил, что некоторые по-прежнему неправильно его понимают. В этой статье я постараюсь пояснить вызовы функций за то время, которое вам нужно, чтобы приготовить чашку кофе.
Если у вас есть стремление создавать приложения LLM, интегрировать..
FlashAttention: быстрое и экономичное точное внимание с поддержкой операций ввода-вывода
Стандартное внимание имеет квадратичную сложность с точки зрения длины последовательности (количества токенов). Чтобы уменьшить сложность, в методах эффективного внимания были предложены разреженные и / или низкоранговые приближения. Эти приближения уменьшают сложность до линейной или почти линейной по отношению к длине последовательности. Тем не менее, эти методы либо отстают по производительности, либо не обеспечивают ускорения настенных часов по сравнению со стандартным вниманием...
Пять лучших статей о моделях больших языков: краткий обзор{Часть 3}
Введение
Большие языковые модели (LLM), особый вариант искусственного интеллекта (ИИ), отлично подходят для обработки и создания текстового контента. Они изучают обширные наборы данных, включающие текст и код , что позволяет им понимать статистические корреляции между словами и фразами. Учебными ресурсами для этих моделей являются объемные текстовые данные (например, общедоступное содержимое (WikiPedia и т. д.)), которые облегчают их способность различать закономерности и отношения..
Как оценить качество чат-ботов на основе LLM
Стратегии программной и качественной оценки чат-ботов, созданных с помощью GPT и LlamaIndex.
Почему меня волнует оценка чат-ботов
В рамках Buildspace Nights and Weekends в настоящее время я работаю над изучением способов надежного повышения производительности чат-ботов с поддержкой данных. Я пытаюсь улучшить производительность одного конкретного приложения, моего Legal Tech Bot , чтобы найти стратегии, которые могут быть применимы в более широком смысле.
Сначала несколько..