Приветствую, Среднее сообщество,

В этом выпуске представлены публикации, опубликованные на arXiv с 27 мая по 2 июня, и представлены идеи и анализ наиболее значимых исследований и тенденций.

Давайте погрузимся!

Обнаружение контекстных объектов с мультимодальными моделями больших языков

Мультимодальные модели больших языков улучшают качество обнаружения визуальных отношений.

Недавние мультимодальные модели большого языка (MLLM) замечательно справляются с задачами языка зрения, такими как создание подписей к изображениям и ответы на вопросы, но им не хватает важной способности восприятия, то есть обнаружения объектов. В этой работе мы устраняем это ограничение, представляя новую исследовательскую проблему контекстуального обнаружения объектов — понимание видимых объектов в различных интерактивных контекстах человека и ИИ. Исследуются три репрезентативных сценария, включая языковой тест, визуальные субтитры и ответы на вопросы. Кроме того, мы представляем ContextDET, унифицированную мультимодальную модель, которая способна к сквозному дифференцируемому моделированию визуально-языковых контекстов, чтобы находить, идентифицировать и связывать визуальные объекты с языковыми входными данными для взаимодействия человека и ИИ.

Hiera: Преобразователь иерархического зрения без наворотов

Упрощение Visual Transformers при сохранении точности классификации изображений.

Современные преобразователи иерархического зрения добавили несколько компонентов, специфичных для зрения, для повышения производительности контролируемой классификации. Хотя эти компоненты обеспечивают эффективную точность и привлекательное количество FLOP, дополнительная сложность фактически делает эти преобразователи медленнее, чем их ванильные аналоги ViT. В этой статье мы утверждаем, что этот дополнительный объем не нужен. Выполняя предварительную подготовку с помощью сильного визуального предтекстового задания (MAE), мы можем убрать все навороты из современного многоступенчатого преобразователя зрения без потери точности.

NavGPT: явные рассуждения в визуальной и языковой навигации с помощью больших языковых моделей

LLM улучшают заходы на посадку с нулевым выстрелом для навигационных систем.

В этой работе мы представляем NavGPT, полностью основанный на LLM агент, следующий за навигационным агентом, чтобы раскрыть способность модели GPT к рассуждениям в сложных воплощенных сценах, выполняя предсказание последовательного действия с нулевым выстрелом для визуальной и языковой навигации (VLN). На каждом этапе NavGPT использует текстовые описания визуальных наблюдений, историю навигации и будущие исследуемые направления в качестве входных данных для определения текущего состояния агента и принимает решение приблизиться к цели.

SOC: семантический кластер объектов для сегментации ссылающихся видеообъектов

Добавление глобального контекста улучшает согласованность видео между текстовой подсказкой и сегментированным объектом.

В последних подходах задача сегментации видеообъектов (RVOS) рассматривается как задача прогнозирования последовательности и выполняется мультимодальное взаимодействие, а также сегментация для каждого кадра отдельно. Однако отсутствие глобального представления видеоконтента приводит к трудностям в эффективном использовании межкадровых отношений и понимании текстовых описаний временных вариаций объекта. Для решения этой проблемы мы предлагаем кластер объектов с семантической поддержкой (SOC), который объединяет видеоконтент и текстовые рекомендации для унифицированного временного моделирования и кросс-модального выравнивания.

AWQ: квантизация веса с учетом активации для сжатия и ускорения LLM

Сохранение только 1% весов в FP16 может сохранить производительность LLM при квантизации до INT3/4.

Большие языковые модели (LLM) показали отличную производительность при выполнении различных задач, но астрономический размер модели повышает аппаратный барьер для обслуживания (объем памяти) и замедляет генерацию токенов (пропускная способность памяти). В этой статье мы предлагаем квантование веса с учетом активации (AWQ), удобный для аппаратного обеспечения подход к квантованию LLM с низким битом только веса. Наш метод основан на наблюдении, что веса не одинаково важны: защита только 1% существенных весов может значительно уменьшить ошибку квантования. Затем мы предлагаем искать оптимальное масштабирование для каждого канала, которое защищает существенные веса, наблюдая за активацией, а не за весами.

Беседа делает совершенным — поиск изображений на основе чата

Итеративный поиск изображений с текстовой обратной связью.

Чаты представляют собой эффективный удобный подход к поиску информации и успешно применяются во многих областях, таких как обслуживание клиентов, здравоохранение и финансы. Однако существующие подходы к поиску изображений обычно относятся к случаю одного раунда запроса к изображению, а использование чатов для поиска изображений в основном упускается из виду. В этой работе мы представляем ChatIR: систему поиска изображений на основе чата, которая участвует в разговоре с пользователем для получения информации в дополнение к первоначальному запросу, чтобы уточнить цель поиска пользователя.

Больше читать

Спасибо, что присоединились к нам на этой неделе в дайджесте компьютерных наук arXiv. Мы надеемся, что представленные здесь идеи и тенденции помогут вам понять последние разработки в области искусственного интеллекта.

Если у вас есть какие-либо отзывы или предложения, пожалуйста, свяжитесь с нами.

Хороших выходных и увидимся в следующую пятницу. Пока.