Зрительно-языковая навигация: интерпретация визуально обоснованных навигационных инструкций в реальном…

Определение проблемы

Агент выполняет инструкции на естественном языке в реальной среде.

Вклад и обсуждение

Первый эталонный набор данных (Room-to-Room R2R) для визуально обоснованной навигации на естественном языке в реальных зданиях.
Большинство команд робота пренебрегают визуальным содержанием, которое не подходит для реальной ситуации.

Описание задания

Метод

Среда: 3D-симулятор Matterport. Симулятор основан на наборе данных Matterport3D (10800 панорамных RGB-D-изображений 90 реальных помещений).

Пространство действия модели: влево, вверх, вправо, вверх, вниз, вперед, стоп.

Вперед: перейти к доступной точке обзора. Влево, вправо, вверх, вниз: переместите камеру на 30 градусов.

Модель: Модель Seq2Seq

Допустим, инструкция на естественном языке x = ‹ x›, x2,…,xL›, и кодировщик вычисляет представление x*. На каждом временном шаге t декодер наблюдает представление текущего изображения o_t и предыдущего действия a_t-1 в качестве входных данных, применяет механизм внимания к скрытому состоянию языкового декодера и прогнозирует a_t.

Гитхаб

https://github.com/peteanderson80/Matterport3DSimulator