Определение проблемы
Агент выполняет инструкции на естественном языке в реальной среде.
Вклад и обсуждение
- Первый эталонный набор данных (Room-to-Room R2R) для визуально обоснованной навигации на естественном языке в реальных зданиях.
- Большинство команд робота пренебрегают визуальным содержанием, которое не подходит для реальной ситуации.
Описание задания
Метод
Среда: 3D-симулятор Matterport. Симулятор основан на наборе данных Matterport3D (10800 панорамных RGB-D-изображений 90 реальных помещений).
Пространство действия модели: влево, вверх, вправо, вверх, вниз, вперед, стоп.
Вперед: перейти к доступной точке обзора. Влево, вправо, вверх, вниз: переместите камеру на 30 градусов.
Модель: Модель Seq2Seq
Допустим, инструкция на естественном языке x = ‹ x›, x2,…,xL›, и кодировщик вычисляет представление x*. На каждом временном шаге t декодер наблюдает представление текущего изображения o_t и предыдущего действия a_t-1 в качестве входных данных, применяет механизм внимания к скрытому состоянию языкового декодера и прогнозирует a_t.