Начало работы с видеоответами на вопросы



  1. Уточнение визуальной каузальной сцены для ответов на видеовопросы (arXiv)

Автор: Юшен Вэй, Ян Лю, Хун Янь, Гуаньбинь Ли, Лян Линь.

Аннотация: Существующие методы видеоответов на вопросы (VideoQA) часто страдают от ложных корреляций между различными модальностями, что приводит к невозможности определить доминирующее визуальное свидетельство и предполагаемый вопрос. Более того, эти методы работают как черные ящики, что затрудняет интерпретацию визуальной сцены в процессе контроля качества. В этой статье, чтобы обнаружить критические видеосегменты и кадры, которые служат визуальной каузальной сценой для получения надежных ответов, мы представляем каузальный анализ VideoQA и предлагаем основу для кросс-модального каузально-реляционного рассуждения, названную Visual Causal Scene Refinement (VCSR). . В частности, вводится набор каузальных входных интервенционных операций для явного поиска визуальных каузальных сцен как на уровне сегментов, так и на уровне кадров. Наш VCSR включает в себя два основных модуля: i) модуль проверки на основе вопросов (QGR), который уточняет последовательные видеокадры, руководствуясь семантикой вопроса, чтобы получить более репрезентативные характеристики сегмента для причинного внешнего вмешательства; ii) модуль Causal Scene Separator (CSS), который обнаруживает набор визуальных каузальных и некаузальных сцен на основе визуально-лингвистической причинно-следственной релевантности и оценивает причинно-следственный эффект вмешательства, разделяющего сцены, в манере сопоставительного обучения. Обширные эксперименты с наборами данных NExT-QA, Causal-VidQA и MSRVTT-QA демонстрируют превосходство нашего VCSR в обнаружении визуальной причинно-следственной сцены и обеспечении надежных видеоответов на вопросы.

2. Гиперграфы учебной ситуации для ответов на видеовопросы (arXiv)

Автор: Аиша Урудж Хан, Хильде Кюне, Бо Ву, Ким Чхеу, Валид Буссельхам, Чуанг Ган, Нильс Лобо, Мубарак Шах.

Аннотация: Чтобы ответить на вопросы о сложных ситуациях в видео, нужно не только зафиксировать присутствие актеров, объектов и их отношений, но и эволюцию этих отношений во времени. Гиперграф ситуации — это представление, которое описывает ситуации как подграфы сцены для видеокадров и гиперребра для связанных подграфов, и было предложено для сбора всей такой информации в компактной структурированной форме. В этой работе мы предлагаем архитектуру для ответов на видеовопросы (VQA), которая позволяет отвечать на вопросы, связанные с видеоконтентом, путем прогнозирования гиперграфов ситуации, придуманного ответа на видеовопросы на основе гиперграфов ситуаций (SHG-VQA). С этой целью мы обучаем декодер гиперграфа ситуации неявно идентифицировать представления графа с действиями и отношениями объект/человек-объект из входного видеоклипа. и использовать перекрестное внимание между гиперграфами прогнозируемой ситуации и встраиванием вопроса, чтобы предсказать правильный ответ. Предлагаемый метод обучается сквозным образом и оптимизируется с помощью потери VQA с функцией кросс-энтропии и венгерской потери соответствия для прогнозирования графа ситуации. Эффективность предлагаемой архитектуры тщательно оценивается по двум сложным тестам: AGQA и STAR. Наши результаты показывают, что изучение гиперграфов базовой ситуации помогает системе значительно улучшить свою производительность при решении новых задач видеоответов на вопросы.