1. Многоцелевая состязательная атака «белого ящика» на генерацию диалога (arXiv)

Автор: Юфэй Ли, Цэсинь Ли, Инфань Гао, Цун Лю.

Аннотация: Предварительно обученные преобразователи популярны в современных системах генерации диалогов (DG). Однако такие языковые модели уязвимы для различных состязательных образцов, которые изучались в традиционных задачах, таких как классификация текстов, что вызывает у нас любопытство относительно их надежности в системах РГ. Одна из основных проблем атаки на модели DG заключается в том, что возмущения в текущем предложении вряд ли могут снизить точность ответа, поскольку неизмененные истории чата также учитываются при принятии решений. Вместо того, чтобы просто искать подводные камни метрик производительности, таких как BLEU, ROUGE, мы наблюдаем, что создание враждебных выборок для принудительного получения более длинных выходных данных повышает эффективность атаки — сгенерированные ответы, как правило, неуместны, длинны и повторяются. С этой целью мы предлагаем метод многоцелевой атаки белого ящика под названием DGSlow. В частности, DGSlow уравновешивает две цели — точность генерации и длину, с помощью многоцелевого оптимизатора на основе градиента и применяет механизм адаптивного поиска для итеративного создания враждебных выборок с небольшими изменениями. Всесторонние эксперименты с четырьмя эталонными наборами данных демонстрируют, что DGSlow может значительно ухудшить современные модели РГ с более высоким уровнем успеха, чем традиционные методы, основанные на точности. Кроме того, наши созданные предложения также демонстрируют высокую переносимость при атаке на другие модели.

2. Взвешенное декодирование, основанное на семантическом пространстве, для генерации многоатрибутного управляемого диалога (arXiv)

Автор: Жилин Чжан, Мэнъюэ Ву, Кенни К. Чжу.

Аннотация: Управление генерацией высказываний чат-ботов с множеством атрибутов, таких как личности, эмоции и диалоговые действия, является практически полезной, но недостаточно изученной проблемой. Мы предлагаем новую управляемую структуру генерации под названием DASC, которая обладает сильной управляемостью с парадигмой взвешенного декодирования, улучшая при этом качество генерации благодаря основанию на пространстве семантики атрибутов. Генерация с несколькими атрибутами затем интуитивно реализуется с интерполяцией вложений нескольких атрибутов. Эксперименты показывают, что DASC может достигать современной точности управления в 3-аспектных задачах управляемой генерации, а также давать интересные и разумные ответы, даже если в тесте на устойчивость вне распределения. Визуализация осмысленных представлений, усвоенных в семантическом пространстве атрибутов, также поддерживает его эффективность.