Суммирование текста, часть 1 — Нежное введение в автоматическое суммирование текста

Эта серия сообщений в блоге посвящена печально известной области, которая сочетает в себе искусственный интеллект и лингвистику: суммирование текста.

Хотя эта серия сообщений в блоге предназначена для людей с минимальными знаниями о НЛП (обработка естественного языка), эту первую вводную главу может прочитать и понять любой достаточно любопытный о том, как такая задача, как суммирование текста, которая и без того сложна для выполнения людьми, решается с помощью алгоритма или ИИ.

Тем не менее, во второй и третьей главах более подробно рассматривается состояние дел в отношении различных подходов и методов для достижения автоматического суммирования текста, и могут потребоваться общие поверхностные знания об архитектуре нейронной сети типа Transformers.

Если вы никогда не слышали о Трансформерах, предлагаю вам прочитать прекрасную статью Джея Аламмара, в которой четко представлена концепция — Иллюстрированный Трансформер.

Определение

Обобщение текста – это возможность написать более короткую, сжатую версию абзаца, статьи или книги, сохраняя при этом большую часть смысла исходного текста.

Автоматическое суммирование текста означает автоматизацию этой задачи без вмешательства человека с использованием алгоритмов, лингвистических теорем или искусственного интеллекта.

Обработка естественного языка

В искусственном интеллекте автоматическое суммирование текста является подкатегорией NLP (обработка естественного языка).

НЛП фокусируется на трех основных моментах:

Преобразование необработанного текста в математические функции, также называемые представлениями (векторами, матрицами…), которые сохраняют по крайней мере некоторые синтаксические и/или семантические особенности текста и могут быть оценены алгоритмом (Word Embeddings , маркировка POS…).
Статистическое моделирование для вывода правил о языке (например: условные случайные поля).
Использование машинного обучения для обучения моделей, способных изучать скрытые закономерности в текстовых функциях, относящихся к конкретной задаче (классификация, генерация…).

Самый известный пример превращения слов в представления — Word2Vec[7], который кодирует слова в векторы, а также аналогии между словами (vector(“king”) — vector («мужчина») + вектор («женщина») ≈ вектор («королева»))

Почему автоматическое суммирование текста так важно?

Будда сказал:
«Проблема в том, что ты думаешь, что у тебя есть время».

Во все более сложном и взаимосвязанном мире, где знания постоянно создаются, обновляются, искажаются и удаляются, просто нет времени, чтобы быть в курсе состояния мира, ваших интересов или даже вашей области знаний на работе.

Это особенно опасно в эпоху социальных сетей, где процветает дезинформация и фейковые новости. У большинства людей нет времени, чтобы узнать о сложности мира и его тонких нюансах, и в конечном итоге они верят кликбейтным заголовкам, а затем распространяют ложные факты, которые могут быть опасны.

Автоматическое суммирование текста может помочь людям сэкономить значительное количество времени в своей работе и быть в курсе событий в мире, сжимая новостные статьи, техническую документацию, книги, эссе, конференции, встречи в гораздо более удобный формат с минимальная потеря данных.

Немного истории

До 21 века было невозможно представить себе ИИ, занимающийся абстрактным автоматическим обобщением текста. Максимум, что он может сделать, — это извлечь из текста релевантные предложения на основе частотности слов. [2]

Действительно, чтобы по-настоящему резюмировать текст, нужно иметь глубокое понимание идей, которые он передает, и хорошее владение языком, на котором он был написан.

Недавние достижения в встраиваниях Word и рекуррентных нейронных сетях, а также появление архитектуры Transformer сделали эту когда-то недостижимую цель возможной.

Типы автоматического суммирования текста

Существует два типа автоматического суммирования текста: Абстрактное суммирование и Извлекательное суммирование.

Плюсы и минусы абстрактного обобщения:

(--) Сложно реализовать, поскольку мы требуем от алгоритма/ИИ глубокого понимания как языка, так и текста.
— (--) Следовательно, требуется точное синтаксическое и семантическое представление текстовых данных.
(++) Резюме краткие и содержат много информации.
— (- -) Но могут содержать фактические ошибки из-за того, что ИИ/алгоритм не улавливает контекст текста. достаточно хорошо.

Плюсы и минусы экстрактивного суммирования:

(++) Можно использовать различные методы. Некоторые методы даже не требуют машинного обучения (см. последний раздел — Немного истории-).
(++) Подходит для случаев, когда ключевые предложения содержат большую часть информации в тексте, например, в новостных статьях.
— (- -) По той же логике, он не подходит для случаев, когда информация тонко распределена по тексту.
(++)Резюме фактически и грамматически правильны.
— (- -), но в некоторых извлеченных предложениях может отсутствовать общий контекст текста.

Например, давайте резюмируем эту статью [1]:

Резюме, созданное с использованием абстрактного метода, будет выглядеть так, если переформулировать критический момент статьи:

В то время как метод извлечения даст эту сводку, извлекая первое и предпоследнее предложения:

Метрики оценки автоматического суммирования текста

Как мы оцениваем качество резюме?

Долгое время было сложно найти подходящие метрики для численной оценки достоверности сгенерированного резюме исходному тексту. Ведь объективно не существует «лучшего» резюме для данного текста.

Вот почему, чтобы избежать чрезмерного усложнения и иметь единый стандарт для всех, исследователи предложили простые решения путем прямого сравнения двух необработанных текстов: исходного резюме, написанного человеком, и предсказанного/сгенерированного/извлеченного резюме, сделанного человеком. алгоритм.

РУЖ

ROUGE (Повторное исследование, ориентированное на запоминание) [3] – это показатель, специально созданный для автоматического суммирования текста.

Большинство статей используют ROUGE-N (ROUGE-1, ROUGE-2) и ROUGE-L для оценки своих методов/моделей.

ROUGE-N – это показатель, основанный на отзывах, который рассчитывается путем деления общего количества N-грамм между справочной (написанной человеком) сводкой и сводкой, написанной ИИ, и общим количеством N-грамм. из сводки ссылок.

Таким образом, ROUGE-1 нацелен только на униграммы резюме, а ROUGE-2 — на биграммы.

Но иногда ROUGE-N недостаточно, чтобы действительно вычислить сходство между двумя предложениями, принимая во внимание порядок n-грамм и/или значение.

Например, давайте возьмем следующий пример:

S1 (ссылка): журналист ответил гостю
S2 (кандидат): журналист ответил гостю
S3 (кандидат): гость ответил журналисту

ROUGE 2 (S1, S2) = len(["гость"])/len(["журналист ответил", "ответил", "гость"]) = 1/3

ROUGE 2 (S1, S3) = len(["гость"])/len(["ответил журналист", "ответил", "гость"]) = 1/3

Мы замечаем, что РУМЯНЫ 2 (S1, S2) = РУМЯНЫ 2 (S1, S3), хотя значения S2 и S3 противоположны.

Вот почему вместо вычисления ROUGE-N для нескольких значений N мы предпочитаем вычислять только ROUGE-1, ROUGE-2 и добавляем дополнительную метрику для более длинных предложений, называемую ROUGE- Л.

ROUGE-L заменяет подсчет N-грамм на LCS (Самая длинная общая подпоследовательность), которая гораздо более устойчива к случаям, подобным предыдущему. пример (Подробнее в статье [3]). Метрика рассчитывается как оценка F1 между двумя мерами.

m — длина эталонной сводки, n – прогнозируемая длина сводки, а β – константа от 0 до 1.

СИНИЙ

BLEU (Двуязычная оценка)[4] – это показатель оценки, который в основном используется для автоматического перевода.

Он вычисляется путем вычисления средневзвешенного геометрического N показателей точности (pn) (обычно это униграммы, биграммы, триграммы и 4-граммы), умноженного на коэффициент краткости. штраф (BP) для наказания коротких переводов.

Каждая оценка точности вычисляется путем деления количества N-грамм, общих для справочной (написанной человеком) сводки и сводки, написанной ИИ, и общего количества N-грамм сводки, написанной ИИ. сильный>.

Несмотря на то, что BLEU предназначен для оценки качества автоматических переводов, исследование, проведенное в 2003 году [1], признало эффективность BLEU в области автоматического краткого изложения текста, обнаружив значительная корреляция между метрикой и баллами, основанная на человеческом суждении.

Ограничения ROUGE/BLEU

ROUGE и BLEU полагаются на частоту слов/n-грамм для вычисления меры сходства между двумя необработанными текстами. Это сходство является чисто синтаксическим и не учитывает индивидуальное значение n-грамм или общую цель текста.

Это может вызвать проблему в контексте автоматического суммирования текста, когда один документ может иметь несколько резюме, каждое из которых сформулировано иначе, чем сгенерированное резюме, что приводит к низким значениям ROUGE и BLEU баллы, даже несмотря на то, что все сводки действительны.

Проводятся исследования, чтобы найти более подходящие показатели для сравнения необработанного текста, либо придавая больший вес некоторым словам/n-граммам в зависимости от их редкости (например, NIST[5]), либо придавая большее значение выравнивание и порядок слов/n-грамм в сравниваемых текстах (например, METEOR -Metric for Evaluation of Translation with Explicit ORdering-[6]).

Заключение

Автоматическое суммирование текста — это постоянно развивающаяся область в мире НЛП. Я надеюсь, что эта первая глава заложила хорошую основу для понимания этой области и развеяла некоторые сомнения относительно текущих методов и показателей для решения этой задачи.

Следующая глава будет более технической, так как мы углубимся в суть предметной области, представив современные методы автоматического суммирования текста.

Ссылка на часть 2

Рекомендации

[1] https://edition.cnn.com/travel/article/space-tourism-20-year-anniversary-scn/index.html

[2] Х. П. Лун. «Автоматическое создание литературных рефератов». В: IBM J. Res. Дев. 2 (1958), с. 159–165.

[3] Чин-Ю Лин. «РУЖЬЕ: пакет для автоматической оценки резюме». В :
Обобщение текста разветвляется. Барселона, Испания: Ассоциация компьютерной лингвистики, июль. 2004, с. 74–81.

[4] Чин-Ю Лин и Э. Хови. «Автоматическая оценка сводок с использованием статистики совпадения N-грамм». В: HLT-NAACL. 2003.

[5] Доддингтон, Джордж «Автоматическая оценка качества машинного перевода с использованием статистики совпадений N-грамм», In Morgan Kaufmann Publishers Inc. 2002 г.

[6] Банерджи С. и Лави А. (2005 г.) «МЕТЕОР: автоматическая метрика для оценки машинного перевода с улучшенной корреляцией с человеческими суждениями» в Материалы семинара по внутренним и внешним мерам оценки для машинного перевода и/или обобщения. на 43-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL-2005), Анн-Арбор, Мичиган, июнь 2005 г.

[7] Томас Миколов, Кай Чен, Грег Коррадо и Джеффри Дин. Эффективная оценка представлений слов в векторном пространстве, arXiv: 1301.3781, 2013 г.