Наборы слов, N-граммы, биграммы и униграммы

Это третий этап сквозного конвейера НЛП. Давайте сначала обсудим некоторые термины.

  1. Корпус: – объединение всех слов, известных как корпус.
  2. Словарный запас: Извлечение уникальных слов из корпуса.
  3. Документ. Текст одного отзыва называется документом.

для текстового представления мы обсудим некоторые приемы.

  • Горячее кодирование
  • Багаж слова
  • N-грамм
  • Tf-Idf(частота термина — обратная частота термина)
  • word2Vec
  1. Горячее кодирование. Это очень простой метод кодирования. и мы не используем его, потому что у него много недостатков.
  • Преимущества: он интуитивно понятен и прост в реализации.
  • Недостатки: – Разреженность, отсутствие фиксированного размера, отсутствие словарного запаса и невозможность уловить семантическое значение текста.

2. Пакет слов:- в основном используется в текстовой классификации. и он вычисляет частоту определенного слова из корпуса. Порядок слов не имеет значения. Мы можем просто использовать класс CountVectorizer библиотеки sklearn. гиперпараметр Binary=True используется для анализа настроений.

  • Преимущества: – простой и интуитивно понятный, работа с фиксированным размером.
  • Недостатки: –разреженность, отсутствие словарного запаса, поскольку игнорируется словарное слово, что не очень хорошо.

3. N-граммы: -N-граммы — это не что иное, как мешок с n-граммами. В наборе слов мы можем составить словарь только из одного слова, но в N-граммах мы можем составить словарь из нескольких слов. если два, то биграммы, для трех триграммы и т. д.

Преимущества: он способен фиксировать семантику предложений, прост в реализации.

Недостатки.Униграмм‹биграмм‹триграмм (порядок увеличения размерности), он не обрабатывает OOV (из словаря).

4. Tf-Idf (Частота термина — обратная частота документа):- На самом деле он присваивает разные веса разным функциям/столбцам. и сначала он вычисляет частоту термина слова и частоту обратного документа, а затем умножает их. Частота термина говорит о том, насколько важно наше слово в документе. а обратная частота документа показывает, насколько важно наше слово в корпусе.

  • Преимущества: простота расчета. У нас есть несколько показателей, которые позволяют извлекать наиболее описательные термины в документе.
  • Недостатки. Разреженность, OOV (недостаточный словарный запас) и отношения семантики не могут быть обработаны.

Дмитро Якубовский, Джей Джей Эспиноза, АХМАД САЧАЛ, NLP Ghana, Дайджест машинного обучения , Глубокое обучение, AIIP. Инвестиционная платформа искусственного интеллекта