Наборы слов, N-граммы, биграммы и униграммы
Это третий этап сквозного конвейера НЛП. Давайте сначала обсудим некоторые термины.
- Корпус: – объединение всех слов, известных как корпус.
- Словарный запас: Извлечение уникальных слов из корпуса.
- Документ. Текст одного отзыва называется документом.
для текстового представления мы обсудим некоторые приемы.
- Горячее кодирование
- Багаж слова
- N-грамм
- Tf-Idf(частота термина — обратная частота термина)
- word2Vec
- Горячее кодирование. Это очень простой метод кодирования. и мы не используем его, потому что у него много недостатков.
- Преимущества: он интуитивно понятен и прост в реализации.
- Недостатки: – Разреженность, отсутствие фиксированного размера, отсутствие словарного запаса и невозможность уловить семантическое значение текста.
2. Пакет слов:- в основном используется в текстовой классификации. и он вычисляет частоту определенного слова из корпуса. Порядок слов не имеет значения. Мы можем просто использовать класс CountVectorizer библиотеки sklearn. гиперпараметр Binary=True используется для анализа настроений.
- Преимущества: – простой и интуитивно понятный, работа с фиксированным размером.
- Недостатки: –разреженность, отсутствие словарного запаса, поскольку игнорируется словарное слово, что не очень хорошо.
3. N-граммы: -N-граммы — это не что иное, как мешок с n-граммами. В наборе слов мы можем составить словарь только из одного слова, но в N-граммах мы можем составить словарь из нескольких слов. если два, то биграммы, для трех триграммы и т. д.
Преимущества: он способен фиксировать семантику предложений, прост в реализации.
Недостатки.Униграмм‹биграмм‹триграмм (порядок увеличения размерности), он не обрабатывает OOV (из словаря).
4. Tf-Idf (Частота термина — обратная частота документа):- На самом деле он присваивает разные веса разным функциям/столбцам. и сначала он вычисляет частоту термина слова и частоту обратного документа, а затем умножает их. Частота термина говорит о том, насколько важно наше слово в документе. а обратная частота документа показывает, насколько важно наше слово в корпусе.
- Преимущества: простота расчета. У нас есть несколько показателей, которые позволяют извлекать наиболее описательные термины в документе.
- Недостатки. Разреженность, OOV (недостаточный словарный запас) и отношения семантики не могут быть обработаны.
Дмитро Якубовский, Джей Джей Эспиноза, АХМАД САЧАЛ, NLP Ghana, Дайджест машинного обучения , Глубокое обучение, AIIP. Инвестиционная платформа искусственного интеллекта