Сравнение методов векторизации TF-IDF и Word2Vec для анализа настроений в Твиттере

В этом блоге мы рассмотрим различные подходы к анализу тональности реальных твитов. Прежде чем создавать модели с различными методологиями векторизации и сравнивать результаты, мы разделяем данные на поезд и текст, а затем очищаем каждую часть. После сравнения моделей с разной векторизацией было установлено, что модель логической регрессии (LR) с TF-IDF с показателем f1 0,81 и высокими показателями точности и отзыва обеспечивает лучшую производительность, чем другие модели.

Введение

Анализ настроений

Количество цифровых взаимодействий и транзакций продолжает экспоненциально расти с каждым годом, а анализ настроений дает возможность понять отношения, мнения и эмоции, лежащие в основе онлайн-текста. Это особенно полезно в мире социальных сетей, где можно получить обзор общественного мнения по конкретным темам. Применение данных, полученных в результате анализа настроений на платформах социальных сетей, невероятно разнообразно — они могут варьироваться от приложений микроуровня, таких как улучшение продуктов и маркетинговых усилий, до более широких общественных интересов, таких как информирование политической политики и прогнозирование экономических показателей. [i ]

Социальные сети, в том числе информация в Твиттере, служат источником выразительных данных, в том числе тех, которые связаны с эмоциями, мнениями и мнениями о повседневной жизни пользователей. [ii] Большая часть этого контента используется для принятия решений. , и именно здесь вписывается анализ тональности. Этот анализ может указать, насколько позитивным, негативным или нейтральным является сообщение, путем автоматизации процесса определения отношения, мнений, взглядов и эмоций в тексте. [iii]

Цель этого блога — сравнить различные подходы к анализу тональности реальных твитов. Наборы данных берутся из Kaggle (который содержит информацию о реальных твитах), снабжаются уникальной идентификацией и помечаются соответствующими настроениями; ноль указывает на отрицательное настроение, а единица указывает на положительное.

Подготовка и очистка — набор данных для обучения и тестирования

Прежде чем создавать основные модели с различными методологиями векторизации и сравнивать результаты, данные необходимо было сначала очистить. Наборы данных состояли из двух частей — обучающей и тестовой. После очистки эти два набора были объединены в один набор данных для однородности.

В процессе очистки данных были удалены все ненужные столбцы, такие как ItemID. Все прописные буквы были заменены на строчные, а все ненужные знаки и цифры удалены. В результате этой очистки остались твиты, которые содержали только слова и их относительную сентиментальность.

Во время агрегирования данных текст настроения был помечен как X, который служил набором функций, а помеченные данные — как Y, который должен быть предсказан. Функция разделена на обучающие и тестовые наборы данных.

Векторизация

Затем набор данных был векторизован двумя методами: векторизация TF-IFD и векторизация средних значений Word2Vec.

TF-IDF, или частотно-обратная частотность документа термина, представляет собой числовую статистику, которая определяет, насколько важен термин для документа в коллекции (корпусе). [iv] Его основное использование — прекращение фильтрации слов в тексте. приложение для обобщения и классификации. Значение TF-IDF увеличивается пропорционально частоте появления слова в документе, но уменьшается на его частоту в корпусе, чтобы компенсировать тот факт, что одни слова просто встречаются чаще, чем другие. [v]

Функция Word2Vec позволяет создавать вложения слов, максимально увеличивая вероятность того, что слова будут предсказаны из их контекста или наоборот. [vi] Это относительно новый подход к классификации текста, который преобразует слова и фразы в векторное представление, предоставляя новые семантические функции, которые помощь в текстовой классификации. [vii] Векторы — это числа, представляющие значение слова. В целом, это статистический метод для эффективного изучения встраивания отдельного слова из корпуса текстов.

Векторы слов

Поскольку возможности обработки естественного языка стали более изощренными, векторы слов могут предоставить машинам гораздо больше информации о словах, чем было доступно для предыдущего анализа. В то время как традиционные подходы NPL были неспособны фиксировать синтаксические и семантические отношения между наборами слов, векторы слов отображают слова как многомерные непрерывные числа с плавающей запятой (Ahire, 2018), отображая набор действительных чисел, в которых каждая точка фиксирует измерение значения слова. В этом сценарии семантически схожие слова имеют схожие векторы. [viii]

Модели

В качестве алгоритмов классификации для прогнозирования настроения твитов использовались две модели: логистическая регрессия (LR) и случайный лес (RF). Примечательно, что метод поиска по сетке использовался для обнаружения гиперпараметров. Это будет обсуждаться далее в следующем разделе.

Логистическая регрессия используется при изучении результатов, представленных бинарными переменными. Это метод, заимствованный машинным обучением из области статистики и служащий для прогнозного анализа. Он используется для описания данных и объяснения взаимосвязи между одной зависимой бинарной переменной и ее независимыми переменными.

Random Forest строит множество деревьев решений, которые будут использоваться для классификации нового экземпляра большинством голосов. Каждый узел дерева решений использует ряд атрибутов, случайно выбранных из всего набора исходных атрибутов. В целом, это метаоценщик, который использует усреднение этих классификаторов дерева решений и их податрибутов для лучшего прогнозирования точности.

Результаты

Логистическая регрессия TF-IDF

В этой части мы обсудим результаты, основанные на векторизации TF-IDF и модели LR. TF-IDF имеет и n-граммы равные двум, так как дополнительно обрабатывает n-граммы. Для иллюстрации: пример, в котором дескриптор «очень плохо» представляет собой 2-грамму, которая является атрибутом, назначаемым отдельно от отдельных слов «очень» и «плохо».

Применительно к модели LR результаты тестового набора данных были следующими:

Отзыв: [0,76, 0,8]
Точность: [0,7, 0,81]
F1_score: [0,75. 0,81]

Логистическая регрессия Word2Vec

В этом разделе будет обсуждаться векторизация Word2Vec и модель логистической регрессии для выбранных параметров и результатов Word2Vec. При преобразовании слова в вектор (массив чисел) это просто метод ввода и обработки слов для любой задачи обработки естественного языка. Для этого исследования была выбрана методология среднего значения word2vec, чтобы получить среднее значение каждого вектора слов. В рамках логистической регрессии использовались одни и те же параметры для адекватного сравнения методологий.

Результаты были следующими:

Отзыв: [0,71, 0,7]
Точность: [0,65, 0,76]
F1_score: [0,68, 0,73]

Случайный лес для TF-IDF

Параметры TF-IDF для модели случайного леса остались такими же, как и для логистической регрессии. Классификатор случайного леса, созданный с максимальной глубиной 13 и числом оценщиков, равным 500.

Результаты этого набора данных были следующими:

Отзыв: [0,72, 0,76]
Точность: [0,7, 0,78]
F1_score: [0,71, 0,77]

Случайный лес для Word2Vec

В этой модели использовались те же параметры, что и ранее.

Результаты этого набора данных включают:

Отзыв: [0,63, 0,76]
Точность: [0,67, 0,72]
F1_score: [0,65, 0,74]

Заключение

При сравнении этих моделей с различной векторизацией модель LR с TF-IDF показала наилучшую производительность с показателем f1 0,81 и высокими показателями точности и полноты. Несмотря на доказательства того, что LR с TF-IDF работает лучше всего, анализ Word2vec предоставляет дополнительные инструменты и все еще может быть очень полезным во многих анализах. Для дальнейших улучшений следует изучить использование методов глубокого обучения NPL для получения более высоких результатов.

___________________________________________________________________

[i] Баннистер, К. (2018). Понимание анализа настроений: что это такое и почему он используется. Brandwatch. Получено 17 апреля 2019 г. с сайта https://www.brandwatch.com/blog/understanding-sentiment-analysis/.

[ii] Харде, В.А., и Сонаване, С.С. (2016). Анализ настроений по данным Twitter: обзор методов. Международный журнал компьютерных приложений, 139 (11), 5–15.

[iii] Пак, А., и Пароубек, П. (2010). Твиттер как корпус для анализа настроений и сбора мнений. В материалах седьмой конференции по международным языковым ресурсам и оценке, 13 20–13 26.

[iv] Кристиан Х., Агус М.П. и Сухартоно Д. (2016). Автоматическое суммирование текста одного документа с использованием термина частота, обратная частоте документа. ComTech, 7(4), 285–294.

[v] Кристиан Х., Агус М.П. и Сухартоно Д. (2016). Автоматическое суммирование текста одного документа с использованием термина частота, обратная частоте документа. ComTech, 7(4), 285–294.

[vi] Линг В., Дайер К., Блэк А. и Танкосо И. (2015). Две/слишком простые адаптации Word2Vec для решения синтаксических проблем. Технологии человеческого языка: Ежегодная конференция Североамериканского отделения ACL 2015 г. 1299–1304.

[vii] Лиллеберг Дж., Чжу Ю. и Чжан Ю. (2015). Поддержка векторных машин и Word2vec для классификации текста с использованием семантических признаков. 14-я Международная конференция IEEE по когнитивной информатике и когнитивным вычислениям, 2015 г.

[viii] Ахире, Дж. Б. (2018, 12 марта). Знакомство с векторами слов. Средний. Получено 8 апреля 2019 г. с сайта https://medium.com/@jayeshbahire/introduction-to-word-vectors-ea1d4e4b84bf.

Сравнение методов векторизации TF-IDF и Word2Vec для анализа настроений в Твиттере

Похожие вопросы