Неконтролируемый анализ настроений с использованием doc2vec

Близкие,

Я искал в Google разные типы статей / блогов / руководств и т. Д., Но не нашел ничего полезного. Буду признателен, если кто-нибудь может мне помочь. Обратите внимание, что я прошу не пошаговый код, а идею / блог / статью или какое-то руководство.

Вот моя постановка проблемы:

Подобно тому, как анализ настроений используется для определения положительного и отрицательного тона предложения, я хочу выяснить, является ли предложение прогнозным (прогнозирующим на будущее) утверждением или нет.

Я не хочу использовать метод набора слов, чтобы суммировать количество перспективных слов / фраз, таких как "в будущем", "в ближайшем будущем" или " Через 5 лет "и т. д. Я не уверен, можно ли использовать word2vec или doc2vec. Просвети меня, пожалуйста.

Спасибо.

Saurabh Gokhale 09.11.2018 источник

comment

Почему вы не хотите использовать технику набора слов, основанную на словах / фразах, которые встречаются в таких утверждениях? Это может сработать! Точно так же может оказаться полезным некоторый подход, использующий встраивание word2vec / doc2vec - вам придется его попробовать. что ты уже испробовал? Какой набор обучающих данных у вас есть или вы ожидаете создать? - gojomo 10.11.2018

Ответы (1)

arrow_upward
1
arrow_downward

Похоже, что вас интересует поиск темпоральных высказываний в текстах.

Не уверен в окончательном результате, но предположим, что вы хотите найти временные фразы или предложения, которые их содержат.

Одна из методологий может быть следующей:

Создать список временных условий [дни, годы, месяцы, сейчас, позже]
Выбирайте только предложения с ключевыми терминами
Используйте предложения в модели doc2vec
Infer vector and use distance metric for new sentence
- GMM Cluster + Limit
- Расстояние от среднего

Другая методология могла бы быть:

Создать список временных условий [дни, годы, месяцы, сейчас, позже]
Извлечение словосочетаний биграмм и триграмм
Сохраняйте релевантные словосочетания с временными терминами
Use relevant collocations in a kind of bag-of-collocations approach
- Matched binary feature vectors for relevant collocations
- Обучите классификатор распознавать текст более высокого уровня

Это звучит как хороший случай для подхода начальной загрузки, если у вас есть большие объемы текстов.

Оба они на самом деле частично контролируются, так как есть некоторая потребность в поиске начальных временных терминов, но даже это можно автоматизировать с помощью схемы word2vec и начальной загрузки.

Nathan McCoy 10.11.2018

Неконтролируемый анализ настроений с использованием doc2vec

Ответы (1)

Похожие вопросы