Неконтролируемый анализ настроений с использованием doc2vec

Близкие,

Я искал в Google разные типы статей / блогов / руководств и т. Д., Но не нашел ничего полезного. Буду признателен, если кто-нибудь может мне помочь. Обратите внимание, что я прошу не пошаговый код, а идею / блог / статью или какое-то руководство.

Вот моя постановка проблемы:

Подобно тому, как анализ настроений используется для определения положительного и отрицательного тона предложения, я хочу выяснить, является ли предложение прогнозным (прогнозирующим на будущее) утверждением или нет.

Я не хочу использовать метод набора слов, чтобы суммировать количество перспективных слов / фраз, таких как "в будущем", "в ближайшем будущем" или " Через 5 лет "и т. д. Я не уверен, можно ли использовать word2vec или doc2vec. Просвети меня, пожалуйста.

Спасибо.


person Saurabh Gokhale    schedule 09.11.2018    source источник
comment
Почему вы не хотите использовать технику набора слов, основанную на словах / фразах, которые встречаются в таких утверждениях? Это может сработать! Точно так же может оказаться полезным некоторый подход, использующий встраивание word2vec / doc2vec - вам придется его попробовать. что ты уже испробовал? Какой набор обучающих данных у вас есть или вы ожидаете создать?   -  person gojomo    schedule 10.11.2018


Ответы (1)


Похоже, что вас интересует поиск темпоральных высказываний в текстах.

Не уверен в окончательном результате, но предположим, что вы хотите найти временные фразы или предложения, которые их содержат.

Одна из методологий может быть следующей:

  1. Создать список временных условий [дни, годы, месяцы, сейчас, позже]
  2. Выбирайте только предложения с ключевыми терминами
  3. Используйте предложения в модели doc2vec
  4. Infer vector and use distance metric for new sentence
    • GMM Cluster + Limit
    • Расстояние от среднего

Другая методология могла бы быть:

  1. Создать список временных условий [дни, годы, месяцы, сейчас, позже]
  2. Извлечение словосочетаний биграмм и триграмм
  3. Сохраняйте релевантные словосочетания с временными терминами
  4. Use relevant collocations in a kind of bag-of-collocations approach
    • Matched binary feature vectors for relevant collocations
    • Обучите классификатор распознавать текст более высокого уровня

Это звучит как хороший случай для подхода начальной загрузки, если у вас есть большие объемы текстов.

Оба они на самом деле частично контролируются, так как есть некоторая потребность в поиске начальных временных терминов, но даже это можно автоматизировать с помощью схемы word2vec и начальной загрузки.

person Nathan McCoy    schedule 10.11.2018