НЛП: качественно положительное и отрицательное предложение

Мне нужна ваша помощь в определении наилучшего подхода к анализу отраслевых предложений (например, обзоров фильмов) на предмет «положительный» и «отрицательный». Я раньше видел библиотеки, такие как OpenNLP, но они слишком низкоуровневые - они просто дают мне базовую композицию предложений; мне нужна структура более высокого уровня: - надеюсь, со списками слов - надеюсь, можно обучить на моем наборе данных

Спасибо!


person Alex Weinstein    schedule 23.09.2008    source источник


Ответы (2)


То, что вы ищете, обычно называют анализом настроений. Как правило, сентиментальный анализ не в состоянии справиться с такими тонкими тонкостями, как сарказм или ирония, но он дает неплохие результаты, если вы добавляете в него большой набор данных.

Анализ тональности обычно требует некоторой предварительной обработки. По крайней мере, токенизация, определение границ предложения и тегирование части речи. Иногда может быть важен синтаксический анализ. Правильное выполнение этого - это целая ветвь исследований в компьютерной лингвистике, и я бы не советовал вам придумывать собственное решение, если вы сначала не потратите время на изучение этой области.

В OpenNLP есть несколько инструментов для анализа настроений, но если вам нужно что-то более серьезное, вам следует изучить LingPipe Инструментарий. Он имеет встроенную функциональность SA и хорошее руководство . И вы можете обучить его на собственном наборе данных, но не думайте, что это полностью тривиально :-).

Поиск в Google этого термина, вероятно, также даст вам некоторые ресурсы для работы. Если у вас есть более конкретный вопрос, просто спросите, я внимательно слежу за nlp-tag ;-)

person Aleksandar Dimitrov    schedule 24.09.2008

Некоторые подходы к анализу тональности используют стратегии, популярные при решении других задач классификации текстов. Наиболее распространенным является преобразование обзора фильма в вектор слов и передача его в алгоритм классификатора в качестве обучающих данных. Здесь вам могут помочь самые популярные пакеты интеллектуального анализа данных. Вы можете ознакомиться с этим руководством по классификации настроений показано, как провести эксперимент с использованием набора инструментов RapidMiner с открытым исходным кодом. .

Кстати, существует хороший набор данных, доступный для исследовательские цели, связанные с выяснением мнений по обзорам фильмов. Он основан на отзывах пользователей IMDB, и вы можете проверить многие соответствующие исследования в этой области и в том, как они используют набор данных.

Следует иметь в виду, что об эффективности этих методов можно судить только со статистической точки зрения, поэтому вы можете в значительной степени предположить, что будут иметь место неправильные классификации и случаи, когда мнение трудно выявить. Как уже отмечалось в этой ветке, обнаруживать такие вещи, как ирония и сарказм, действительно может быть очень сложно.

person bohana    schedule 24.01.2009