Я приступаю к проекту НЛП по анализу сантиментов.
Я успешно установил NLTK для Python (кажется, отличное программное обеспечение для этого). Однако мне сложно понять, как его можно использовать для выполнения моей задачи.
Вот моя задача:
- Я начинаю с одного длинного фрагмента данных (скажем, нескольких сотен твитов на тему выборов в Великобритании от их веб-сервиса)
- Я хотел бы разбить это на предложения (или информацию длиной не более 100 символов) (я думаю, я могу просто сделать это на python ??)
- Затем для поиска по всем предложениям конкретных экземпляров в этом предложении, например. "Дэвид Кэмерон"
- Затем я хотел бы проверить наличие положительных / отрицательных настроений в каждом предложении и соответственно их подсчитать.
NB: Я не особо беспокоюсь о точности, потому что мои наборы данных велики, а также не слишком беспокоюсь о сарказме.
Вот проблемы, которые у меня возникают:
Все наборы данных, которые я могу найти, например данные обзора фильма, которые поставляются с NLTK, не находятся в формате веб-сервиса. Похоже, это уже была обработана. Насколько я могу судить, обработка (Стэнфордом) проводилась с помощью WEKA. Разве НЛТК не может все это сделать самостоятельно? Здесь все наборы данных уже сгруппированы в положительные / отрицательные, например. набор данных полярности http://www.cs.cornell.edu/People/pabo/movie-review-data/ Как это делается? (чтобы организовать предложения по настроениям, это определенно WEKA? или что-то еще?)
Я не уверен, что понимаю, почему WEKA и NLTK будут использоваться вместе. Похоже, они делают то же самое. Если я сначала обрабатываю данные с помощью WEKA, чтобы найти мнение, зачем мне NLTK? Можно ли объяснить, зачем это может понадобиться?
Я нашел несколько скриптов, которые в некоторой степени подходят к этой задаче, но все они используют одни и те же предварительно обработанные данные. Разве нельзя обработать эти данные самостоятельно, чтобы найти тональность в предложениях, вместо того, чтобы использовать образцы данных, приведенные в ссылке?
Любая помощь очень ценится и сэкономит мне много волос!
Ура Ке