Используете тональность текста как функцию в модели машинного обучения?

Я изучаю, какие функции у меня будут для моей модели машинного обучения, используя имеющиеся у меня данные. Мои данные содержат много текстовых данных, поэтому мне было интересно, как извлечь из них ценные функции. Вопреки моему предыдущему мнению, это часто состоит из представления с помощью пакета слов или чего-то вроде word2vec: (http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)

Поскольку мое понимание предмета ограничено, я не понимаю, почему я не могу сначала проанализировать текст, чтобы получить числовые значения. (например: textBlob.sentiment = https://textblob.readthedocs.io/en/dev/, Google Clouds Natural Language = https://cloud.google.com/natural-language/)

Есть ли с этим проблемы, или я могу использовать эти значения в качестве функций для моей модели машинного обучения?

Заранее спасибо за помощь!


person Lourens    schedule 16.09.2017    source источник


Ответы (1)


Конечно, вы можете преобразовать единичное число для ввода текста с помощью анализа тональности, а затем использовать это число как функцию в вашей модели машинного обучения. В таком подходе нет ничего плохого.

Вопрос в том, какую информацию вы хотите извлечь из текстовых данных. Поскольку анализ тональности преобразует вводимый текст в число от -1 до 1, а число представляет, насколько положительным или отрицательным является текст. Например, вам может понадобиться информация о настроениях клиентов в комментариях о ресторане, чтобы измерить их удовлетворенность. В этом случае можно использовать анализ тональности для предварительной обработки текстовых данных.

Но опять же, сентиментальный анализ дает только представление о том, насколько текст положительный или отрицательный. Возможно, вы захотите сгруппировать текстовые данные, и информация о тональности в этом случае бесполезна, поскольку не предоставляет никакой информации о сходстве текстов. Таким образом, для представления текстовых данных в этих задачах будут использоваться другие подходы, такие как word2vec или bag-of-words. Потому что эти алгоритмы обеспечивают векторное представление текстового экземпляра одного числа.

В заключение, подход зависит от того, какую информацию вам нужно извлечь из данных для вашей конкретной задачи.

person Muhammed Hasan Celik    schedule 16.09.2017
comment
Спасибо за ваш ответ! В этом есть смысл, спасибо. Я делаю модель, предсказывающую кассовые сборы фильмов на основе пользовательских данных с YouTube, Twitter и Facebook. Я бы сказал, что сантименты - ценная черта. Кроме того, применима ли в моем случае кластеризация текста? - person Lourens; 16.09.2017
comment
Нет, ваша проблема не в кластеризации, а в основе задач регрессии или классификации в зависимости от того, как вы измеряете успех. Я думаю, что анализ настроений решит вашу проблему. Потому что, если пользовательский комментарий о фильме положительный, то кассовые сборы действительно успешны, или наоборот. - person Muhammed Hasan Celik; 16.09.2017