Я изучаю, какие функции у меня будут для моей модели машинного обучения, используя имеющиеся у меня данные. Мои данные содержат много текстовых данных, поэтому мне было интересно, как извлечь из них ценные функции. Вопреки моему предыдущему мнению, это часто состоит из представления с помощью пакета слов или чего-то вроде word2vec: (http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)
Поскольку мое понимание предмета ограничено, я не понимаю, почему я не могу сначала проанализировать текст, чтобы получить числовые значения. (например: textBlob.sentiment = https://textblob.readthedocs.io/en/dev/, Google Clouds Natural Language = https://cloud.google.com/natural-language/)
Есть ли с этим проблемы, или я могу использовать эти значения в качестве функций для моей модели машинного обучения?
Заранее спасибо за помощь!