Я пытаюсь построить модель классификации настроений с помощью R и H2O. У меня есть файл данных в формате:
+-----------+------------------------------------------------------+
| Sentiment | Text |
+-----------+------------------------------------------------------+
| 1 | This is a sample text. This is another sentence. |
+-----------+------------------------------------------------------+
| 0 | Another sentence. And another! |
+-----------+------------------------------------------------------+
| -1 | Text text and Text! Text everywhere! So much text... |
+-----------+------------------------------------------------------+
Таким образом, значение тональности равно 1, 0 и -1, а текст в каждой строке может состоять из нескольких предложений. Я знаю, что хочу подготовить набор данных, чтобы использовать его с функцией глубокого обучения h2o. Поэтому я хотел использовать пакет R tmcn.word2vec. Но я не могу преобразовать его построчно с помощью этого пакета. Я мог бы просто получить весь текстовый столбец и преобразовать его в документ word2vec, но тогда моя информация о настроении была бы потеряна.
Есть ли другой способ перевести текст в числовой ввод для функции глубокого обучения в R? Специально для H2O?
С наилучшими пожеланиями