Использование Keras для классификации текста

Я изо всех сил пытаюсь приблизиться к методу мешка слов/лексики для представления моих входных данных в виде одного горячего вектора для моей модели нейронной сети в keras.

Я хотел бы построить простую трехслойную сеть, но мне нужна помощь в понимании и разработке подхода к преобразованию моих помеченных данных в виде текста, который имеет 7 меток в диапазоне от 0 до 1 с шагом 0,2.

Я пытался использовать векторизаторы scikit, но они слишком жесткие, то есть они либо обозначают слова, либо символы, тогда как мне нужно, чтобы предложение сравнивалось со словарным запасом, который включает слова, символы, знаки препинания и смайлики. Когда я использую tfid в тестовом предложении, он считает только слова и игнорирует все остальное. Мне также нужно руководство по использованию этого горячего подхода и тому, как он будет реализован в keras.


person Moey Zf    schedule 21.08.2016    source источник


Ответы (1)


Вот пример Keras, где у них есть 8 выходных классов и используется мешок слов.

person TFUser    schedule 21.08.2016
comment
хороший ответ - но лучше добавить краткое описание в сам ответ - person Ophir Yoktan; 20.12.2016