Я изо всех сил пытаюсь приблизиться к методу мешка слов/лексики для представления моих входных данных в виде одного горячего вектора для моей модели нейронной сети в keras.
Я хотел бы построить простую трехслойную сеть, но мне нужна помощь в понимании и разработке подхода к преобразованию моих помеченных данных в виде текста, который имеет 7 меток в диапазоне от 0 до 1 с шагом 0,2.
Я пытался использовать векторизаторы scikit, но они слишком жесткие, то есть они либо обозначают слова, либо символы, тогда как мне нужно, чтобы предложение сравнивалось со словарным запасом, который включает слова, символы, знаки препинания и смайлики. Когда я использую tfid в тестовом предложении, он считает только слова и игнорирует все остальное. Мне также нужно руководство по использованию этого горячего подхода и тому, как он будет реализован в keras.