Я новичок в Python, и вот простой вопрос о настройке X_train в MultinomialNB.
Итак, я хочу предсказать цель ("A1", "A2,..." A5"), используя две категориальные функции: день недели с 7 уникальными значениями ("Mon" , "Вт", "Ср", "Чт", "Пт", "Сб", "Вс") и Местоположение с 5 уникальными значениями ("A", "B", "C"). ', 'Д', 'Е').
Вот что я делаю:
- используя
pd.getdummies
для преобразования дня недели и местоположения в вектор двоичного ввода - используя
LabelEncoder
для преобразования цели в числовые значения - разделить данные на обучение/тестирование
Затем я делаю следующее (используя scikit-learn):
clf=MultinomialNB()
clf.fit(X_train,y_train)
Итак, мои вопросы:
Вышеуказанные шаги верны? В частности, является ли get_dummies лучшим способом обработки категориальных функций?
Сделав выше,
X_train
будет иметь форму (N_samples, 12), в которой 12 получается из 7 (векторизованный день недели) и 5 (векторизованное местоположение). Это правильная настройка для этой проблемы?
Спасибо большое!