Я построил случайный лес для мультиклассовой классификации текста. Модель вернула точность 75%. Всего имеется 6 этикеток, однако из 6 классов классифицированы только 3, а остальные не классифицируются. Я был бы очень признателен, если бы кто-нибудь мог сообщить мне, что пошло не так.
Ниже приведены шаги, которые я выполнил.
ПОДГОТОВКА ДАННЫХ
Создайте вектор слов для описания.
Постройте корпус, используя вектор слов.
Задачи предварительной обработки, такие как удаление чисел, пробелов,
стоп-слов и преобразование в нижний регистр.- Создайте матрицу терминов документа (dtm).
Удалите редкие слова из приведенного выше dtm.
Вышеупомянутый шаг приводит к матрице частоты счета, показывающей частоту каждого слова в соответствующем столбце.
Преобразуйте матрицу частот подсчета в двоичную матрицу экземпляров, которая показывает вхождения слова в документе как 0 или 1, 1 для присутствия и 0 для отсутствия.
- Добавьте столбец метки из исходного набора данных с преобразованным dtm. Столбец меток имеет 6 меток.
ПОСТРОЕНИЕ МОДЕЛИ
- Произвольно выберите dtm и разделите его на обучающий набор и набор для тестирования.
- Постройте базовую модель случайного леса с 7-кратной перекрестной проверкой.
Проверить точность модели на обучающем наборе и на тестовом наборе.
Делюсь ссылкой на результаты (если здесь разрешено).