Я пытаюсь классифицировать твиты по двум категориям (например, basketball
и non-basketball
). Очевидно, что набор данных является динамическим, т. е. коллекция документов не привязана к набору из N
документов (т. е. твитов): набор данных расширяется снова и снова, пока пользователь сканирует Twitter.
Одна вещь, которую следует попробовать применить, — это наивный байесовский классификатор, который широко используется для классификации текста. Объяснение приведено здесь. Однако одно сомнение все же остается.
Я мог бы вычислить модель, начиная с обучающего набора (и заявляя, что словарь V
состоит из терминов, содержащихся в обучающем наборе). Теперь можно собрать новый неклассифицированный твит, содержащий термины, отсутствующие в V
(т. е. термины, не вошедшие в обучающий набор). Применим ли все еще наивный байесовский классификатор?
Обобщая вопрос: можно ли применить наивный байесовский классификатор к тем случаям, в которых словарный запас не совсем известен?
Заранее спасибо.