Для моего текущего проекта мне нужно создать утилиту моделирования или классификации тем, которая будет обрабатывать тысячи статей, чтобы классифицировать их по различным темам (для начала может быть 40-50 тем). Например, он будет проходить по статьям о технологиях баз данных и классифицировать их, является ли статья статьей NOSQL / статьей о реляционной базе данных / статьей о базе данных Graph (просто пример).
У меня есть очень базовый опыт НЛП, и наша команда в основном имеет опыт написания внутренних сценариев на Python. Я начал изучать различные варианты, доступные для его реализации, и наткнулся на NLTK и Scikit-Learn, основанные на Python, а также на Weka и Mallet, основанные на JVM.
Насколько я понимаю, NLTK больше подходит для изучения и понимания различных методов НЛП. как Тематическая классификация.
Может ли кто-нибудь предложить, что может быть лучшим решением с открытым исходным кодом, которое мы можем использовать для нашей реализации? Пожалуйста, дайте мне знать, если я пропустил какую-либо информацию, которая поможет с ответами.