Я пытаюсь создать классификатор текста с помощью молотка. Данные какие-то большие, поэтому я ищу способ, если это возможно, запустить задачу «импорт» в нескольких потоках, потому что загрузка занимает много времени. Несколько вопросов здесь:
Есть ли способ вручную распараллелить процесс, разделив данные и импортировав их по отдельности, а затем соединив их. Я знаю, что могу запустить их параллельно и получить несколько входных файлов, но могу ли я объединить полученные входные файлы молотка перед обучением классификатора?
Параллелизует ли сам mallet этот процесс, если на машине есть доступные потоки?
Спасибо за помощь!