Ввод данных в молоток параллельно

Я пытаюсь создать классификатор текста с помощью молотка. Данные какие-то большие, поэтому я ищу способ, если это возможно, запустить задачу «импорт» в нескольких потоках, потому что загрузка занимает много времени. Несколько вопросов здесь:

  1. Есть ли способ вручную распараллелить процесс, разделив данные и импортировав их по отдельности, а затем соединив их. Я знаю, что могу запустить их параллельно и получить несколько входных файлов, но могу ли я объединить полученные входные файлы молотка перед обучением классификатора?

  2. Параллелизует ли сам mallet этот процесс, если на машине есть доступные потоки?

Спасибо за помощь!


person baker    schedule 28.03.2017    source источник


Ответы (1)


На самом деле ваши вопросы, похоже, не имеют прямого отношения к молотку. Итак, чтобы ответить на ваш вопрос, два Маллета так не делают. Но вы можете разделить текст на равные части, а затем использовать их, сохранив все в одной папке и предоставив Маллету путь к этой папке. Эта ссылка может помочь вам в этом. Вам необходимо следовать инструкциям в части One instance per file.

person Aaron Clifton    schedule 10.04.2017
comment
Я делаю то, что вы упомянули в свое время, но происходит то, что один файл в папке обрабатывается в данный момент. Я ищу, чтобы сделать процесс параллельным. Разделение данных на разные части не позволит выполнять параллельную обработку. - person baker; 12.04.2017
comment
В основном я пытаюсь распараллелить шаг импорта данных. У меня нет проблем с загрузкой, но это занимает много времени - person baker; 12.04.2017
comment
Возможно, вам следует уточнить цель вашего проекта, тогда я смогу помочь больше. Потому что, с моей точки зрения, нет необходимости распараллеливать процесс импорта, так как вы можете разделить данные на части. - person Aaron Clifton; 20.04.2017
comment
Я пытаюсь классифицировать документы по трем группам, поэтому у меня есть «домашняя» директория, которая содержит 3 поддиректории (group1, group2, group3). Мои данные разделены на эти 3 подкаталога на основе метки класса каждого документа. Каждый из этих подкаталогов содержит большое количество относительно больших файлов. Чтобы построить классификатор, я должен сначала импортировать данные, и я предоставляю домашний каталог при запуске команды импорта. Есть ли способ сделать этот шаг импорта параллельным (в дополнение к параллелизму трех подкаталогов) при сохранении меток файлов? - person baker; 22.04.2017