Ввод данных в молоток параллельно

Я пытаюсь создать классификатор текста с помощью молотка. Данные какие-то большие, поэтому я ищу способ, если это возможно, запустить задачу «импорт» в нескольких потоках, потому что загрузка занимает много времени. Несколько вопросов здесь:

Есть ли способ вручную распараллелить процесс, разделив данные и импортировав их по отдельности, а затем соединив их. Я знаю, что могу запустить их параллельно и получить несколько входных файлов, но могу ли я объединить полученные входные файлы молотка перед обучением классификатора?
Параллелизует ли сам mallet этот процесс, если на машине есть доступные потоки?

Спасибо за помощь!

baker 28.03.2017 источник

Ответы (1)

arrow_upward
0
arrow_downward

На самом деле ваши вопросы, похоже, не имеют прямого отношения к молотку. Итак, чтобы ответить на ваш вопрос, два Маллета так не делают. Но вы можете разделить текст на равные части, а затем использовать их, сохранив все в одной папке и предоставив Маллету путь к этой папке. Эта ссылка может помочь вам в этом. Вам необходимо следовать инструкциям в части One instance per file.

Aaron Clifton 10.04.2017

comment

Я делаю то, что вы упомянули в свое время, но происходит то, что один файл в папке обрабатывается в данный момент. Я ищу, чтобы сделать процесс параллельным. Разделение данных на разные части не позволит выполнять параллельную обработку. - baker; 12.04.2017

comment

В основном я пытаюсь распараллелить шаг импорта данных. У меня нет проблем с загрузкой, но это занимает много времени - baker; 12.04.2017

comment

Возможно, вам следует уточнить цель вашего проекта, тогда я смогу помочь больше. Потому что, с моей точки зрения, нет необходимости распараллеливать процесс импорта, так как вы можете разделить данные на части. - Aaron Clifton; 20.04.2017

comment

Я пытаюсь классифицировать документы по трем группам, поэтому у меня есть «домашняя» директория, которая содержит 3 поддиректории (group1, group2, group3). Мои данные разделены на эти 3 подкаталога на основе метки класса каждого документа. Каждый из этих подкаталогов содержит большое количество относительно больших файлов. Чтобы построить классификатор, я должен сначала импортировать данные, и я предоставляю домашний каталог при запуске команды импорта. Есть ли способ сделать этот шаг импорта параллельным (в дополнение к параллелизму трех подкаталогов) при сохранении меток файлов? - baker; 22.04.2017

Ввод данных в молоток параллельно

Ответы (1)

Похожие вопросы