В настоящее время я использую настраиваемый корпус с документами с тегами
class ClassifyCorpus(object):
def __iter__(self):
with open(train_data) as fp:
for line in fp:
splt = line.split(':')
id = splt[0]
text = splt[1].replace('\n', '')
yield TaggedDocument(text.split(), [id])
Глядя на исходный код Brown Corpus, можно увидеть, что он просто читает из каталога и обрабатывает теги документов за меня.
Я протестировал его и не заметил улучшения скорости обучения.