Я пытаюсь обучить модель word2vec из gensim
, используя итальянскую википедию "http://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2"
Однако я не уверен, что лучше всего препроцессировать для этого корпуса.
gensim
модель принимает список токенизированных предложений. Моя первая попытка - просто использовать стандартный препроцессор WikipediaCorpus
из gensim
. Это извлекает каждую статью, удаляет знаки препинания и разбивает слова на пробелы. С помощью этого инструмента каждое предложение соответствовало бы модели в целом, и я не уверен, как этот факт повлияет на модель.
После этого тренирую модель с параметрами по умолчанию. К сожалению, после тренировки кажется, что мне не удается получить очень значимое сходство.
Какая предварительная обработка в корпусе Википедии является наиболее подходящей для этой задачи? (если эти вопросы слишком общие, помогите мне, указав на соответствующий учебник / статью)
Это код моей первой попытки:
from gensim.corpora import WikiCorpus
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
corpus = WikiCorpus('itwiki-latest-pages-articles.xml.bz2',dictionary=False)
max_sentence = -1
def generate_lines():
for index, text in enumerate(corpus.get_texts()):
if index < max_sentence or max_sentence==-1:
yield text
else:
break
from gensim.models.word2vec import BrownCorpus, Word2Vec
model = Word2Vec()
model.build_vocab(generate_lines()) #This strangely builds a vocab of "only" 747904 words which is << than those reported in the literature 10M words
model.train(generate_lines(),chunksize=500)