Классификация документов Mallet — сокращение словарного запаса

Я обучил модель классификации документов maxent с помощью Mallet, и оказалось, что она занимает 130 МБ, что слишком много для экземпляра, на котором я хочу ее запустить. Мне было интересно, есть ли способ потенциально уменьшить размер словаря модели, чтобы уменьшить общий размер модели. Есть ли трубка для этого? Трубы, которые я сейчас использую,

 Pipe instancePipe = new SerialPipes(new Pipe[]{
            new Target2Label(),                     //creates labels
            new Input2CharSequence("UTF-8"),        //read the file as string
            new CharSequence2TokenSequence(),       //tokenize the string
            new TokenSequenceLowercase(),           //lowercase the tokens
            new TokenSequenceRemoveStopwords(false),  //remove stopwords
            new TokenSequence2FeatureSequence(),    //convert tokens to features
            new FeatureSequence2FeatureVector(),    //create feature vector
            //new PrintInputAndTarget()  //print everything
    });

Любые другие советы по уменьшению размера модели также будут полезны.

user1893354 15.06.2017 источник

Ответы (1)

arrow_upward
1
arrow_downward

Самый простой подход — попытаться сократить словарь после первоначального импорта. Использовать

bin/mallet prune --help

чтобы увидеть варианты.

David Mimno 16.06.2017

Классификация документов Mallet — сокращение словарного запаса

Ответы (1)

Похожие вопросы