Классификация документов Mallet — сокращение словарного запаса

Я обучил модель классификации документов maxent с помощью Mallet, и оказалось, что она занимает 130 МБ, что слишком много для экземпляра, на котором я хочу ее запустить. Мне было интересно, есть ли способ потенциально уменьшить размер словаря модели, чтобы уменьшить общий размер модели. Есть ли трубка для этого? Трубы, которые я сейчас использую,

 Pipe instancePipe = new SerialPipes(new Pipe[]{
            new Target2Label(),                     //creates labels
            new Input2CharSequence("UTF-8"),        //read the file as string
            new CharSequence2TokenSequence(),       //tokenize the string
            new TokenSequenceLowercase(),           //lowercase the tokens
            new TokenSequenceRemoveStopwords(false),  //remove stopwords
            new TokenSequence2FeatureSequence(),    //convert tokens to features
            new FeatureSequence2FeatureVector(),    //create feature vector
            //new PrintInputAndTarget()  //print everything
    });

Любые другие советы по уменьшению размера модели также будут полезны.


person user1893354    schedule 15.06.2017    source источник


Ответы (1)


Самый простой подход — попытаться сократить словарь после первоначального импорта. Использовать

bin/mallet prune --help

чтобы увидеть варианты.

person David Mimno    schedule 16.06.2017