Как оценить вероятность ngram?

Я хочу построить языковую модель, в которой я хочу оценить вероятности ngram. Итак, мой вопрос: каковы наилучшие корпуса и инструменты, которые мы могли бы использовать для оценки вероятностей ngram?

Благодарность


person Riadh Belkebir    schedule 28.05.2014    source источник
comment
Вы можете попробовать berkeleylm: code.google.com/p/berkeleylm. Некоторые готовые модели доступны по адресу tomato.banatao.berkeley.edu:8080/berkeleylm_binaries для корпуса Google Web 1T.   -  person Daniel Naber    schedule 28.05.2014


Ответы (1)


Вы видели это? : вы можете использовать его без повторного вычисления с нуля: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

Для упрощения загрузки см. это: https://pypi.python.org/pypi/google-ngram-downloader/

person Daniel    schedule 29.05.2014