Каков наиболее эффективный способ хранения языковых моделей в приложениях НЛП?

Как они обычно хранят и обновляют языковые модели (например, модели N-грамм)? Какая структура является наиболее эффективным способом хранения этих моделей в базах данных?

nlp language-model n-gram

Community 28.04.2015 источник

Ответы (2)

arrow_upward
4
arrow_downward

Наиболее распространенными структурами данных в языковых моделях являются tries и хеш-таблицы. Вы можете ознакомиться с статьей Кеннета Хифилда, посвященной его собственному инструментарию языковой модели KenLM для получения более подробной информации о структурах данных, используемых его собственным программным обеспечением и соответствующими пакетами.

yvespeirsman 28.04.2015

arrow_upward
1
arrow_downward

Для распознавания речи и некоторых других приложений модели n-грамм принято представлять как преобразователи с конечным состоянием. Я не знаю, являются ли FST наиболее эффективной структурой хранения, но есть очень простые (и математически чистые) способы их объединения с другими частями модели распознавания речи.

См. библиотеку OpenFST и Инструменты OpenGRM (построенные поверх OpenFST) для построения языковой модели, сокращения, оценки и т. д. Mohri et al., 2002 является хорошим введением, наряду с другими документами, на которые есть ссылки с сайтов OpenFST и OpenGRM.

AaronD 29.04.2015

Каков наиболее эффективный способ хранения языковых моделей в приложениях НЛП?

Ответы (2)

Похожие вопросы