Каков наиболее эффективный способ хранения языковых моделей в приложениях НЛП?

Как они обычно хранят и обновляют языковые модели (например, модели N-грамм)? Какая структура является наиболее эффективным способом хранения этих моделей в базах данных?


person Community    schedule 28.04.2015    source источник


Ответы (2)


Наиболее распространенными структурами данных в языковых моделях являются tries и хеш-таблицы. Вы можете ознакомиться с статьей Кеннета Хифилда, посвященной его собственному инструментарию языковой модели KenLM для получения более подробной информации о структурах данных, используемых его собственным программным обеспечением и соответствующими пакетами.

person yvespeirsman    schedule 28.04.2015

Для распознавания речи и некоторых других приложений модели n-грамм принято представлять как преобразователи с конечным состоянием. Я не знаю, являются ли FST наиболее эффективной структурой хранения, но есть очень простые (и математически чистые) способы их объединения с другими частями модели распознавания речи.

См. библиотеку OpenFST и Инструменты OpenGRM (построенные поверх OpenFST) для построения языковой модели, сокращения, оценки и т. д. Mohri et al., 2002 является хорошим введением, наряду с другими документами, на которые есть ссылки с сайтов OpenFST и OpenGRM.

person AaronD    schedule 29.04.2015