Как реализовать распознавание именованных сущностей с помощью OpenNLP для албанского языка?

Я пробую OpenNLP для албанского языка. Для этого я использую OPenNLP и пытаюсь построить модели для распознавания лиц, местоположений и организаций на албанском языке. Я сам создаю корпус, но мне нужен эксперт по Открытому НЛП, чтобы подтвердить мои сомнения ниже: 1- Должен ли я построить отдельный корпус для каждой модели, например для нер-персоны построить корпус, где присутствуют только теги? 2- Можно ли пометить человека, местоположение и организацию в одном корпусе и использовать его для обучения единой модели, способной извлекать все три типа сущностей? 3- есть ли ресурс, где я могу найти больше информации об алгоритме, используемом в модуле поиска имен OpenNLP?

Спасибо за ответ, мне очень нужна ваша поддержка моей диссертации


person user1598732    schedule 15.08.2012    source источник


Ответы (1)


1- Должен ли я создать отдельный корпус для каждой модели, например для нер-персоны построить корпус, где присутствуют только теги? ИМО, да ... однако модель может содержать несколько типов имен. Если вы держите их отдельно, вам будет легче обновлять и итеративно улучшать модели для заданных имен, особенно если это большие модели.

2- Можно ли пометить человека, местоположение и организацию в одном корпусе и использовать его для обучения единой модели, способной извлекать все три типа сущностей? да, это возможно, но если вы планируете использовать каждый тип имени и уточнять модели, мне было проще хранить их отдельно.

3- есть ли ресурс, где я могу найти больше информации об алгоритме, используемом в модуле поиска имен OpenNLP? Лучше всего было вытащить исходный код и выполнить код с некоторыми реальными данными ... он основан на максимальной энтропии.

person markgiaconia    schedule 08.12.2013