Меня интересует парсинг полуструктурированного текста. Предположим, у меня есть текст с такими метками: year_field
, year_value
, identity_field
, identity_value
, ..., address_field
, address_value
и так далее.
Эти поля и связанные с ними значения могут быть повсюду в тексте, но обычно они находятся рядом друг с другом, и в целом текст организован в (очень) приблизительную матрицу, но довольно часто значение находится сразу после связанного поля с в конечном итоге некоторая неинтересная информация между ними.
Количество разного формата может доходить до нескольких десятков, и оно не такое уж жесткое (не считая пробелов, тем более что некоторая информация может добавляться и удаляться).
Я ищу методы машинного обучения, чтобы извлечь все интересующие (поле, значение).
Я думаю, что метрическое обучение и / или условные случайные поля (CRF
) могут быть очень полезными, но у меня нет практического опыта работы с ними.
Кто-нибудь уже сталкивался с подобной проблемой?
Есть предложения или литература по этой теме?