Признание нетрадиционных именованных сущностей

Я пытаюсь разработать несколько нетрадиционную систему NER, которая помечает определенные многословные строки как отдельные единицы / токены.

Есть много классных инструментов NER, но у меня есть несколько особых потребностей, из-за которых практически невозможно использовать что-то прямо из коробки:

Во-первых, сущности нельзя просто извлечь и распечатать в списке - их нужно как-то пометить и объединить в токены.

Во-вторых, категоризация не важна - человек / организация / местоположение не имеет значения (по крайней мере, на выходе).

В-третьих, это не просто ваши типичные именованные сущности ENAMEX, которые мы ищем. Нам нужны компании и организации, а также такие концепции, как «изменение климата» и «однополые браки». Я видел подобные теги на некоторых инструментах, но все они были «в стиле извлечения».

Как я могу получить такую ​​функциональность? Сможет ли обучить Стэнфордского теггера на моем собственном, вручную аннотированном наборе данных эту работу (где фразы в стиле «изменение климата» помечены как MISC или что-то в этом роде)? Или мне лучше просто составить короткий список «странных» сущностей и сравнить текст с ним после того, как он будет пропущен через обычную систему NER?

Огромное спасибо!


person jjdubs    schedule 20.06.2012    source источник
comment
изменение климата и однополые браки не называются сущностями в традиционном смысле NER. Они больше похожи на словосочетания или фиксированные выражения. Какой-нибудь алгоритм, основанный на взаимной информации, может их уловить.   -  person Fred Foo    schedule 21.06.2012
comment
@larsmans Да, я пробовал нечто подобное. Сначала найдите фрагменты, найдите словосочетания существительных, затем запустите статистику коллокаций, чтобы найти «интересные» (маловероятные) фразы. Этот последний шаг требует точной настройки, а я еще не дошел до него. Лучшая статистика может быть ответом.   -  person winwaed    schedule 21.06.2012
comment
@winwaed: альтернативой может быть сопоставление строк с Википедией для поиска статей, которые используются в качестве якорного текста; это также дает вам смысл фразы. В последнее время я делал это с помощью алгоритма Мэйджа, и он работает довольно хорошо.   -  person Fred Foo    schedule 21.06.2012
comment
@all Ах, спасибо! И люди делают удивительные вещи с помощью Википедии и НЛП. В Сиднейском университете есть исследовательская группа, которая использует его для извлечения действительно больших, автоматически аннотированных учебных корпусов.   -  person jjdubs    schedule 21.06.2012


Ответы (1)


Базовая модель CRF для тегировщика именованных сущностей, например Stanford NER, может фактически использоваться для распознавания чего угодно, а не только именованных сущностей. Конечно, есть люди, которые довольно успешно использовали их для подбора различных терминологических фраз. Программное обеспечение, безусловно, может предоставить вам размеченные последовательности токенов в контексте.

Однако есть выбор, подходить ли к этому «более неконтролируемым» способом, когда используется что-то вроде статистики фрагментов NP и коллокаций, или полностью контролируемым способом простой CRF, где вы предоставляете множество аннотированных данные о фразах, которые вы хотели бы произносить.

person Christopher Manning    schedule 27.06.2012
comment
Огромное спасибо! Поскольку моя задача настолько специфична для предметной области (избирательные блоги и новости), мне было проще просто вручную аннотировать большой набор данных только «странными» объектами, а затем использовать его для обучения классификатора только этим объектам. В итоге я пропустил свой текст сначала через стандартный теггер, а затем через мой специально обученный классификатор, и это отлично сработало! - person jjdubs; 28.06.2012
comment
jjdubs - вы использовали nltk или Stanford? Я сталкиваюсь с чем-то похожим и хотел бы получить более подробную информацию. - person Wizzard; 20.12.2012
comment
@jjdubs Я также хотел бы услышать о том, как вы этого добились! - person adaam; 05.07.2014