Использование условных случайных полей для распознавания именованных сущностей

Что такое Условное случайное поле? Как именно Условное случайное поле идентифицирует собственные имена как человека, организацию или место в структурированном или неструктурированном тексте?

Например: этот продукт заказан компанией StackOverFlow Inc.

Что делает условное случайное поле для идентификации StackOverFlow Inc. как организации?


person user239135    schedule 27.12.2009    source источник


Ответы (2)


CRF - это дискриминативная модель пакетной маркировки, принадлежащая к тому же общему семейству, что и марковская модель с максимальной энтропией.

Полное объяснение занимает всю книгу.

Краткое объяснение выглядит следующим образом:

  1. Люди аннотируют 200-500 тысяч слов текста, отмечая сущности.
  2. Люди выбирают набор признаков, которые, как они надеются, указывают на сущности. Такие вещи, как использование заглавных букв или отображение слова в обучающем наборе с тегом.
  3. Процедура обучения считает все вхождения признаков.
  4. Основа алгоритма CRF ищет в пространстве всех возможных моделей, которые соответствуют подсчетам, чтобы найти довольно хорошую.
  5. Во время выполнения декодер (возможно, декодер Витерби) просматривает предложение и решает, какой тег назначить каждому слову.

Сложными частями этого являются выбор функции и алгоритм поиска на шаге 4.

person bmargulies    schedule 27.12.2009

Хорошо, чтобы понять, что надо много чего изучить.
Для начала

Основные сведения о марковских и байесовских сетях.
Онлайн-курс, доступный на coursera от дафны коллер
https://class.coursera.org/pgm/lecture/index

CRF - это особый тип сети Маркова, в которой есть наблюдения и скрытые состояния.
Цель состоит в том, чтобы найти наилучшее присвоение состояний ненаблюдаемым переменным, также известное как проблема MAP.
Будьте готовы к большой вероятности и оптимизации . :-)

person Dhruv Premi    schedule 27.04.2015