какой синтаксический анализатор наиболее подходит для извлечения [биомедицинских] отношений?

Я читал о парсере непрерывности и парсере зависимостей. но запутался, что может быть лучшим выбором.

моя задача состоит в том, чтобы извлечь отношения из английского текста википедии (другой источник также может быть включен позже). Мне нужен семантический путь (только с самой важной информацией) между двумя интересными объектами. например,

form text: "В Америке диабет, как известно, распространенное заболевание".

Мне нужна информация: "диабет — это болезнь"

какую реализацию парсера вы бы предложили? Стэнфорд? Малтпарсер? или другой?

любая подсказка приветствуется.

parsing nlp information-extraction

Matt 20.06.2012 источник

comment

здесь videolectures.net/ecmlpkdd09_reichartz_dtkrenlt что-то связанное... - Matt 20.06.2012

Ответы (2)

arrow_upward
4
arrow_downward

Вы имеете в виду синтаксический парсер против парсера зависимостей? онлайн-анализатор Stanford показывает, чем эти синтаксические анализы отличаются.

Синтаксический разбор

(ROOT
  (S
    (PP (IN In)
      (NP (NNP America)))
    (, ,)
    (NP (NNP diabetes))
    (VP (VBZ is) (, ,)
      (PP (IN as)
        (NP (NN everybody) (NNS knows)))
      (, ,)
      (NP (DT a) (JJ common) (NN disease)))))

Анализ зависимостей (свернутый)

prep_in(disease-13, America-2)
nsubj(disease-13, diabetes-4)
cop(disease-13, is-5)
nn(knows-9, everybody-8)
prep_as(disease-13, knows-9)
det(disease-13, a-11)
amod(disease-13, common-12)
root(ROOT-0, disease-13)

На самом деле они не так уж отличаются (см. тезис Коллинза или книгу Нива для более подробной информации), но я считаю, что с разбором зависимостей легче работать. Как видите, получается прямая зависимость диабет -> болезнь. Затем можно прикрепить связку.

nflacco 20.06.2012

comment

Для биомедицинских отношений может быть полезен синтаксический анализатор GENIA, но это зависит от того, какие отношения используются. Почитайте литературу, я бы посоветовал соревнования по БиоНЛП последних лет. - nflacco; 20.06.2012

comment

о, большое спасибо за вашу информацию, позвольте мне прочитать то, что вы упомянули. Итак, вы также думаете, что парсер зависимостей больше подходит в этом случае, верно? еще одна причина, по которой я предпочитаю парсер зависимостей, — это скорость. Парсер непрерывности кажется намного медленнее. - Matt; 20.06.2012

comment

Я думаю, что с отношениями, возвращаемыми синтаксическим анализатором зависимостей, легче работать, чем создавать какой-либо объект дерева и пытаться связать узлы друг с другом. В основном экономит время. - nflacco; 21.06.2012

arrow_upward
4
arrow_downward

Конечно, парсер зависимостей, такой как анализатор зависимостей Стэнфорда, был бы правильным выбором для вас. Я бы рекомендовал использовать парсер переранжирования BLLIP с биомедицинская модель Дэвида Макклоски для получения структуры фразы и последующего преобразования в зависимости с помощью Стэнфордские зависимости. Таким образом, вы получите лучшие деревья/графики зависимостей для биомедицинского текста.

Syeed Ibn Faiz 28.08.2012

какой синтаксический анализатор наиболее подходит для извлечения [биомедицинских] отношений?

Ответы (2)

Похожие вопросы