какой синтаксический анализатор наиболее подходит для извлечения [биомедицинских] отношений?

Я читал о парсере непрерывности и парсере зависимостей. но запутался, что может быть лучшим выбором.

моя задача состоит в том, чтобы извлечь отношения из английского текста википедии (другой источник также может быть включен позже). Мне нужен семантический путь (только с самой важной информацией) между двумя интересными объектами. например,

form text: "В Америке диабет, как известно, распространенное заболевание".

Мне нужна информация: "диабет — это болезнь"

какую реализацию парсера вы бы предложили? Стэнфорд? Малтпарсер? или другой?

любая подсказка приветствуется.


person Matt    schedule 20.06.2012    source источник
comment
здесь videolectures.net/ecmlpkdd09_reichartz_dtkrenlt что-то связанное...   -  person Matt    schedule 20.06.2012


Ответы (2)


Вы имеете в виду синтаксический парсер против парсера зависимостей? онлайн-анализатор Stanford показывает, чем эти синтаксические анализы отличаются.

Синтаксический разбор

(ROOT
  (S
    (PP (IN In)
      (NP (NNP America)))
    (, ,)
    (NP (NNP diabetes))
    (VP (VBZ is) (, ,)
      (PP (IN as)
        (NP (NN everybody) (NNS knows)))
      (, ,)
      (NP (DT a) (JJ common) (NN disease)))))

Анализ зависимостей (свернутый)

prep_in(disease-13, America-2)
nsubj(disease-13, diabetes-4)
cop(disease-13, is-5)
nn(knows-9, everybody-8)
prep_as(disease-13, knows-9)
det(disease-13, a-11)
amod(disease-13, common-12)
root(ROOT-0, disease-13)

На самом деле они не так уж отличаются (см. тезис Коллинза или книгу Нива для более подробной информации), но я считаю, что с разбором зависимостей легче работать. Как видите, получается прямая зависимость диабет -> болезнь. Затем можно прикрепить связку.

person nflacco    schedule 20.06.2012
comment
Для биомедицинских отношений может быть полезен синтаксический анализатор GENIA, но это зависит от того, какие отношения используются. Почитайте литературу, я бы посоветовал соревнования по БиоНЛП последних лет. - person nflacco; 20.06.2012
comment
о, большое спасибо за вашу информацию, позвольте мне прочитать то, что вы упомянули. Итак, вы также думаете, что парсер зависимостей больше подходит в этом случае, верно? еще одна причина, по которой я предпочитаю парсер зависимостей, — это скорость. Парсер непрерывности кажется намного медленнее. - person Matt; 20.06.2012
comment
Я думаю, что с отношениями, возвращаемыми синтаксическим анализатором зависимостей, легче работать, чем создавать какой-либо объект дерева и пытаться связать узлы друг с другом. В основном экономит время. - person nflacco; 21.06.2012

Конечно, парсер зависимостей, такой как анализатор зависимостей Стэнфорда, был бы правильным выбором для вас. Я бы рекомендовал использовать парсер переранжирования BLLIP с биомедицинская модель Дэвида Макклоски для получения структуры фразы и последующего преобразования в зависимости с помощью Стэнфордские зависимости. Таким образом, вы получите лучшие деревья/графики зависимостей для биомедицинского текста.

person Syeed Ibn Faiz    schedule 28.08.2012