NER (распознавание именованных сущностей) Сходство между предложениями в документах

Я использовал spacy, чтобы найти NER предложений. Моя проблема в том, что мне нужно вычислить сходство NER между предложениями двух разных документов. Есть ли в питоне какая-либо формула или пакет для того же?

TIA


person user2401464    schedule 03.04.2019    source источник
comment
Загляните на страницу radimrehurek.com/gensim/models/doc2vec.html   -  person Nihal Sangeeth    schedule 03.04.2019
comment
Что вы имеете в виду под NER-подобием?   -  person Anwarvic    schedule 03.04.2019
comment
Подобные сущности встречаются в предложениях в разных документах. В каком-то смысле это похоже на косинусное подобие. Но мой вопрос: есть ли способ назначить отдельный вес для этих объектов?   -  person user2401464    schedule 03.04.2019


Ответы (2)


Я думаю, вы спрашиваете, how similar are two named entities?

Это не так уж и тривиально, поскольку мы должны определить, что означает «подобное».

Если мы воспользуемся наивным набором слов, две сущности будут более похожими, если будет идентично больше их токенов.

Если мы поместим токены сущностей в наборы, вычисление будет просто коэффициентом жаккара.

Sim(ent1, ent2) = |ent1 ∩ ent2| / |ent1  ∪ ent2|

Что в питоне будет:

ent1 = set(map(str, spacy_entity1))
ent2 = set(map(str, spacy_entity2))
similarity = len(ent1 & ent2) / len(ent1 | ent2)

Где spacy_entity - одна из сущностей, извлеченных пространством

Затем мы просто создаем наборы сущностей ent, создавая набор строк, которые их представляют.

person Nathan McCoy    schedule 04.04.2019

Вероятно, вам понадобится http://uima.apache.org/d/uimacpp-2.4.0/docs/Python.html/ плюс прикрепленный к нему парсер CoNLL-U https://universaldependencies.org/format.html. При таком подходе NER основаны на словаре в конвейере UIMA. Вам необходимо разработать собственные алгоритмы поиска / сопоставления NER (на Python или на другом поддерживаемом языке).

person Mika72    schedule 03.04.2019
comment
Некоторые аннотаторы CoNNL-U можно найти здесь: lindat.mff.cuni.cz/services/udpipe - person Mika72; 08.04.2019