Предположим, что D
— это текстовый документ, и
K = < k1, ..., kN >
представляет собой набор терминов, содержащихся в документе. Например:
D = "What a wonderful day, isn't it?"
K = <"wonderful","day">
Моя цель — посмотреть, говорит ли документ D
обо всех словах в K
в целом. Например:
D = "The Ebola in Africa is spreading at high speed"
K = <"Ebola","Africa">
это случай, когда D
сильно связано с K
, а:
D = "NEWS 1: Ebola is a dangerous disease that is causing thousands of deaths. Many governments are taking precautions to prevent its spread. NEWS 2: population in Africa is increasing."
K = <"Ebola","Africa">
это случай, когда D
не связано с K
, поскольку «Эбола» и «Африка» упоминаются в разных местах документа, в отдельных предложениях и не связаны между собой.
Как я могу синтезировать эту концепцию «родства» D
с K
? Есть ли какая-то современная технология, которую можно использовать?
Спасибо.