Я работаю над извлечением сущностей в R. У меня есть поля UniqueID
и Text
— нужно извлечь информацию о местоположении из текстового поля. Мое текстовое поле имеет описание с названиями местоположений
text <- c("SERANGOON JC","Blk 4","SHELL TAMPINES AVE 4","SENOKO INDUSTRIAL ESTATE","Senoko Estate","Senoko","senok Est.")
У меня есть список местоположений;
Loc <- c("SERANGOON JUNIOR COLLEGE","Block 4","SHELL TAMPINES AVENUE 4","SENOKO INDUSTRIAL ESTATE")
Необходимо сопоставить loc
и извлечь это местоположение из поля text
. В текстовом поле SENOKO INDUSTRIAL ESTATE
пишется по-разному Senoko Estate
или Senoko
(половина имен) или с орфографической ошибкой senok Est.
. нужно получить точное имя от loc
т.е. SENOKO INDUSTRIAL ESTATE
.
Мой вывод будет выглядеть так: (Извлечь местоположение из текстового поля - получить правильные слова для слов, написанных наполовину и с ошибками)
ID Location
123 SERANGOON JUNIOR COLLEGE|Block 4|SHELL TAMPINES AVENUE 4|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE