Я пытаюсь создать обучающие данные для средства поиска имен openNLP и буду признателен за любую помощь, которую вы можете предложить.
Если бы у меня был такой текстовый файл:
Pierre Vinken, 61 years old, will join the board as a nonexecutive director Nov. 29.
John Smith is chairman of Elsevier N.V., the Dutch publishing group.
и список имен во втором файле, например:
Pierre Vinken
John Smith
Будет ли способ найти все упоминания имен в текстовом файле и соответствующим образом пометить их в файле, чтобы создать обучающие данные, чтобы файл теперь читался так:
<START:CEO> Pierre Vinken <END>, 61 years old, will join the board as a nonexecutive director Nov. 29.
<START:CEO> John Smith <END> is chairman of Elsevier N.V., the Dutch publishing group.
Обратите внимание, что я знаю, что потребуются другие шаги предварительной обработки, чтобы сделать файл пригодным для обучения, например принудительное размещение данных в одном предложении в строке.
Я был бы признателен за решение в Notepad++ или R, но при необходимости у меня также есть доступ к инструментам оболочки. Спасибо!