Для текста, содержащего названия компаний, я хочу обучить модель, которая автоматически помечает подрядчиков (компания, выполняющая задачу) и руководителей (компания, нанимающая подрядчика).
Примером предложения может быть:
Blossom Inc. нанимает консультантов Big Think для разработки стратегии аутсорсинга.
с Blossom Inc в качестве заказчика и Big Think в качестве подрядчика.
Мой первый вопрос: Достаточно ли пометить только руководителей и подрядчиков в моей обучающей выборке или лучше дополнительно использовать POS-теги?
Другими словами, либо
Blossom/PRINCIPAL Inc./PRINCIPAL нанимает/NN the/NN консультантов/NN of/NN Big/ПОДРЯДЧИК Думает/ПОДРЯДЧИК по/NN разрабатывает/NN и/NN аутсорсинг/NN стратегия/NN ./.
or
Blossom/PRINCIPAL Inc./PRINCIPAL нанимает/VBZ/DT консультанты/NNS of/IN Big/ПОДРЯДЧИК Think/ПОДРЯДЧИК по/разработке/VB an/DT аутсорсинг/NN стратегия/NN ./.
Второй вопрос: После того, как у меня будет тренировочный набор, какие алгоритмы пакета nltk являются наиболее перспективными? N-Gram Tagger, Brill Tagger, TnT Tagger, Maxent Classifier, Naive Bayes, ...? Или я здесь совершенно не на том пути?
Я новичок в НЛП, и я просто хотел спросить совета, прежде чем тратить много времени на пометку своего тренировочного набора. И мой текст на немецком языке, что может добавить некоторые трудности... Спасибо за любой совет!