Я пытаюсь разработать несколько нетрадиционную систему NER, которая помечает определенные многословные строки как отдельные единицы / токены.
Есть много классных инструментов NER, но у меня есть несколько особых потребностей, из-за которых практически невозможно использовать что-то прямо из коробки:
Во-первых, сущности нельзя просто извлечь и распечатать в списке - их нужно как-то пометить и объединить в токены.
Во-вторых, категоризация не важна - человек / организация / местоположение не имеет значения (по крайней мере, на выходе).
В-третьих, это не просто ваши типичные именованные сущности ENAMEX, которые мы ищем. Нам нужны компании и организации, а также такие концепции, как «изменение климата» и «однополые браки». Я видел подобные теги на некоторых инструментах, но все они были «в стиле извлечения».
Как я могу получить такую функциональность? Сможет ли обучить Стэнфордского теггера на моем собственном, вручную аннотированном наборе данных эту работу (где фразы в стиле «изменение климата» помечены как MISC или что-то в этом роде)? Или мне лучше просто составить короткий список «странных» сущностей и сравнить текст с ним после того, как он будет пропущен через обычную систему NER?
Огромное спасибо!