Я работаю над проектом, в котором мне нужно извлечь информацию о корпоративных облигациях из неструктурированных электронных писем. Проведя много исследований, я обнаружил, что машинное обучение можно использовать для извлечения информации. Я попробовал Opennlp NER (распознаватель именованных сущностей), но я не уверен, правильно ли я выбрал библиотеку для этой проблемы, потому что я получаю результаты, но не на должном уровне.
Может ли кто-нибудь предложить мне любую библиотеку или алгоритмы, которые означают, как я могу анализировать и извлекать из них данные. Я планирую исследовать Наивный Байес, или N-грамм, или машину опорных векторов, но не уверен, поможет это мне или нет. Пожалуйста, предложите.
Примеры такие:
[/] Trading 10mm ABC 2.5 19 05/06 mkt can use 50mm
---> вот я хочу извлечь "ABC 2.5 19"
Пример 2:
XYZ 6.5 15 10-2B 106-107 B3 AAA- 1.646MM 2x2
---> вот я хочу извлечь "XYZ 6.5 15"