Ищете корпоративное решение для разбиения текста на предложения

Алгоритм разбиения текста на предложения легко разработать вручную/на основе регулярных выражений. Но игнорирование семантики в конечном итоге приведет к ошибкам синтаксического анализа при обработке больших объемов текста.

Я ищу решение корпоративного уровня, которое также анализирует семантику и дает точные результаты.

Целевой язык — EN.


person Denis Kulagin    schedule 04.02.2015    source источник
comment
Google › обработка естественного языка. Проверьте, соответствует ли что-нибудь вашим потребностям.   -  person N.B.    schedule 04.02.2015
comment
Nltk в python обеспечивает хороший надежный результат, если используются правильные функции. Но из вашего вопроса я предполагаю, что вы не рассматривали этот вопрос.   -  person Einar Sundgren    schedule 04.02.2015
comment
@Einar Пожалуйста, превратите свой комментарий в ответ. Просто потому, что он один.   -  person Denis Kulagin    schedule 04.02.2015


Ответы (2)


Я проанализировал точность различных инструментов сегментации предложений, которые вы можете найти в README моей жемчужины сегментации предложений Ruby или на этой странице. Язык программирования каждого инструмента также отмечен большинством. Я не встречал никаких инструментов сегментации, написанных на PHP. Я предполагаю, что если вы хотите корпоративное решение, вам нужно будет перенести инструмент с другого языка программирования (или найти кого-то, у кого он уже есть).

Инструменты сегментации предложений:

person diasks2    schedule 05.02.2015
comment
Спасибо за такой исчерпывающий список. Язык почти не проблема, поскольку текст анализируется статически, а предложения затем записываются в базу данных. - person Denis Kulagin; 05.02.2015

Nltk в python обеспечивает хороший надежный результат, если используются правильные функции. Также следует учитывать Apaches open NLP.

person Einar Sundgren    schedule 04.02.2015