Я ищу алгоритм/сервис извлечения терминов. Это просто предложение для редактора, поэтому извлеченные термины могут быть неполными. Таким образом, я хочу, чтобы он сравнивал текст со списком доступных терминов и не предлагал термины вне этого списка.
Задача кажется тривиальной: для каждого термина подсчитать количество упоминаний в тексте, отфильтровать топовые термины. Но вот у меня есть список из нескольких десятков тысяч терминов, эта задача выглядит невыполнимой. Вы знаете сервис или алгоритм, который это делает?
Еще одна деталь заключается в том, что, хотя я вполне доволен службой извлечения терминов (затем отфильтруйте эти термины на основе моего списка), это не английский язык, и большинство слов являются составными словами, поэтому я не знаю ни одного полезного сервиса.
Спасибо.
Изменить: пример
Hôm thứ hai 31/1/2011, ericsson cho biết đ trình diễn mạng hspa (высокоскоростный доступ к пакетам) với tốc ộ tải xuống lên ến 168 mbit/giây, tốc ộ tải lên 24 mbit/giây. Buổi trình diễn sử dụng một nguyên mẫu thiết bịngười tiêu dùng và thiết bịng thương mại, với sự tham dự của singtel theo lời mời của ericsson.
Ể ạt tốc ộ 168 mbit/giây, ericsson đ sử dụng một số thủt vô vô uyến, bao gồm công nghệ anten mimo (множественная входная поверхность). MIMO sử dụng nhiều anten tại trạm gốc và trên thiet bị để tăng tốc độ.
Тео Эрикссон, cũng sẽ có một buổi trình diễn như vậy được tiến hành tại triển lãm Mobile World Congress sắp tới ở Барселона (Тай Бан Нха)
И список предложений может быть: Ericsson, trình diễn, HSPA, anten (среди прочих)