готовые матрицы для скрытого семантического анализа

Я хочу использовать латентный семантический анализ для небольшого приложения, которое я создаю, но я не хочу создавать матрицы самостоятельно. (Отчасти потому, что документы, которые у меня есть, не могли бы составить очень хорошую тренировочную коллекцию, потому что они короткие и разнородные, а отчасти потому, что я только что получил новый компьютер, и я нахожу сукой устанавливать линейную алгебру и тому подобное. библиотеки, которые мне понадобятся.)

Доступны ли какие-либо «стандартные»/предварительно созданные реализации LSA? Например, вещи, которые я ищу, включают:

  • Матрицы U, S, V по умолчанию (т. е. если D — матрица терминов-документов из некоторого обучающего набора, то D = USV^T — разложение по сингулярным числам), так что для любого вектора запроса q я могу использовать эти матрицы для вычислить LSA-проекцию q самостоятельно.
  • Некоторый алгоритм LSA черного ящика, который по заданному вектору запроса q возвращает проекцию LSA q.

person grautur    schedule 06.11.2010    source источник
comment
Патент 4839853? Разве это не истекло?   -  person Ken Bloom    schedule 29.11.2010
comment
@ Кен Блум, удалил мой комментарий - похоже, срок действия патента на LSA действительно истек год назад.   -  person Fred Foo    schedule 30.11.2010


Ответы (1)


Вас, вероятно, заинтересует структура Gensim для Python; в частности, в нем есть пример построения соответствующих матриц из английской Википедии.

person Bkkbrad    schedule 29.11.2010