Я хочу использовать латентный семантический анализ для небольшого приложения, которое я создаю, но я не хочу создавать матрицы самостоятельно. (Отчасти потому, что документы, которые у меня есть, не могли бы составить очень хорошую тренировочную коллекцию, потому что они короткие и разнородные, а отчасти потому, что я только что получил новый компьютер, и я нахожу сукой устанавливать линейную алгебру и тому подобное. библиотеки, которые мне понадобятся.)
Доступны ли какие-либо «стандартные»/предварительно созданные реализации LSA? Например, вещи, которые я ищу, включают:
- Матрицы U, S, V по умолчанию (т. е. если D — матрица терминов-документов из некоторого обучающего набора, то D = USV^T — разложение по сингулярным числам), так что для любого вектора запроса q я могу использовать эти матрицы для вычислить LSA-проекцию q самостоятельно.
- Некоторый алгоритм LSA черного ящика, который по заданному вектору запроса q возвращает проекцию LSA q.