У меня есть большая разреженная матрица numpy/scipy, где каждая строка соответствует точке в многомерном пространстве. Я хочу сделать запросы следующего вида:
Имея точку P (строка в матрице) и расстояние эпсилон, найдите все точки с расстоянием не более эпсилон от P .
Метрика расстояния, которую я использую, — это сходство с Jaccard, поэтому должна быть возможность использовать приемы хеширования с учетом местоположения, такие как MinHash.
Есть ли где-нибудь реализация MinHash для разреженных массивов numpy (кажется, я не могу ее найти) или есть простой способ сделать это?
Причина, по которой я не просто вытаскиваю что-то, созданное для неразреженных массивов, с Github, заключается в том, что разреженные структуры данных в scipy могут вызвать взрыв временной сложности.