Вопросы по теме 'lsh'
Странная проблема с производительностью Spark LSH MinHash приблизительноСходствоПрисоединиться
Я соединяю 2 набора данных, используя метод Apache Spark ML LSH ApproSimilarityJoin, но наблюдаю странное поведение.
После (внутреннего) соединения набор данных немного искажен, однако каждый раз, когда выполнение одной или нескольких задач...
972 просмотров
schedule
22.02.2023
LSH Биннинг на лету
Я хочу использовать MinHash LSH для объединения большого количества документов в группы похожих документов (подобие Jaccard).
Вопрос : можно ли вычислить сегмент MinHash, не зная MinHash других документов?
Насколько я понимаю, LSH "просто"...
604 просмотров
schedule
01.06.2023
Быстрый способ сравнить вектор с другими векторами, используя косинусное сходство в python? предварительно вычисленная матрица? LSH-хеширование?
Я работаю над проблемой, которая требует показателей сходства для извлечения подмножества данных из большего набора для дальнейшего анализа.
Я извлекаю подмножество, используя косинусное сходство выше определенного порога. Набор игрушек ниже...
1509 просмотров
schedule
21.08.2022
Почему пакет textreuse в R делает корзины LSH намного больше, чем исходные минхэши?
Насколько я понимаю, одной из основных функций метода LSH является сокращение данных даже за пределами базовых хэшей (часто минхэшей). Я использую пакет textreuse в R, и меня удивляет размер генерируемых им данных. textreuse — это проверенный...
70 просмотров
schedule
01.02.2023