Вопросы по теме 'lsh'

Странная проблема с производительностью Spark LSH MinHash приблизительноСходствоПрисоединиться
Я соединяю 2 набора данных, используя метод Apache Spark ML LSH ApproSimilarityJoin, но наблюдаю странное поведение. После (внутреннего) соединения набор данных немного искажен, однако каждый раз, когда выполнение одной или нескольких задач...
972 просмотров

LSH Биннинг на лету
Я хочу использовать MinHash LSH для объединения большого количества документов в группы похожих документов (подобие Jaccard). Вопрос : можно ли вычислить сегмент MinHash, не зная MinHash других документов? Насколько я понимаю, LSH "просто"...
604 просмотров
schedule 01.06.2023

Быстрый способ сравнить вектор с другими векторами, используя косинусное сходство в python? предварительно вычисленная матрица? LSH-хеширование?
Я работаю над проблемой, которая требует показателей сходства для извлечения подмножества данных из большего набора для дальнейшего анализа. Я извлекаю подмножество, используя косинусное сходство выше определенного порога. Набор игрушек ниже...
1509 просмотров
schedule 21.08.2022

Почему пакет textreuse в R делает корзины LSH намного больше, чем исходные минхэши?
Насколько я понимаю, одной из основных функций метода LSH является сокращение данных даже за пределами базовых хэшей (часто минхэшей). Я использую пакет textreuse в R, и меня удивляет размер генерируемых им данных. textreuse — это проверенный...
70 просмотров
schedule 01.02.2023