Публикации по теме 'minhash'


Сходство текста с использованием K-Shingling, Minhashing и LSH (локально-чувствительное хэширование)
"Обработка естественного языка" Сходство текста с использованием K-Shingling, Minhashing и LSH (локально-чувствительное хэширование) Сходство текста играет важную роль в обработке естественного языка (NLP), и есть несколько областей, где это широко используется. Некоторые из приложений включают в себя поиск информации, категоризацию текста, определение темы, машинный перевод, суммирование текста, кластеризацию документов, обнаружение плагиата, рекомендацию новостей и т. д.,..

Вопросы по теме 'minhash'

как установить начальное значение для хэша ruby ​​murmur
Есть ли способ установить начальное значение для использования рубиновой хэш-функции (т. е. бормотание хэша в 1.9, не знаю JRuby?), чтобы я мог получать один и тот же хэш-код каждый раз, когда я запускаю скрипт (т. е. параллельно на нескольких...
1855 просмотров
schedule 01.09.2022

Как я могу получить матрицу подобия от minhash LSH?
Я прочитал много руководств и попробовал несколько minhash LSH, но он не может сгенерировать матрицу подобия, вместо этого он возвращает просто похожие данные, которые превышают порог. Как я могу его сгенерировать? Я намерен использовать результаты...
442 просмотров

Странная проблема с производительностью Spark LSH MinHash приблизительноСходствоПрисоединиться
Я соединяю 2 набора данных, используя метод Apache Spark ML LSH ApproSimilarityJoin, но наблюдаю странное поведение. После (внутреннего) соединения набор данных немного искажен, однако каждый раз, когда выполнение одной или нескольких задач...
972 просмотров

LSH Биннинг на лету
Я хочу использовать MinHash LSH для объединения большого количества документов в группы похожих документов (подобие Jaccard). Вопрос : можно ли вычислить сегмент MinHash, не зная MinHash других документов? Насколько я понимаю, LSH "просто"...
604 просмотров
schedule 01.06.2023

Почему пакет textreuse в R делает корзины LSH намного больше, чем исходные минхэши?
Насколько я понимаю, одной из основных функций метода LSH является сокращение данных даже за пределами базовых хэшей (часто минхэшей). Я использую пакет textreuse в R, и меня удивляет размер генерируемых им данных. textreuse — это проверенный...
70 просмотров
schedule 01.02.2023

Преобразование кадра данных для minHashLSH в искре
У меня есть этот кадр данных: val df = ( spark .createDataFrame( Seq((1L, 2L), (1L, 5L), (1L,8L), (2L,4L), (2L,6L), (2L,8L)) ) .toDF("A","B") .groupBy("A")...
57 просмотров