Статьи по тематике minhash

Публикации по теме 'minhash'

Сходство текста с использованием K-Shingling, Minhashing и LSH (локально-чувствительное хэширование)

"Обработка естественного языка" Сходство текста с использованием K-Shingling, Minhashing и LSH (локально-чувствительное хэширование) Сходство текста играет важную роль в обработке естественного языка (NLP), и есть несколько областей, где это широко используется. Некоторые из приложений включают в себя поиск информации, категоризацию текста, определение темы, машинный перевод, суммирование текста, кластеризацию документов, обнаружение плагиата, рекомендацию новостей и т. д.,..

Вопросы по теме 'minhash'

как установить начальное значение для хэша ruby murmur

Есть ли способ установить начальное значение для использования рубиновой хэш-функции (т. е. бормотание хэша в 1.9, не знаю JRuby?), чтобы я мог получать один и тот же хэш-код каждый раз, когда я запускаю скрипт (т. е. параллельно на нескольких...

1855 просмотров

01.09.2022

Как я могу получить матрицу подобия от minhash LSH?

Я прочитал много руководств и попробовал несколько minhash LSH, но он не может сгенерировать матрицу подобия, вместо этого он возвращает просто похожие данные, которые превышают порог. Как я могу его сгенерировать? Я намерен использовать результаты...

442 просмотров

cluster-analysis minhash locality-sensitive-hash

10.07.2023

Странная проблема с производительностью Spark LSH MinHash приблизительноСходствоПрисоединиться

Я соединяю 2 набора данных, используя метод Apache Spark ML LSH ApproSimilarityJoin, но наблюдаю странное поведение. После (внутреннего) соединения набор данных немного искажен, однако каждый раз, когда выполнение одной или нескольких задач...

972 просмотров

duplicates apache-spark apache-spark-mllib minhash lsh

22.02.2023

LSH Биннинг на лету

Я хочу использовать MinHash LSH для объединения большого количества документов в группы похожих документов (подобие Jaccard). Вопрос : можно ли вычислить сегмент MinHash, не зная MinHash других документов? Насколько я понимаю, LSH "просто"...

604 просмотров

python minhash lsh

01.06.2023

Почему пакет textreuse в R делает корзины LSH намного больше, чем исходные минхэши?

Насколько я понимаю, одной из основных функций метода LSH является сокращение данных даже за пределами базовых хэшей (часто минхэшей). Я использую пакет textreuse в R, и меня удивляет размер генерируемых им данных. textreuse — это проверенный...

70 просмотров

r md5 ropensci minhash lsh

01.02.2023

Преобразование кадра данных для minHashLSH в искре

У меня есть этот кадр данных: val df = ( spark .createDataFrame( Seq((1L, 2L), (1L, 5L), (1L,8L), (2L,4L), (2L,6L), (2L,8L)) ) .toDF("A","B") .groupBy("A")...

57 просмотров

apache-spark scala user-defined-functions apache-spark-ml minhash

17.11.2022

Публикации по теме 'minhash'

Сходство текста с использованием K-Shingling, Minhashing и LSH (локально-чувствительное хэширование)

Вопросы по теме 'minhash'

Похожие вопросы