Публикации по теме 'minhash'
Сходство текста с использованием K-Shingling, Minhashing и LSH (локально-чувствительное хэширование)
"Обработка естественного языка"
Сходство текста с использованием K-Shingling, Minhashing и LSH (локально-чувствительное хэширование)
Сходство текста играет важную роль в обработке естественного языка (NLP), и есть несколько областей, где это широко используется. Некоторые из приложений включают в себя поиск информации, категоризацию текста, определение темы, машинный перевод, суммирование текста, кластеризацию документов, обнаружение плагиата, рекомендацию новостей и т. д.,..
Вопросы по теме 'minhash'
как установить начальное значение для хэша ruby murmur
Есть ли способ установить начальное значение для использования рубиновой хэш-функции (т. е. бормотание хэша в 1.9, не знаю JRuby?), чтобы я мог получать один и тот же хэш-код каждый раз, когда я запускаю скрипт (т. е. параллельно на нескольких...
1855 просмотров
schedule
01.09.2022
Как я могу получить матрицу подобия от minhash LSH?
Я прочитал много руководств и попробовал несколько minhash LSH, но он не может сгенерировать матрицу подобия, вместо этого он возвращает просто похожие данные, которые превышают порог. Как я могу его сгенерировать? Я намерен использовать результаты...
442 просмотров
schedule
10.07.2023
Странная проблема с производительностью Spark LSH MinHash приблизительноСходствоПрисоединиться
Я соединяю 2 набора данных, используя метод Apache Spark ML LSH ApproSimilarityJoin, но наблюдаю странное поведение.
После (внутреннего) соединения набор данных немного искажен, однако каждый раз, когда выполнение одной или нескольких задач...
972 просмотров
schedule
22.02.2023
LSH Биннинг на лету
Я хочу использовать MinHash LSH для объединения большого количества документов в группы похожих документов (подобие Jaccard).
Вопрос : можно ли вычислить сегмент MinHash, не зная MinHash других документов?
Насколько я понимаю, LSH "просто"...
604 просмотров
schedule
01.06.2023
Почему пакет textreuse в R делает корзины LSH намного больше, чем исходные минхэши?
Насколько я понимаю, одной из основных функций метода LSH является сокращение данных даже за пределами базовых хэшей (часто минхэшей). Я использую пакет textreuse в R, и меня удивляет размер генерируемых им данных. textreuse — это проверенный...
70 просмотров
schedule
01.02.2023
Преобразование кадра данных для minHashLSH в искре
У меня есть этот кадр данных:
val df = (
spark
.createDataFrame(
Seq((1L, 2L), (1L, 5L), (1L,8L), (2L,4L), (2L,6L), (2L,8L))
)
.toDF("A","B")
.groupBy("A")...
57 просмотров
schedule
17.11.2022