Публикации по теме 'cosine-similarity'


Косинусное сходство в Java
В программной инженерии есть интересная тема в измерении программного обеспечения, связанная со сходством документов. Как выполнить и вычислить сходство документов, используя метод поиска информации, такой как косинусное сходство в модели векторного пространства. Чтобы продемонстрировать практический аспект вычисления и реализации сходства косинусов, я решил реализовать эту функцию с помощью языка программирования Java. Это было немного сложно, но это был интересный опыт. По сути, в..

Разработка приложений рекомендательной системы
С косинусным сходством, установлением пороговых значений рейтинга и другими настраиваемыми методами В этой статье мы будем разрабатывать систему рекомендаций (RS) с использованием косинусного сходства (CS) вместе с другими настраиваемыми формулами с языком программирования Python. Это приложение будет частью проекта, над которым я работал во время своей магистерской диссертации. Есть много способов построить RS. Здесь мы разработаем методы, в частности, для решения проблемы холодного..

Вопросы по теме 'cosine-similarity'

Вернуть документ, наиболее похожий на документ запроса, с помощью подобия Cosine в python
У меня есть набор файлов и документ с запросом. Моя цель - вернуть наиболее похожие документы путем сравнения с документом запроса для каждого документа. Чтобы использовать косинусное сходство, мне нужно сопоставить строки документа с векторами. Также...
1159 просмотров

Как эффективно вычислить сходство между документами в потоке документов
Я собираю текстовые документы (в Node.js), где один документ i представлен в виде списка слов. Каков эффективный способ вычисления сходства между этими документами, принимая во внимание, что новые документы поступают как своего рода поток...
1312 просмотров

Косинусное подобие - один ко многим
Мне интересно, есть ли хороший способ использовать косинусное сходство для сравнения одного документа с набором документов. Очевидно, вы могли бы рассчитать косинусное сходство между отдельным документом и каждым документом в наборе, но если бы вы...
429 просмотров
schedule 15.04.2022

Как эффективно получить верхние K-подобные векторы по косинусному сходству с помощью R?
Я работаю над проблемой большой размерности (~ 4k членов) и хотел бы получить верхнее k-подобное (по косинусному сходству) и не могу позволить себе выполнить попарные вычисления. Мой обучающий набор представляет собой матрицу размером 6 миллионов x...
3194 просмотров
schedule 18.02.2023

K-средние с косинусным расстоянием
Мне нужно написать программу для этого кластера, используя k-средства. У меня есть TF-IDF, а также косинусное сходство, которое выглядит так 1.00 0.17 0.46 0.40 0.89 0.17 1.00 0.83 0.60 0.58 0.46 0.83 1.00 0.30...
3139 просмотров

Оценка Elasticsearch
Я использую elasticsearch, чтобы найти документы, похожие на данный документ, с помощью запроса «больше похоже на этот». Есть ли простой способ получить оценку elasticsearch от 0 до 1 (используя косинусное сходство)? Спасибо!
1843 просмотров
schedule 19.08.2022

Прогнозируйте интересные статьи с помощью scikit-learn
Я пытаюсь построить алгоритм, способный предсказать, понравится ли мне статья, основываясь на предыдущих статьях, которые мне понравились. Пример: Я прочитал 50 статей, мне понравилось 10. Я говорю своей программе, что они мне понравились....
897 просмотров

Получение k похожих строк в матрице для каждой строки через косинусное сходство в R
Как эффективно получить лучшие K-подобные векторы по косинусному сходству с использованием R? спрашивает, как вычислить лучшие похожие векторы для каждого вектора одна матрица относительно другой матрицы. Это удовлетворительный ответ , и я хотел...
819 просмотров
schedule 18.06.2022

DeepLearning4J - ParagraphVectors: почему сходство отрицательное?
Я использую инструмент ParagraphVector в рамках DeepLearning4j. Я тренирую модель на наборе текстовых документов, а затем вычисляю сходство между этими документами. Теперь, как сказано на справочной странице ( http://deeplearning4j.org/word2vec ),...
376 просмотров

Косинусное сходство с использованием TFIDF
Есть несколько вопросов по SO и в сети, описывающих, как взять cosine similarity между двумя строками и даже между двумя строками с TFIDF в качестве весов. Но вывод такой функции, как linear_kernel из scikit меня немного смущает. Рассмотрим...
3761 просмотров
schedule 22.01.2023

Как получить сжатую форму попарных расстояний напрямую?
У меня очень большая scipy разреженная матрица csr. Это размерная матрица 100 000x2 000 000. Назовем его X . Каждая строка представляет собой выборочный вектор в 2 000 000-мерном пространстве. Мне нужно очень эффективно вычислять косинусные...
2151 просмотров

Панды: применить функцию к каждой паре столбцов с ограничениями
Как следует из названия, я пытаюсь применить функцию к каждой паре столбцов фрейма данных при некоторых условиях. Я попытаюсь проиллюстрировать это. Мой df имеет форму: Code | 14 | 17 | 19 | ... w1 | 0 | 5 | 3 | ... w2 | 2...
884 просмотров
schedule 09.07.2023

R: вычислить косинусное расстояние между строками двух разреженных матриц.
У меня есть две разреженные матрицы A и B ( slam::simple_triplet_matrix ) с одинаковыми размерами MxN, где M = ~ 100K, N = ~ 150K. Я хочу рассчитать косинусное расстояние между каждой парой строк (то есть строкой 1 из матрицы A и строкой 1 из...
1890 просмотров
schedule 13.06.2022

Кластеризация Spark: как получить меру сходства элементов в одном кластере?
Я кластеризовал некоторые данные с помощью Spark и теперь хочу получить оценку сходства между конкретной интересующей меня записью и другими элементами в том же кластере, в котором находится моя запись. Существуют ли какие-либо алгоритмы или методы...
451 просмотров

Вычислить косинусное сходство между словами
Если у нас есть два списка строк: A = "Hello how are you? The weather is fine. I'd like to go for a walk.".split() B = "bank, weather, sun, moon, fun, hi".split(",") Слова в списке A составляют мою векторную основу слова. Как я могу...
2863 просмотров
schedule 09.05.2022

Альтернативы TF-IDF и Cosine Similarity (сравнение документов в разных форматах)
Я работал над небольшим личным проектом, который учитывает профессиональные навыки пользователя и предлагает им наиболее идеальную карьеру на основе этих навыков. Для этого я использую базу данных со списками вакансий. На данный момент код работает...
2376 просмотров
schedule 11.07.2022

Метрики подобия
Я пытаюсь исследовать различные показатели и нашел много показателей сходства: евклидово расстояние, динамическое искажение времени, расстояние редактирования с реальным штрафом DISSIM, модель взвешенного выравнивания последовательности, расстояние...
340 просмотров

Написать кастомное ядро ​​для svm в R
Я хочу использовать функцию svm() пакета e1071 в R. Я новичок в этом пакете, и мне было интересно, можно ли написать собственное пользовательское ядро, вызываемое в svm(). Я вижу, что есть несколько предустановленных ядер, но я не вижу ядра с...
537 просмотров
schedule 15.10.2022

Объяснение примера Spark word2vec и как получить сходство между строками
Я последовал примеру на странице документации Spark, чтобы использовать word2vec, link . Это сработало, но я не совсем понял, что он пытается вычислить. Являются ли выходные векторы представлением выходных строк? Если да, я попытался...
1030 просмотров

Алгоритмы для нахождения расстояния/сходства между пользовательскими тегами?
Я хочу найти семантику/сходство пользовательских тегов. Каждый пользователь может использовать максимум четыре тега. Например, Пользователь-1 ["Машинное обучение", "Фотография", "Наука о данных", "нейронная сеть"], Пользователь-2 ["Машинное...
40 просмотров