Публикации по теме 'cosine-similarity'
Косинусное сходство в Java
В программной инженерии есть интересная тема в измерении программного обеспечения, связанная со сходством документов. Как выполнить и вычислить сходство документов, используя метод поиска информации, такой как косинусное сходство в модели векторного пространства.
Чтобы продемонстрировать практический аспект вычисления и реализации сходства косинусов, я решил реализовать эту функцию с помощью языка программирования Java. Это было немного сложно, но это был интересный опыт.
По сути, в..
Разработка приложений рекомендательной системы
С косинусным сходством, установлением пороговых значений рейтинга и другими настраиваемыми методами
В этой статье мы будем разрабатывать систему рекомендаций (RS) с использованием косинусного сходства (CS) вместе с другими настраиваемыми формулами с языком программирования Python. Это приложение будет частью проекта, над которым я работал во время своей магистерской диссертации.
Есть много способов построить RS. Здесь мы разработаем методы, в частности, для решения проблемы холодного..
Вопросы по теме 'cosine-similarity'
Вернуть документ, наиболее похожий на документ запроса, с помощью подобия Cosine в python
У меня есть набор файлов и документ с запросом. Моя цель - вернуть наиболее похожие документы путем сравнения с документом запроса для каждого документа. Чтобы использовать косинусное сходство, мне нужно сопоставить строки документа с векторами. Также...
1159 просмотров
schedule
17.08.2023
Как эффективно вычислить сходство между документами в потоке документов
Я собираю текстовые документы (в Node.js), где один документ i представлен в виде списка слов. Каков эффективный способ вычисления сходства между этими документами, принимая во внимание, что новые документы поступают как своего рода поток...
1312 просмотров
schedule
11.07.2022
Косинусное подобие - один ко многим
Мне интересно, есть ли хороший способ использовать косинусное сходство для сравнения одного документа с набором документов. Очевидно, вы могли бы рассчитать косинусное сходство между отдельным документом и каждым документом в наборе, но если бы вы...
429 просмотров
schedule
15.04.2022
Как эффективно получить верхние K-подобные векторы по косинусному сходству с помощью R?
Я работаю над проблемой большой размерности (~ 4k членов) и хотел бы получить верхнее k-подобное (по косинусному сходству) и не могу позволить себе выполнить попарные вычисления.
Мой обучающий набор представляет собой матрицу размером 6 миллионов x...
3194 просмотров
schedule
18.02.2023
K-средние с косинусным расстоянием
Мне нужно написать программу для этого кластера, используя k-средства. У меня есть TF-IDF, а также косинусное сходство, которое выглядит так
1.00 0.17 0.46 0.40 0.89
0.17 1.00 0.83 0.60 0.58
0.46 0.83 1.00 0.30...
3139 просмотров
schedule
18.06.2022
Оценка Elasticsearch
Я использую elasticsearch, чтобы найти документы, похожие на данный документ, с помощью запроса «больше похоже на этот».
Есть ли простой способ получить оценку elasticsearch от 0 до 1 (используя косинусное сходство)?
Спасибо!
1843 просмотров
schedule
19.08.2022
Прогнозируйте интересные статьи с помощью scikit-learn
Я пытаюсь построить алгоритм, способный предсказать, понравится ли мне статья, основываясь на предыдущих статьях, которые мне понравились.
Пример:
Я прочитал 50 статей, мне понравилось 10. Я говорю своей программе, что они мне понравились....
897 просмотров
schedule
19.03.2023
Получение k похожих строк в матрице для каждой строки через косинусное сходство в R
Как эффективно получить лучшие K-подобные векторы по косинусному сходству с использованием R? спрашивает, как вычислить лучшие похожие векторы для каждого вектора одна матрица относительно другой матрицы. Это удовлетворительный ответ , и я хотел...
819 просмотров
schedule
18.06.2022
DeepLearning4J - ParagraphVectors: почему сходство отрицательное?
Я использую инструмент ParagraphVector в рамках DeepLearning4j. Я тренирую модель на наборе текстовых документов, а затем вычисляю сходство между этими документами.
Теперь, как сказано на справочной странице ( http://deeplearning4j.org/word2vec ),...
376 просмотров
schedule
22.06.2022
Косинусное сходство с использованием TFIDF
Есть несколько вопросов по SO и в сети, описывающих, как взять cosine similarity между двумя строками и даже между двумя строками с TFIDF в качестве весов. Но вывод такой функции, как linear_kernel из scikit меня немного смущает.
Рассмотрим...
3761 просмотров
schedule
22.01.2023
Как получить сжатую форму попарных расстояний напрямую?
У меня очень большая scipy разреженная матрица csr. Это размерная матрица 100 000x2 000 000. Назовем его X . Каждая строка представляет собой выборочный вектор в 2 000 000-мерном пространстве.
Мне нужно очень эффективно вычислять косинусные...
2151 просмотров
schedule
22.05.2023
Панды: применить функцию к каждой паре столбцов с ограничениями
Как следует из названия, я пытаюсь применить функцию к каждой паре столбцов фрейма данных при некоторых условиях. Я попытаюсь проиллюстрировать это. Мой df имеет форму:
Code | 14 | 17 | 19 | ...
w1 | 0 | 5 | 3 | ...
w2 | 2...
884 просмотров
schedule
09.07.2023
R: вычислить косинусное расстояние между строками двух разреженных матриц.
У меня есть две разреженные матрицы A и B ( slam::simple_triplet_matrix ) с одинаковыми размерами MxN, где M = ~ 100K, N = ~ 150K.
Я хочу рассчитать косинусное расстояние между каждой парой строк (то есть строкой 1 из матрицы A и строкой 1 из...
1890 просмотров
schedule
13.06.2022
Кластеризация Spark: как получить меру сходства элементов в одном кластере?
Я кластеризовал некоторые данные с помощью Spark и теперь хочу получить оценку сходства между конкретной интересующей меня записью и другими элементами в том же кластере, в котором находится моя запись. Существуют ли какие-либо алгоритмы или методы...
451 просмотров
schedule
28.08.2022
Вычислить косинусное сходство между словами
Если у нас есть два списка строк:
A = "Hello how are you? The weather is fine. I'd like to go for a walk.".split()
B = "bank, weather, sun, moon, fun, hi".split(",")
Слова в списке A составляют мою векторную основу слова. Как я могу...
2863 просмотров
schedule
09.05.2022
Альтернативы TF-IDF и Cosine Similarity (сравнение документов в разных форматах)
Я работал над небольшим личным проектом, который учитывает профессиональные навыки пользователя и предлагает им наиболее идеальную карьеру на основе этих навыков. Для этого я использую базу данных со списками вакансий. На данный момент код работает...
2376 просмотров
schedule
11.07.2022
Метрики подобия
Я пытаюсь исследовать различные показатели и нашел много показателей сходства: евклидово расстояние, динамическое искажение времени, расстояние редактирования с реальным штрафом DISSIM, модель взвешенного выравнивания последовательности, расстояние...
340 просмотров
schedule
28.11.2022
Написать кастомное ядро для svm в R
Я хочу использовать функцию svm() пакета e1071 в R. Я новичок в этом пакете, и мне было интересно, можно ли написать собственное пользовательское ядро, вызываемое в svm(). Я вижу, что есть несколько предустановленных ядер, но я не вижу ядра с...
537 просмотров
schedule
15.10.2022
Объяснение примера Spark word2vec и как получить сходство между строками
Я последовал примеру на странице документации Spark, чтобы использовать word2vec, link . Это сработало, но я не совсем понял, что он пытается вычислить.
Являются ли выходные векторы представлением выходных строк?
Если да, я попытался...
1030 просмотров
schedule
09.07.2022
Алгоритмы для нахождения расстояния/сходства между пользовательскими тегами?
Я хочу найти семантику/сходство пользовательских тегов.
Каждый пользователь может использовать максимум четыре тега. Например, Пользователь-1 ["Машинное обучение", "Фотография", "Наука о данных", "нейронная сеть"], Пользователь-2 ["Машинное...
40 просмотров
schedule
12.07.2023