Я работаю над проблемой большой размерности (~ 4k членов) и хотел бы получить верхнее k-подобное (по косинусному сходству) и не могу позволить себе выполнить попарные вычисления.
Мой обучающий набор представляет собой матрицу размером 6 миллионов x 4k, и я хотел бы сделать прогнозы для матрицы 600k x 4k.
Каков наиболее эффективный способ получить k-похожих элементов для каждого элемента в моей матрице 600k x 4k?
В идеале я хотел бы получить матрицу размером 600 тыс. X 10 (т. Е. 10 лучших похожих элементов для каждого из 600 тыс. Элементов).
ps: я исследовал веб-сайт SO и обнаружил, что почти все вопросы «косинусное сходство в R» относятся к cosine_sim(vector1, vector2
). Но этот вопрос относится к cosine_sim(matrix1, matrix2)
.
Обновить В следующем коде используется простой метод определения косинусного сходства между каждой строкой в тестовом наборе и каждой строкой в обучающем наборе.
set.seed(123)
train<-matrix(round(runif(30),0),nrow=6,ncol=5)
set.seed(987)
test<-matrix(round(runif(20),0),nrow=4,ncol=5)
train
[1,] 0 1 1 0 1
[2,] 1 1 1 1 1
[3,] 0 1 0 1 1
[4,] 1 0 1 1 1
[5,] 1 1 0 1 0
[6,] 0 0 0 1 0
test
[1,] 0 1 1 0 0
[2,] 1 0 1 0 1
[3,] 1 0 0 0 0
[4,] 1 0 0 1 1
coSim<-function(mat1, mat2, topK){
require(plyr)
#mat2: is the testset
#mat1: is the training set. We will find cosine similarity between each row in testset and every row in trainingset.
#topK: user-input. for each row in testset we will return 'topk' similar rows(index) from the testset
#set up an empty result matrix. nrow(result) will be the same as the cartesian product between mat1 & mat2.
result<-matrix(rep(NA, nrow(mat1)*nrow(mat2)), nrow=nrow(mat1)*nrow(mat2), ncol=3)
k=1
for(i in 1:nrow(mat2)){
for(j in 1:nrow(mat1)){
result[k,1]<-i
result[k,2]<-j
result[k,3]<-crossprod(mat1[j,], mat2[i,])/sqrt(crossprod(mat1[j,]) * crossprod(mat2[i,]))
k<-k+1
}
}
#sort the result matrix by cosine similarity found for each row in testset. not sure how to keep topK from each group so convert to df
result<-as.data.frame(result)
colnames(result)<-c("testRowId", "trainRowId","CosineSimilarity")
result<-ddply(result, "testRowId", function(x) head(x[order(x$CosineSimilarity, decreasing = TRUE) , ], topK))
resultMat<-matrix(result$trainRowId, nrow=nrow(mat2), ncol=topK,byrow=T)
finalResult<-list(similarity=result, index=resultMat)
}
system.time(cosineSim<-coSim(train, test, topK=2)) #0.12 secs
cosineSim
$similarity
testRowId trainRowId CosineSimilarity
1 1 1 0.8164966
2 1 2 0.6324555
3 2 4 0.8660254
4 2 2 0.7745967
5 3 5 0.5773503
6 3 4 0.5000000
7 4 4 0.8660254
8 4 2 0.7745967
$index
[,1] [,2]
[1,] 1 2
[2,] 4 2
[3,] 5 4
[4,] 4 2
set.seed(123)
train<-matrix(round(runif(1000000),0),nrow=5000,ncol=200)
set.seed(987)
test<-matrix(round(runif(400000),0),nrow=2000,ncol=200)
system.time(cosineSim<-coSim(train, test, topK=50)) #380secs
Когда я запускаю ту же функцию с матрицей 5000x200 для обучения и матрицей 2000x200 для тестирования, это заняло более 380 секунд.
В идеале я хотел бы увидеть некоторые идеи, в которых мне не нужно вычислять сходство между каждой строкой. Если это невозможно, вам будут полезны некоторые советы о том, как векторизовать приведенный выше код.