Кластеризация Spark: как получить меру сходства элементов в одном кластере?

Я кластеризовал некоторые данные с помощью Spark и теперь хочу получить оценку сходства между конкретной интересующей меня записью и другими элементами в том же кластере, в котором находится моя запись. Существуют ли какие-либо алгоритмы или методы Spark для этого?

Я читал о функции ColumnSimilarities() для RowMatrix, но меня не интересует сходство «все против всех», а только очень конкретное по сравнению с набором других векторов.


person Mnemosyne    schedule 26.09.2016    source источник


Ответы (1)


Вроде в Spark такого встроенного функционала нет. Вы можете использовать ColumnSimilarities(), и тогда результаты в индексах i и j будут соответствовать элементам i и j.

Тем не менее, это явно неэффективно, и, честно говоря, это не очень хорошо.

Итак, если бы я был вами, я бы посмотрел реализацию ColumnSimilarities() и отрегулировал ее для сходства пар элементов; если это хорошо, вы также можете внести свой вклад в проект Apache Spark! ;)

person gsamaras    schedule 26.09.2016