Публикации по теме 'cluster-analysis'


Что такое кластеризация?
Кластеризация — это процесс группировки похожих элементов данных вместе, так что те, которые более похожи друг на друга в зависимости от некоторых критериев подобия, группируются в один и тот же кластер. Кластерный анализ широко используется во многих приложениях, таких как кластерный анализ, например, исследование рынка, распознавание образов, данные социальных сетей для поиска группы похожих пользователей, данные электронной медицинской карты (EHR) для поиска похожих пациентов...

Нестабильность кластеризации
Выбор количества кластеров Кластеризация — это метод обучения без учителя, используемый для создания кластеров точек данных. Примером может служить сегментация клиентов в маркетинге. Доступно несколько алгоритмов кластеризации. Однако они требуют, чтобы в качестве входных данных было задано количество кластеров (k). Выбор количества кластеров может быть затруднен, так как это неконтролируемая проблема без меток. Нестабильность кластеризации можно измерить, чтобы определить..

Учебник по анализу главных компонентов
Учебник по анализу главных компонентов Когда представлен большой набор данных, может быть трудно точно определить, какие функции являются значимыми. Анализ основных компонентов уменьшает количество переменных в наборе данных и извлекает «значимые» компоненты для анализа. Управление наборами данных В статистическом анализе наборы данных часто содержат большие объемы информации с несколькими переменными. Огромный объем этих данных достаточно сложен для управления на человеческом..

Вопросы по теме 'cluster-analysis'

есть ли способ получить поддерево из hclust? (Р)
Я хочу создать «поддерево» из объекта hclust. Например, допустим, у меня есть следующий объект: a <- list() # initialize empty object a$merge <- matrix(c(-1, -2, -3, -4, 1, 2,...
2555 просмотров
schedule 07.05.2022

Группировка похожих новостей вместе, как в GOOGLE NEWS.
Я не могу легко управлять RSS-каналами из-за огромного количества новых статей/подобного содержания новостей, размещенных на различных новостных сайтах. Для таких тем, как мировые новости и деловые новости, многие истории являются излишними, что...
2218 просмотров
schedule 22.05.2023

Алгоритм кластеризации данных
Какой самый популярный алгоритм кластеризации текста, который работает с большими размерами и огромным набором данных и является быстрым? Я запутался, прочитав так много статей и так много подходов. Теперь просто хочу знать, какой из них используется...
626 просмотров

Как сгруппировать «близкие» друг к другу точки широты и долготы?
У меня есть база данных точек широты / долготы, отправленных пользователями, и я пытаюсь сгруппировать «близкие» точки вместе. «Близость» относительно, но пока кажется, что она составляет ~ 500 футов. Сначала казалось, что я могу просто...
28577 просмотров

группировка/сравнение похожих новостей, собранных из разных источников
группировка/сравнение похожих новостей, собранных из разных источников с помощью RSS-каналов. Есть ли для этого какой-либо API/код. Пожалуйста помоги. С уважением, Гурав.
149 просмотров
schedule 28.03.2022

Запись кластеризации на основе места и времени в SQL
Я хотел бы знать, написал ли кто-нибудь из вас, ребята, запрос для кластеризации записей на основе перекрывающихся временных интервалов И местоположений. Данные в моем приложении представлены как отдельные события человека, находящегося в любом...
562 просмотров

Использование Weka в командной строке для создания arff-файла назначения кластера
В проводнике в weka вы можете выполнить кластеризацию данных, а затем использовать визуализацию, чтобы сохранить новый файл arff с назначениями кластера в качестве атрибутов. Есть ли способ сделать это автоматически, вызвав исполняемые файлы в...
1143 просмотров
schedule 28.02.2023

отзыв и точность в Rapidminer
есть набор данных в excel, содержащий некоторые метки в столбце A (я называю это меткой кластера) и некоторые атрибуты в столбце B (я называю их компонентом кластера). Эти данные показывают лучший результат кластеризации. Но я не знаю, как...
3515 просмотров

Кластерный анализ с использованием pvclust в R
Я хочу провести кластерный анализ определенных столбцов (переменных), скажем, var 5-var10. Для этого я использовал pvclust в R. Теперь я хочу добавить этот столбец кластеров в фактический фрейм данных. Может ли кто-нибудь помочь мне решить эту...
1779 просмотров
schedule 27.10.2022

Кластеризация с использованием алгоритма скрытого распределения Дирихле в gensim
Можно ли выполнить кластеризацию в gensim для заданного набора входных данных с использованием LDA? Как я могу это сделать?
13494 просмотров

выделение кластеров или поддеревьев в graphViz
Я хочу выделить различные поддеревья в данном дереве, используя разные цвета. например рассмотрим бинарное дерево ниже (я мог бы показать ребра между родителем и его дочерними элементами) 0 00...
821 просмотров

как классифицировать, но не использовать алгоритмы классификации или кластеризации?
У меня есть программа-краулер, которая ежедневно хранит спортивные данные от 7 информационных агентств. Ежедневно здесь хранится около 1200 спортивных новостей. Я хочу разделить новости за последние два дня на подкатегории. Итак, каждые два дня у...
1261 просмотров

Кластерное кодирование Matlab - график рассеяния графика
У меня есть набор данных о ежедневном годовом потреблении энергии за один год. Я хотел бы показать точечную диаграмму этого набора данных, разделенного на четыре кластера, которые, как я ожидаю, существуют (из-за различий в четырех сезонах). Я...
8271 просмотров
schedule 21.11.2022

Следует ли использовать расстояния (различия) или сходства в R для кластеризации?
Я решаю проблему с кластером, а пакет proxy в R предоставляет функции dist и simil. Для моей цели мне нужна матрица расстояний, поэтому я изначально использовал dist, и вот код: distanceMatrix <- dist(dfm[,-1], method='Pearson') clusters...
6105 просмотров
schedule 29.05.2023

Нечеткий c- означает категориальные данные
Может ли нечеткие c-средства применяться к нечисловым наборы данных? то есть категориальный или смешанный числовой и категоричный .. если да (я надеюсь на это :(): как мы рассчитываем центры кластеров? Если НЕТ, то какая альтернатива .....
1376 просмотров

Кластеризация одной ссылки
Я ищу способ кластеризации одной ссылки с помощью OpenCV. Мой сценарий: Сотни (потенциально тысячи) векторов признаков (размерность векторов может достигать ~800 признаков). Неизвестное количество кластеров (вероятно, намного меньше, чем...
2263 просмотров
schedule 07.08.2022

Тепловые карты в R с использованием функции ggplot - как кластеризовать строки?
В настоящее время я создаю тепловые карты в R с помощью функции ggplot. В приведенном ниже коде я сначала считываю данные в фрейм данных, удаляю все повторяющиеся строки, факторизую поле временной метки, расплавляю фрейм данных (в соответствии с...
3124 просмотров

Можно ли увидеть текущий номер итерации в cvKmeans2 OpenCV?
Я пытаюсь сгруппировать действительно большой набор данных - 3030764x162 в 4000 кластеров, используя функцию cvKmeans2 в OpenCV 2.1. Я хотел бы увидеть, в какой итерации сейчас находится алгоритм K-средних (аналогично тому, что отображается в...
170 просмотров

Как работает кластеризация (особенно кластеризация строк)?
Я слышал о кластеризации для группировки похожих данных. Я хочу знать, как это работает в конкретном случае для String. У меня есть таблица с более чем 100 000 слов. Я хочу идентифицировать одно и то же слово с некоторыми отличиями (например:...
27400 просмотров
schedule 18.01.2023

Как бы вы сгруппировали/кластеризовали эти три области в массивы в python?
Итак, у вас есть массив 1 2 3 60 70 80 100 220 230 250 Для лучшего понимания: Как бы вы сгруппировали/кластеризировали три области в массивах в python (v2.6), чтобы в этом случае вы получили три массива, содержащие [1 2 3]...
11013 просмотров