Публикации по теме 'clustering'


Определение сходства игроков НБА с помощью кластерного анализа
В двух предыдущих статьях я использовал анализ основных компонентов и кластеризацию смешанной модели Гаусса, чтобы создать новый способ классификации различных игроков НБА. Те же данные из этих статей можно использовать для оценки сходства игроков с помощью иерархической агломеративной кластеризации (HAC) . Иерархический кластерный анализ относится к методу построения иерархии кластеров. Иерархическая кластеризация может быть либо «снизу вверх», когда вы начинаете с одного..

Кластерный анализ с набором данных Iris
Кластеризация с R Эта статья посвящена практическому кластерному анализу (неконтролируемому машинному обучению) в R с использованием популярного набора данных Iris. Давайте освежим некоторые понятия из Википедии Машинное обучение - это исследование компьютерных алгоритмов, которые автоматически улучшаются по мере накопления опыта. Он рассматривается как подмножество искусственного интеллекта . Алгоритмы машинного обучения создают математическую модель на основе..

Кластеризация - используйте возможности KMeans и GMM с помощью sklearn
Материал, на который направлена ​​эта статья KMeans Силуэт Оценка Маркетинговая сегментация GMM против KMeans Вступление Что такое кластеризация? Кластеризация - это категория моделей машинного обучения без учителя. Что же тогда такое обучение без учителя? Обучение без учителя - это класс алгоритмов, которые принимают набор данных из немаркированных примеров и для каждого вектора признаков x в качестве входных данных либо преобразуют его в другой вектор, либо в..

Введение в методы кластеризации
Ваш путь к неконтролируемому машинному обучению Когда мы слышим об аналитиках данных или людях, работающих в сфере бизнес-аналитики, возникает завуалированное чувство благоговения перед сложностью этих профессий. Однако реальность, лежащая в основе этих ролей, твердо основана на основной истине любого реального конвейера анализа данных, т.е. Данные обычно начинаются как неструктурированная, некоррелированная гора мешанины. Основная директива любого аналитика данных - сначала..

Демистификация моделей гауссовой смеси и максимизация ожиданий
Объяснение моделей гауссовой смеси и лежащего в ее основе алгоритма максимизации ожидания в упрощенном виде После того, как вы научитесь кластеризовать выборки немаркированных точек данных с помощью простейшего алгоритма кластеризации k-средних , мы начинаем видеть несколько недостатков k-средних при применении этого метода к реальному набору данных. Следующим шагом инженера машинного обучения будет применение более сложных алгоритмов для понимания различных группировок (кластеров)..

The London NYC: Сравнение районов Лондона и Нью-Йорка
Введение Лондон и Нью-Йорк. Большой дым и большое яблоко. Два самых больших и оживленных города мира. Это самые влиятельные мегаполисы англосферы и мира. Лондон и Нью-Йорк также известны как города-побратимы, поэтому эти два города похожи тем, что оба являются густонаселенными космополитическими мегаполисами, но у них также есть свои различия. Предположим, нас попросили найти лучший город для открытия нового филиала кофейни или кафе. Мы провели эксперимент, в котором мы сравнили..

Какие страны реагируют на COVID-19 аналогично? Машинное обучение дает ответ
Проверьте, как ваша страна [или штат США] работает по сравнению с аналогами. И посмотрите, как работает кластерный анализ - с помощью проекции UMAP и HDBSCAN. [Обновление 2020 г., 19 апреля: добавлен репозиторий GitHub, см. конец статьи] Я часто задавался вопросом, как сравниваются разные страны в отношении статистики случаев коронавируса. Слишком часто учитывались только абсолютные числа. Как следствие, более мелкие страны (например, Швейцария, Бельгия) упускаются из виду. В этой..