Публикации по теме 'clustering'


Учебник по анализу главных компонентов
Учебник по анализу главных компонентов Когда представлен большой набор данных, может быть трудно точно определить, какие функции являются значимыми. Анализ основных компонентов уменьшает количество переменных в наборе данных и извлекает «значимые» компоненты для анализа. Управление наборами данных В статистическом анализе наборы данных часто содержат большие объемы информации с несколькими переменными. Огромный объем этих данных достаточно сложен для управления на человеческом..

Обнаружение Папы с помощью машинного обучения и данных TLC
Недавно я совершил поездку в Боготу, Колумбия, чтобы принять участие в программе Bloomberg Data For Good Exchange Immersion - Ксавье Гонсалес , и меня отправили туда, чтобы помочь Veeduría Distrital (Управление по борьбе с коррупцией и надзором) Боготы в построении Панель данных , позволяющая руководству города лучше понимать и рассматривать жалобы граждан. Программа была невероятным опытом, но что было также невероятным, так это то, что Папа Франциск благословил нас (и панель..

Кластеризация поддельной и подлинной валюты с использованием KMeans
KMeans - это метод машинного обучения, который используется для кластеризации данных. Но в чем разница между другими алгоритмами машинного обучения и K-средами? Что ж, KMeans - это тип машинного обучения, известный как неконтролируемое машинное обучение. Это означает, что мы не помечаем какие-либо данные для обучения алгоритму. Сам алгоритм должен найти группировку данных при условии, что мы предоставим необходимое нам количество групп. Эти группы технически называются кластерами в..

Сегментация изображений: часть 2
Глубокое погружение в различные методы сегментации изображений Что такое сегментация изображений? Сегментация изображения - это метод, при котором компьютеризированное изображение разделяется на различные подгруппы, называемые сегментами, которые помогают уменьшить сложность изображения, чтобы облегчить дальнейшую обработку или исследование изображения. Простыми словами, сегментация - это присвоение имен пикселям. Всем компонентам изображения или пикселям, имеющим место с..

Как сгруппировать похожие предложения с помощью TF-IDF и разбиения графа в Python
Какие статьи по науке о данных привлекают больше внимания читателей (часть 2) В этой серии статей мы анализируем исторические архивы публикаций по науке о данных, чтобы понять, какие темы более популярны у читателей. Ранее мы рассмотрели как получить данные , которые будут использоваться для дальнейшего анализа. В этой статье мы рассмотрим, как очистить текстовые данные, которые мы собрали ранее, сгруппировать похожие темы с помощью сетевых графиков и установить закономерности в..

Все, что вам нужно знать о классификаторе случайного леса (числовые данные).
Случайный лес — это метод машинного обучения на основе дерева, который также используется для классификации, регрессии и кластеризации. Он использует коллекцию деревьев, где каждое дерево голосует за результат. В случае классификации лесу присваивается класс, по которому проголосовало максимальное количество деревьев. В случае регрессии выход представляет собой среднее значение результатов всех деревьев. Предположим, что имеется двадцать различных возможных переменных-предикторов. Если..

Улучшение совместной фильтрации с помощью кластеризации
Одной из основных проблем при применении методов коллаборативной фильтрации является временная сложность формирования одноранговых групп. Обычно вы вычисляете попарное сходство для каждого пользователя в системе, основанной на пользователях, и используете k ближайших соседей, чтобы найти k самых похожих пользователей. Если у нас есть m элементов, этот процесс будет O (m ^ 2) соответственно. Это не годится, когда m порядка десятков миллионов; это было бы слишком дорого. Альтернативный..