Вниз по кроличьей норе занимается наукой о данных, изучает магазины Walmart с помощью методов неконтролируемого обучения.

Скажите, пожалуйста, куда мне отсюда идти?”
“Это во многом зависит от того, куда вы хотите попасть”, – сказал Кот.

Погружение в данные — наша кроличья нора. Мы вступаем в мир, полный данных, со скудным руководством, надеясь найти какой-то смысл.

Моя собственная кроличья нора на этот раз состояла из 1494450 строк данных, скрывающих истории о магазинах Walmart. Мой вопрос: "Можно ли их сгруппировать по неизвестным шаблонам?".

Это суммирует четыре конкретных вопроса, которые я задаю в этом путешествии, и на все из них я отвечаю в своем рассказе — будьте осторожны!

Путь к пониманию с помощью науки о данныхметода, называемого обучение без учителя, лежит через темные долины сбора данных с приключениями убийства Нэн, охотой за средним значением и решением загадок преобразования, извилистая дорога с постоянно новыми проблемами, скрывающимися повсюду. Помощь присутствует, но часто сбивает с толку. Другими словами, этот метод является «неуправляемым» по своей природе.

«Откуда ты знаешь, что я злюсь?» — сказала Алиса.
«Должно быть, — сказал Кот, — иначе ты бы не пришла сюда».

  1. Можно ли использовать методы неконтролируемого обучения для кластеризации данных из набора данных Walmart в магазинах?
    - Ответ: Да, данные можно использовать с методами неконтролируемого обучения, но для этого требуется несколько вариантов выбора и очистка/изменение данных.

Хорошие числа вездесущи в науке о данных; в качестве фаворита я выбрал магическое число 7 как для уменьшения размерности pca, так и для количества кластеров на основе kmeans; два метода в наборе инструментов Data Science Toolbox. Что и почему? Я не буду здесь вдаваться в подробности, но оба они касаются поиска наилучшего значения (числа) для ответа на мои вопросы.

Мы всегда ищем «лучший выбор для этого приключения с данными», поскольку Златовласка настроена на поиск лучшего стула, миски и кровати именно для ее нужд.

В конце пути, после моего путешествия по Златовласке, я получил свои чаши, или кластеры, как мы называем здесь контейнеры (данных).

Кластеры четко представляют типы магазинов с высокими или низкими недельными продажами. Когда дело доходит до магазинов, размер тоже имеет значение. Цифры показывают корреляцию с уровнем безработицы и, хотя и слабо, с температурой.

Математика, которую я делаю для науки о данных, может показаться пугающей, но, как и все, чего мы боимся, они становятся менее злыми, когда мы подружимся с ними. Симпатичные маленькие графики ниже представляют две волшебные семерки; количество компонентов, составляющих в сумме 80% фактов, и точка на левой кривой, где она сглаживается (-иш), говорит мне, на сколько кластеров я должен сгруппировать свои данные.

  1. Могу ли я, используя выбранные методы, уменьшить сложность этого набора данных с приемлемыми результатами и создать четкие и разумные кластеры для набора данных, чтобы обеспечить основу для бизнес-анализа?
    – Ответ : Да, проект подтверждает, что с помощью этих методов можно уменьшить размеры и создать кластеры для бизнес-целей, а также их можно улучшить.

Можно сказать, что магазины Walmart создают свою собственную вселенную, где тип магазина и размер характеризуют их группы, а не мир вокруг них. Мы видим, что уровень безработицы повлияет на группы. Шаблоны есть, но они не преподносят больших сюрпризов, поэтому мы можем заключить, что «здесь нет скрытых и удивительно неизвестных шаблонов». Большие магазины в районах с низким уровнем безработицы и комфортной температурой зарабатывают деньги. При этом набор инструментов хорошо работает с этими данными, и есть больше информации, которую можно изучить, погрузившись еще глубже в кроличью нору.

  1. Дают ли мои кластеры ценную информацию о магазинах Walmart, группируя их совсем иначе, чем мы, используя только географическое положение и размер магазина?
     – Ответ: Не совсем уверен. Кластеры явно опираются на типы и размеры магазинов и их корреляцию с еженедельными продажами. Добавлено некоторое понимание, корреляция с уровнем безработицы и (слабо) с температурой, что вызывает у меня любопытство относительно связи с географическими различиями и соответствующей социально-демографической информацией о том, где расположены магазины.
  2. Можем ли мы определить переменные, оказывающие существенное влияние на магазины с выдающимися высокими или низкими недельными продажами?
     – Ответ. Да, из кластеров видно, что магазины с низкими недельными продажами являются Наименьшие магазины типа С в районах с высоким уровнем безработицы и магазины с высокими еженедельными продажами являются крупными магазинами типа А в районах с низким уровнем безработицы.

Сегодня никаких больших откровений, но это было отличное путешествие.

"А что толку в книге, — подумала Алиса, — без картинок и разговоров?"

Для всех кровавых подробностей, обсуждений — и больше цифр и картинок, пожалуйста; "здесь."

PS: может я и знаток кодинга, но нумерация списка меня все же затроллила.