Наука о данных

Анализ данных за 10 простых шагов

Ключевые шаги в процессе превращения данных в идеи

Анализ данных — это процесс сбора, преобразования, очистки и организации данных для обнаружения новой информации, получения выводов, прогнозирования и поддержки принятия решений.

Аналитика данных имеет различные подходы и используется в разных сферах бизнеса, науки и промышленности. В современном мире, управляемом данными, они играют огромную роль в принятии обоснованных решений.

Тем не менее, вы хотите начать проект анализа данных, но не знаете, как это сделать? Или вы работаете аналитиком данных в компании?

Что ж, тогда эта статья для вас!

Вот версия TLDR этой статьи

10 шагов анализа данных

1. Define the question
2. Define the ideal data set
3. Obtain data
4. Clean the data
5. Exploratory Data Analysis
6. Statistical Prediction/modeling
7. Interpret results
8. Challenge results
9. Communicate results
10. Build a Data Product

Хотите подробности? Читайте дальше 👇

Подпишитесь на нашу новостную рассылку по ИИ — Deep Grit.

Хотите прочитать его первым? Смотри наш свежий выпуск!

1. Определите вопрос

Часто в работе по анализу данных ваши результаты основаны на требованиях клиентов и заинтересованных сторон, поэтому очень важно хорошо понимать имеющиеся данные.

Для этого вам нужно начать задавать правильные вопросы еще до того, как вы начнете какой-либо анализ.

Определение вопроса поможет уменьшить шум в вашем наборе данных и поможет вам сосредоточиться на правильных характеристиках данных.

В результате такое сужение вашего наблюдения полезно для упрощения вашей проблемы.

Определение вопроса – это самый мощный инструмент для уменьшения размеров, который вы можете использовать.

Пример

Допустим, вы хотите использовать маркетинговые данные для прогнозирования продаж на следующий месяц. Вы должны задавать такие вопросы, как «Какие данные у вас есть?», «Как мне выбрать данные, чтобы убедиться, что они репрезентативны?», «Как мне вменить отсутствующие переменные в данных», «Какая лучшая модель использовать для прогнозирования продаж по имеющимся у нас данным?»

Не задавая правильных вопросов, будет опасно и даже бессмысленно произвольно применять методы машинного обучения к данным. Это приведет к вводящим в заблуждение выводам и результатам, и вы рискуете потерять доверие как аналитик данных.

2. Определите идеальный набор данных

Существует шесть различных типов анализа данных, поэтому вам нужно найти данные, которые помогут достичь этого для каждого из них.

Вот краткое описание того, какими должны быть ваши данные для конкретного типа анализа данных.

  • Descriptive — Все население
  • Exploratory — Случайный выбор со многими переменными
  • Inferential — правильная совокупность, выбранная случайным образом (важен механизм выборки)
  • Predictive — набор обучающих и тестовых данных из одной и той же популяции.
  • Causal — Данные рандомизированного исследования (экспериментальные данные)
  • Mechanistic — Данные со всех компонентов системы

Как только вы определите, какие данные вам нужны, вы также должны задаться вопросом, доступны ли эти данные.

Пример

Если вы хотите проанализировать всемирную статистику COVID-19, вам нужны данные о случаях заболевания со всего мира (описательные). Или, если вы хотите определить, что дизайн сайта A или дизайн B более эффективен, это будет логический анализ, и данные будут выбраны случайным образом.

3. Получение данных

Есть тонны онлайн-источников, таких как Kaggle и поиск наборов данных Google, чтобы найти нужные вам наборы данных. Эти платформы предоставляют вам на выбор множество бесплатных наборов данных, и в большинстве случаев их достаточно.

В некоторых случаях нужные вам данные могут не существовать, и вам придется самостоятельно придумывать, как их получить. Один из распространенных способов — очистить Интернет с помощью Python, используя такие библиотеки, как Scrapy или Beautiful Soup, или инструменты без кода, такие как Octaparse.

Это отличный подход, но также убедитесь, что вы следуете рекомендациям и не нарушаете никаких правил.

Хотите научиться веб-скрапингу? Прочтите Скрапинг более 100 бесплатных книг по науке о данных с помощью Python для получения руководства по парсингу веб-сайтов.

4. Очистка данных

После обработки и организации данных они могут содержать отсутствующие значения, дубликаты или ошибки.

Чтобы противостоять этому, пришло время сделать то, чего боится каждый специалист по данным — очистка данных —задача, которая считается одной из самых трудоемких. -потребляющие задачи специалиста по данным.

Общие задачи по очистке данных включают дедупликацию, вменение отсутствующих значений, сопоставление записей и т. д. и определяются с помощью аналитических методов с использованием таких инструментов, как Pandas или Excel.

Методы обнаружения выбросов могут работать с количественными данными, такими как цена и количество продаж, которые с большой вероятностью могут быть введены неправильно.

Для текстовых данных вы также можете использовать методы нечеткого сопоставления, чтобы объединить похожие категории в одну. Пример: Нью-Йорк, штат Нью-Йорк, Нью-Йорк → Нью-Йорк.

👉 Изучите очистку данных с помощью Python за 10 минут

5. Исследовательский анализ данных (EDA)

После того, как набор данных очищен, его можно проанализировать — процесс, известный как EDA.

EDA необходим аналитикам данных для понимания скрытой информации, содержащейся в данных.

Процесс EDA обычно начинается с визуализации описательной статистики данных, которая обобщает характеристики набора данных. Различают три основных типа: распределение, центральная тенденция и изменчивость.

Важно отметить, что графики EDA не должны выглядеть красиво или красочно; они предназначены только для того, чтобы вы могли понять данные, а не для целей презентации.

EDA также включает в себя определение любых взаимосвязей между предикторами в данных, что полезно для последующего построения модели.

На протяжении всего этого процесса вам может потребоваться выполнить дополнительную очистку данных после обнаружения большего количества ошибок в данных или даже собрать больше данных, чтобы лучше ответить на ваш вопрос.

6. Статистическое прогнозирование/моделирование

Аналитики данных большую часть времени не будут углубляться в машинное обучение, но сегодня существует множество инструментов, которые позволяют им создавать простые модели машинного обучения за считанные секунды.

По результатам EDA и интересующему вопросу следует определить, какие признаки следует и не следует использовать для моделирования.

Например, если вы хотели предсказать рост и обнаружили, что вес имеет высокую корреляцию с целевой переменной — ростом — вы должны использовать вес, чтобы сделать более точный прогноз.

Точный метод, который вы используете, например тип алгоритма машинного обучения, также должен зависеть от вашей цели. Хотите прогнозировать отток клиентов? Ваша модель должна быть моделью классификации. Или, если вы хотите предсказать цены на жилье в Нью-Йорке, это проблема регрессии.

Любое преобразование или обработка, которые вы выполняете, также должны учитываться в вашей модели, и вы должны подумать о том, как это повлияет на предсказание модели и как вы должны интерпретировать результаты.

7. Интерпретация результатов

Из процесса EDA и прогнозирования вы должны интерпретировать свои результаты, используя соответствующие формулировки, такие как «X коррелирует с Y», «определенные переменные могут быть связаны с целевой переменной», «Полученное значение R² говорит нам, что…», « Эта модель имела показатель точности …» и т. д.

Если вы занимаетесь логической статистикой, крайне важно интерпретировать все коэффициенты в вашем анализе и соотносить их конкретно с проблемой, которую вы решаете. Примеры коэффициентов включают значения p, R², доверительные интервалы.

Если вы используете модели машинного обучения, вместо того, чтобы оставлять их в виде черных ящиков, которые выдают прогнозы, вы можете использовать методы, чтобы объяснить почему, стоящее за обоснованием их прогнозов. Это называется интерпретируемое машинное обучение.

8. Оспаривание результатов

Как только вы получите результаты, хороший ученый оспорит все этапы анализа.

Прежде чем доводить свои выводы до заинтересованных сторон, вы должны убедиться, что ваши действия и выбор являются научными и беспристрастными.

Вопросы, которые вы можете себе задать, включают:

  • Является ли этот метод современным в отрасли, или есть лучшие способы решить эту проблему?
  • Существуют ли другие модели или методы, которые я могу использовать для анализа этих данных?
  • Использовал ли я данные наилучшим образом? Есть ли еще какие-либо данные, которые я могу собрать, чтобы дать более убедительный ответ?
  • и многое другое…

9. Сообщите о результатах

Как только все это будет сделано, пришло время поделиться тяжелой работой, которую вы проделали!

Вы можете использовать различные форматы для отчета о своих результатах, например, использовать Tableau для создания диаграмм и графиков и создания слайдов для представления вашего анализа.

Ниже приведен хороший шаблон:

  1. Начните с вашего вопроса и формулировки проблемы
  2. Обобщите свой анализ в виде истории.
  3. Включите единственный существенный анализ, который повышает ценность вашей истории и решает проблему.
  4. Добавьте «красивых» фигурок, которые вносят свой вклад в историю.
  5. Завершите кратким изложением важных результатов и любых дополнительных методов, которые можно изучить, чтобы лучше ответить на вопрос.

В общем, вы должны давать четкие объяснения своим действиям, объясняя, почему вы сделали то, что сделали, наряду с неопределенностями и предположениями в своем анализе.

10. Продукт данных

Большую часть времени, если вы работаете в компании, ваша аналитическая работа будет служить инструментом для повышения производительности и эффективности других сотрудников.

Например, вы проанализировали показатели социальных сетей и маркетинговые данные и сообщили все свои результаты в презентации. Руководителю отдела маркетинга понравилась ваша работа, и вам поручили создать информационную панель для маркетинговой команды, чтобы узнать, какие публикации в социальных сетях привлекают больше внимания, кто их лучшие клиенты и так далее.

Или, если вы любите анализировать данные для развлечения, вы можете превратить свою аналитическую работу в продукт данных, используя Streamlit, инструмент Python, который позволяет превратить ваш анализ в интерактивное веб-приложение!

Например, созданное мной приложение Проверьте это приложение Streamlit превращает мой анализ подключений LinkedIn в продукт данных, который может использовать каждый!

Это все для этой статьи, дайте мне знать, что вы думаете об этом, и если вы считаете, что в нем отсутствуют какие-либо шаги!

Вот несколько ресурсов для тех, кто хочет узнать больше об анализе данных!

Спасибо за прочтение!

Понравилась эта статья? Вот несколько статей, которые могут вам понравиться:

Если вам нравятся эти статьи, обязательно подпишитесь на публикацию Bitgrit Data Science Publication, чтобы узнать больше!

Хотите обсудить последние разработки в области науки о данных и искусственного интеллекта с другими учеными? Присоединяйтесь к нашему серверу Discord!

Подписывайтесь на социальные сети Bitgrit 📱, чтобы быть в курсе семинаров и предстоящих конкурсов!