Пример с набором данных НАСА

Исследовательский анализ данных (EDA), на мой взгляд, является наиболее важной частью моделирования машинного обучения в новых наборах данных. Если EDA не выполняется правильно, это может привести к тому, что мы начнем моделирование с «нечистыми» данными, и это будет как снежный ком, он становится все больше и хуже.

Основные элементы хорошего исследовательского анализа данных

Исследовательский анализ данных может быть настолько глубоким, насколько вы хотите или хотите, но для базового анализа необходимы элементы, указанные ниже:

  • Первые и последние значения
  • Форма набора данных (# строки и # столбцы)
  • Типы данных / переменных
  • Отсутствующие и нулевые значения
  • Дублированные значения
  • Описательная статистика (среднее, минимальное, максимальное)
  • Распределение переменных
  • Корреляции

Мне нравится выполнять EDA вручную, чтобы лучше узнать мои данные, но пару месяцев назад Ади Бронштейн познакомил меня с Pandas Profiling. Поскольку обработка занимает довольно много времени, я использую ее, когда хочу быстро изучить небольшие наборы данных, и я надеюсь, что это также ускорит ваш EDA.

Начало работы с профилированием Pandas

В этой демонстрации я проведу EDA в Набор данных о посадках на метеориты НАСА.

Вы его уже запускали?

et Voilà, легко!

Теперь начинается самое интересное.

Узнайте больше о профилировании Pandas в их документации здесь: https://pandas-profiling.github.io/pandas-profiling/docs/

Вам понравился этот текст? Вы можете проверить Лучшие бесплатные электронные книги по науке о данных.