Пример с набором данных НАСА
Исследовательский анализ данных (EDA), на мой взгляд, является наиболее важной частью моделирования машинного обучения в новых наборах данных. Если EDA не выполняется правильно, это может привести к тому, что мы начнем моделирование с «нечистыми» данными, и это будет как снежный ком, он становится все больше и хуже.
Основные элементы хорошего исследовательского анализа данных
Исследовательский анализ данных может быть настолько глубоким, насколько вы хотите или хотите, но для базового анализа необходимы элементы, указанные ниже:
- Первые и последние значения
- Форма набора данных (# строки и # столбцы)
- Типы данных / переменных
- Отсутствующие и нулевые значения
- Дублированные значения
- Описательная статистика (среднее, минимальное, максимальное)
- Распределение переменных
- Корреляции
Мне нравится выполнять EDA вручную, чтобы лучше узнать мои данные, но пару месяцев назад Ади Бронштейн познакомил меня с Pandas Profiling. Поскольку обработка занимает довольно много времени, я использую ее, когда хочу быстро изучить небольшие наборы данных, и я надеюсь, что это также ускорит ваш EDA.
Начало работы с профилированием Pandas
В этой демонстрации я проведу EDA в Набор данных о посадках на метеориты НАСА.
Вы его уже запускали?
et Voilà, легко!
Теперь начинается самое интересное.
Узнайте больше о профилировании Pandas в их документации здесь: https://pandas-profiling.github.io/pandas-profiling/docs/
Вам понравился этот текст? Вы можете проверить Лучшие бесплатные электронные книги по науке о данных.