Мы расскажем о некоторых функциях, о которых вы, возможно, не узнали во вступительных и промежуточных видеороликах и статьях. Давайте начнем.

Вы можете получить набор данных для использования с кодом ниже.

Вы также можете использовать функцию Describe() для анализа нечисловых признаков

По умолчанию функция pandas description() быстро генерирует сводку описательной статистики только для числовых значений в наборе данных. Однако эта чрезвычайно полезная функция Pandas также может предоставить сводку нечисловых столбцов, просто добавив аргумент include=’all’.

Это очень полезно для машинного обучения, чтобы получить информацию о категориальных переменных, которая помогает определить стратегии преобразования.

Функциональные графики

Pandas имеет встроенную функцию рисования, которая позволяет вам быстро создавать наиболее распространенные типы рисунков из ваших фреймов данных, групповых таблиц или сводных таблиц.

Приведенный ниже код создает диаграмму рассеяния, сравнивающую объем двигателя и мощность в нашем фрейме данных.

Еще больше красивых рисунков со стилем

Если вы хотите поделиться результатами анализа данных с помощью Pandas, вы можете захотеть, чтобы ваши таблицы данных выглядели немного лучше и понятнее для человека. Pandas имеет несколько параметров стиля для управления отображением результатов в фреймах данных.

Параметры стиля могут изменить способ отображения чисел.

Следующий код применяет соответствующий стиль к набору столбцов в нашем наборе данных. Чтение вывода теперь намного проще.

Создайте тепловую карту со встроенными стилями

В Pandas встроены некоторые общие шаблоны стилей. Вы можете использовать один из них, чтобы легко создать тепловую карту.

Следующий код применяет форматирование тепловой карты к data_summary.

Создание сводных таблиц в стиле Excel

Сводная таблица считается одной из самых мощных функций Excel. Это позволяет пользователю быстро понять закономерности и функции, обнаруженные в очень больших наборах данных, путем группировки, фильтрации и выполнения вычислений по переменным.

Библиотека Pandas включает в себя методы, позволяющие создавать сводные таблицы, очень похожие на те, которые можно найти в Excel и других инструментах для работы с электронными таблицами.

В приведенном ниже коде используется сводная таблица Pandas для сравнения рейтинга страхового риска автомобилей в зависимости от количества цилиндров, которые у них есть.

Статистические функции

Подобно Excel Pandas, он включает в себя широкий спектр инструментов расчета для применения общих статистических методов к вашим данным. Например, корреляции между переменными в наборе данных можно быстро вычислить с помощью метода corr().

Разделить-Применить-Объединить

Этот шаблон анализа данных виден в сводных таблицах и группе SQL с выражениями, как мы объясняли выше. В дополнение к сводным таблицам Pandas предоставляет еще один метод, использующий эту стратегию, известный как groupby().

Этот метод позволяет с помощью одной строки кода сегментировать набор данных, выполнять некоторые статистические расчеты или расчеты, а затем соединять эти сегменты вместе для их сравнения.

Следующий код разделяет данные по уникальным значениям в целевой переменной, вычисляет среднее значение для каждого столбца, а затем отображает результаты.

Добавить заголовки к таблицам

Кроме того, помимо данных существует ряд стилей, которые можно добавить к таблицам, улучшающих внешний вид.

Например, вы можете добавить заголовок к таблице следующим образом.

Спасибо за прочтение.