Power BI — это инструмент визуализации данных, и теперь мы можем расширить возможности Power BI с помощью Python и R, чтобы упростить прием и преобразование данных. В этом блоге я буду использовать Seaborn и Matplotlib библиотеки Python для визуализации данных. Комбинируя Power BI и Python, можно расширить возможности Power BI по приему, преобразованию, дополнению и визуализации данных.

Вот один из многих вариантов использования в бизнесе: веб-сайт электронной коммерции хочет лучше понять своих пользователей. Аналитик данных в компании может использовать Python для анализа продаж компании, выявления предсказуемых тенденций и использования настраиваемых визуальных элементов Python для отображения в отчетах.

Мы узнаем о возможностях интеграции Power BI и Python и увидим некоторые визуальные эффекты ниже. Если вы хотите перейти к разделу реализации, перейдите к разделу «Использование Seaborn для визуализации данных» ниже.

Использование возможностей Python в Power BI

Языки M language и DAX уже поддерживаются Microsoft Power BI (выражение анализа данных), но использование Python для подготовки данных иногда более практично. Это потому, что он предоставляет вам доступ к нескольким библиотекам Python, набору практических функций, которые уменьшают необходимость писать код с нуля.

Вы можете использовать Python для очистки данных, формирования сложных данных и аналитики наборов данных, например для заполнения отсутствующих данных и создания прогнозов. Совершенно новый набор возможностей для работы с данными расширяется за счет объединения Python и Power BI. Благодаря Python Power BI стала практически безграничной платформой.

Вот несколько примеров типов заданий, которые можно выполнять с помощью Python в Power BI:

  • Очистка данных.Сценарии Python можно использовать для автоматизации некоторых повторяющихся действий по очистке данных.
  • Преобразование данных. Сценарии Python полезны для наборов данных, которым требуется преобразование данных, прежде чем их можно будет импортировать, что может быть сложно выполнить в редакторе Power Query.
  • Расширенные визуализации. При использовании Python нет ограничений на типы визуальных элементов, которые вы можете включать в свой отчет. Вы можете добавлять в Power BI индивидуально настроенные и уникальные визуализации, не загружая пользовательские визуальные элементы.
  • Подключение. Даже если Power BI не имеет встроенного подключения к источнику данных, Python позволяет подключаться практически к любому источнику данных.

Необходимые условия для работы с Python в Power BI

Выполните следующие действия, чтобы работать с Python в Power BI.

1. Загрузка и установка Python

Настройка интегрированной среды — это первый этап. Для этого на вашем компьютере должен быть установлен дистрибутив Python. Вы можете обратиться к этим шагам для установки. Служба Power BI поддерживает среду выполнения Python 3.7.7. См. раздел Требования и ограничения пакетов Python на этой странице.

2. Установка необходимых библиотек

Служба Power BI поддерживает несколько библиотек, но достаточно установить следующие пакеты Python.

  1. Pandas: Используется для работы с наборами данных. Он предлагает инструменты для исследования, очистки, анализа и обработки данных.
  2. Matplotlib: используется для создания статических, анимированных и интерактивных визуализаций в Python.
  3. Seaborn: Это библиотека визуализации данных Python на основе Matplotlib под названием Seaborn. Он предлагает сложный инструмент рисования для создания привлекательных и обучающих статистических изображений.

Чтобы установить эти пакеты, запустите команду pip в приложении командной строки.

C:\>pip install pandas
C:\>pip install matplotlib
C:\>pip install seaborn

3. Скачивание и установка Python IDE (необязательный шаг)

Это необязательный шаг, поскольку редактор сценариев Power BI также позволяет создавать сценарии Python. Однако любой внешний редактор кода поможет быстро создать скрипты. Поскольку он включает подсветку синтаксиса, я предлагаю использовать Visual Studio Code. Вы можете скачать его с официального сайта и ознакомиться с процедурой установки Visual Studio Code здесь. Дополнительные сведения о внешней среде Python IDE с Power BI см. в документации.

4. Включение сценариев Python в Power BI Desktop

Чтобы включить сценарии Python, откройте Power BI Desktop и нажмите «Файл» в верхнем левом углу, нажмите «Параметры и настройки», нажмите «Параметры» и нажмите «Сценарии Python», как показано ниже.

Используйте Seaborn для визуализации данных

Seaborn предлагает широкий выбор сюжетов. Однако в этом блоге мы сосредоточимся на Boxen и Point Plots.

Сюжет Boxen: (seaborn.boxenplot)

Boxen Plot, усовершенствованная блочная диаграмма, может использоваться для больших наборов данных. Когда строится представление непараметрического распределения, похожее на коробчатую диаграмму, все функции соответствуют фактическим наблюдениям. Форму распределения, особенно в хвостах, лучше понять, нанеся большее количество квантилей. Нажмите здесь, чтобы узнать больше об этом сюжете.

import matplotlib.pyplot as plt
import seaborn as sns
#Set aspects of the visual theme
sns.set_theme(style="whitegrid", color_codes=True)
#Take a sample dataset from the Github repository
dataset = sns.load_dataset("exercise")
#Ordering of diet values
pulse_ranking = ["no fat", "low fat"]
sns.boxenplot(x="diet",y="pulse",scale="linear",order=pulse_ranking,
data=dataset,k_depth="proportion")
#Use to display the visual
plt.show()

После запуска приведенного выше скрипта вы увидите график Боксена ниже.

  • set_theme: Эта функция устанавливает аспекты визуальной темы для всех графиков.
  • load_dataset: С помощью этой функции вы можете загрузить необходимый набор данных. Я использовал этот набор данных для справочных целей. Вы можете обратиться к другим наборам данных для учебных целей здесь.

Точечный сюжет: (seaborn.pointplot)

На точечном графике положение точки используется для обозначения оценки центральной тенденции для числовой переменной, а планки погрешностей используются для отображения степени неопределенности этой оценки.

Для сравнения между различными уровнями одной или нескольких категориальных переменных могут быть полезны точечные графики. Глазам проще обнаружить взаимодействие по разнице в наклоне, чем по сравнению высоты различных групп точек. Этот график отображает только среднее значение. Нажмите здесь, чтобы узнать больше об этом сюжете.

import matplotlib.pyplot as plt
import seaborn as sns
#Set aspects of the visual theme
sns.set_theme(color_codes=True)
#Take a sample dataset from the Github repository
df = sns.load_dataset("glue")
sns.pointplot(data=df, x="Score", y="Model", hue="Encoder",capsize=.2, 
 linestyles=" - " ,markers='^')
#Use to display the visual
plt.show()

После запуска приведенного выше сценария, в котором используется тот же набор данных, что и в предыдущем примере, вы увидите график точек ниже.

Ограничения Python в Power BI

Визуализация Python — отличная функция для использования с Power BI, но у нее есть несколько ограничений, о которых следует помнить при написании скриптов:

Ограничения размера данных

  • Визуальный элемент Python может использовать только 150 000 строк данных для построения графика. Если выбрано более 150 000 строк, используются верхние 150 000 строк.
  • Размер вводимых данных ограничен 250 МБ. Если вы обрабатываете действительно большие наборы данных, это может быть проблемой.
  • Столбец со строковым значением длиннее 32766 символов во входном наборе данных Python Visual усекается.

Ограничение разрешения

  • Визуальные элементы Python отображаются с разрешением 72 DPI.

Ограничение по времени

  • Визуальные вычисления Python, которые занимают более пяти минут, приводят к ошибкам тайм-аута выполнения.

Визуальные ограничения

  • Когда данные обновляются, фильтруются или выделяются, визуальные элементы Python обновляются. Однако само изображение не является интерактивным.
  • Визуальные элементы Python реагируют на выделение других визуальных элементов, но вы не можете щелкать элементы в визуальном элементе Python для перекрестной фильтрации других элементов.

Заключение

В этом блоге мы узнали, как Power BI можно интегрировать с Python и как графики Boxen и Point можно использовать в интегрированной среде. Это лишь верхушка айсберга возможностей интеграции Python и Power BI. Я предлагаю вам ознакомиться с официальной документацией Seaborn, чтобы узнать больше об использовании Python в Power BI.

Спасибо Федерико Кереки!

Ссылки

Морская инсталляция

Учебник Seaborn по Python для начинающих

Морской объектный интерфейс