Исследовательский анализ данных с помощью Tableau

В машинном обучении исследовательский анализ данных или EDA часто является первым, что мы делаем, чтобы познакомиться с новым набором данных. Он выполняется для того, чтобы сделать общие наблюдения за данными, обобщить их, изучить некоторые основные тенденции или выявить скрытые связи между переменными. Инструменты визуализации данных, такие как Qlik или Tableau, помогают лучше ориентироваться в новых данных и популярным образом представляют результаты EDA. В следующие несколько минут вашего чтения я расскажу о конкретном случае классификации с использованием Tableau Prep Builder и программного обеспечения Tableau Desktop.

Набор данных, который мы здесь будем использовать, не нов для города, и вы, вероятно, сталкивались с ним раньше. Данные были собраны португальским банком в период с 2008 по 2013 год и содержат результаты телемаркетинговой кампании, включая ответ клиента на предложение банка о заключении договора о срочном депозите. Наша цель будет заключаться в том, чтобы найти в наборе данных те группы клиентов, которые лучше всего могут положительно отреагировать на кампанию. Набор данных доступен в репозитории машинного обучения Ирвина Калифорнийского университета. Итак, приступим!

Для начала давайте подключимся к набору данных с помощью Tableau Prep Builder, а затем нажмите «добавить шаг», чтобы узнать больше о его функциях - программа автоматически сгенерирует для нас сводку всех переменных в наборе данных:

Это также тот момент, когда мы используем Tableau Prep Builder для внесения некоторых изменений в данные, например переименовать или удалить столбцы, изменить тип данных, удалить очевидные выбросы и т. д.

Теперь давайте исследуем данные с помощью Tableau Desktop, чтобы получить несколько интересных цифр. Во-первых, давайте посмотрим на двоичную целевую переменную «y» с ответом клиента на предложение банка о депозитном контракте.

Несбалансированность классов - это проблема, которая часто возникает вместе с такими случаями классификации, как, например, мошеннические транзакции по кредитным картам или результаты онлайн-кампаний. На рисунке 2 показано, что два класса переменной «y» также не представлены одинаково в нашем наборе данных. Точнее, 36 548 записей относятся к классу «нет» и 4640 записей относятся к классу «да».

Дисбаланс предполагает, что позже - если мы собираемся построить модель машинного обучения с этими данными - нам придется делать избыточную или заниженную выборку данных перед обучением модели на них.

На рисунке 3 показано соотношение между количеством ответов да и нет для любого возраста в наборе данных, независимо от общего количества записей. С помощью этого графика мы можем оценить, как люди разного возраста отреагировали на кампанию. Из рисунка мы делаем вывод, что соотношение да / нет лучше у молодых людей, но с этого момента оно также показывает устойчивую отрицательную тенденцию. Он достигает виртуального плато примерно к 30 годам, и самые низкие значения сохраняются с небольшими изменениями примерно до 57 лет. Затем доля положительных ответов вступает в фазу быстрого положительного изменения, которое может быть связано с обычным пенсионным возрастом. В наборе данных просто недостаточно данных для адекватного представления людей старше 85 лет - отсюда и неправильность этой части графика. (Чтобы взаимодействовать с этим графиком, щелкните слово Чубакка)

Чтобы создать такую ​​цифру, вы должны применить функцию вычисления таблицы из меню соответствующей переменной (в данном случае CNT (y)), выбрать Percent of Total в качестве типа вычисления и указать 'y' как размерность для расчета процентов, например:

Вот как выглядит предыдущий график с действительными числами:

Число людей, положительно ответивших на кампанию, возрастает от 23 до 40 по возрастной шкале на Рисунке 4, но не так резко, как отрицательные. На предыдущем графике мы видели, что это увеличение «да» было полностью компенсировано всплеском «нет» в этой демографической группе.

На рисунке 5 мы соединили два последних графика вместе. На рисунке подчеркивается идея о том, что область с самым низким соотношением да / нет также представляет собой наибольшую долю записей в наборе данных, что, должно быть, нанесло двойной удар по результатам кампании. В то время как противники получили поддержку очень большой части действительно большой возрастной группы, да преуспели в группах, в которых просто не хватало людей в выборке. (Если вы хотите подробно изучить этот график, сначала следует погладить этого рыжего щенка › 🐕 )

Выводы, которые мы сделали из рисунка 4, также находят поддержку в этой таблице (рисунок 6). Как видите, в списке занятий есть два класса, которые выделяются своей реакцией на кампанию: «студенты» и «пенсионеры». Эти классы относятся к двум пикам на Рисунке 4: молодые люди и люди в возрасте 60 лет и старше. Мы предположили, что последнее может иметь какое-то отношение к людям, начинающим выходить на пенсию в большом количестве примерно в этом возрасте. Вывод, который мы получаем из этой таблицы, подтверждает, что действительно должен быть некоторый уровень причинно-следственной связи.

График в виде прямоугольника и усов со средней линией (рис. 7) еще раз подчеркивает, что эти две группы клиентов имеют непропорционально высокую представленность в классе «да». Но мы не собираемся сейчас проводить более тщательное расследование по этому поводу.

Хотя поисковый анализ данных ни в коем случае не является достаточным методом для поиска исчерпывающих ответов на подобные бизнес-проблемы, суть в том, что проведенный нами анализ доказал, что набор данных демонстрирует некоторые интересные тенденции, на которые следует обратить внимание. Прочтите мой пост Классификация машинного обучения с помощью Python для прямого маркетинга, чтобы увидеть, как этот случай классификации может быть решен более тщательно с помощью модели прогнозирующего машинного обучения.

Спасибо за внимание!!