Crowd AnalytiX (CAX) - Хакатон McKinsey по большим данным для прогнозирования вероятности того, что предложение будет принято определенным драйвером.

В этом блоге я подготовил анализ данных о McKinsey Big Data Hackathon от Crowd AnalytiX (CAX). Это исследование охватывало анализ с двумя переменными и анализ с несколькими переменными и показало несколько интересных шаблонов и визуальных эффектов с помощью инструмента Tableau.

Анализ данных основан на Хакатоне больших данных McKinsey для прогнозирования вероятности принятия предложения определенным драйвером.

Анализ функций также приводит к одной из важных практик в проектах по науке о данных - выбору и разработке функций. Выбор функций и инженерия больше склоняются к выбору правильного соответствия предикторных переменных в наборе данных.

В этой статье я показал только анализ функций.

Для полного проекта посетите репозиторий Github.



Для анализа функций мы решили провести анализ в Tableau. Tableau - мощный инструмент для анализа данных в визуальных формах. Поскольку наша целевая функция - driver_responce, наш анализ больше всего включает определенные переменные.

Уникальный код водителя - ответ водителя на предложение

Как видно из вышеупомянутой диаграммы, код драйвера 1421 получил максимальное количество предложений, однако принятое предложение драйвера - только 90. Точно так же код драйвера 3371 получил около 500 предложений, но драйвер принял предложение было 382. Следовательно, этот водитель вел дела максимально эффективно, принимая предложения.

Этот шаблон также показан на следующих картах,

Как мы видим на карте, данные по долготе и широте взяты из города Москва, Россия. Как мы видим на карте, рядом с Москвой-рекой водители, получающие больше предложений и принимающие предложения, также высоки по сравнению с окраинами главного города. Наблюдательные точки, идентификатор водителя с 3371, 3665 и 6580, как показано на карте, хорошо учитывались при принятии предложения.

Таким образом, можно сказать, что в центре города водители могут получить больше одобрения из-за небольшого расстояния.

Как видно на следующей диаграмме, кластеры красного рынка находятся у водителей в центре города, а размер круга показывает среднее расстояние в км. Однако, как мы видим в синих кластерах, расстояние за пределами города больше, чем больше размер кругов.

Обычно это происходит в городе, где центр города из-за небольшого расстояния, водители становятся доступными раньше и, следовательно, также могут принять следующую ближайшую поездку.

День недели -% отклика (принятия) водителей относительно общего количества за день

Здесь 0 - воскресенье, а дни недели по возрастанию 6 - суббота.

Как видно на гистограмме, коэффициент принятия водителем ниже в воскресенье и пятницу, что составляет 70% и 71,1% от всех предложений, полученных водителями в конкретный будний день.

Тем не менее, лучшая скорость приема, которую мы видим, - это среда. И четверг.

Низкие коэффициенты приема в понедельник, пятницу и субботу также означают наличие водителей? Доза в эти дни мы наблюдаем скопление пассажиров? Однако мы можем полностью отрицать, что водители сидели идеально и не принимали предложения в понедельник или субботу. Однако для воскресенья все может быть иначе, так как это всего лишь недельный выходной.

Час недели -% отклика (принятия) водителей по общему счету за час

Точно так же, когда мы наблюдаем за беседой в баре в течение недели, у нас также есть паттерны наблюдателя в течение часа.

Как показано на следующей гистограмме, высота столбиковых линий представляет собой общий ответ водителей, а доля зеленого цвета указывает на степень принятия водителем.

Следовательно, как мы видим на гистограмме, уровень согласия водителя высок с 8 утра до 15 часов дня.

Тем не менее, количество предложений наиболее велико с 19:00 до 21:30 вечера. Но мат опять же из-за наличия драйверов, более 25% предложений не принимаются.

Это временные рамки, в которых компании нужно работать, чтобы превратить полосы в зеленый оттенок.

Класс предложения - С уважением Средн. Расстояние и реакция водителя (принятие) на общий размер класса предложения

Как видно из следующей гистограммы, пассажиры предпочитают бронировать автомобили категории XL для поездок на дальние расстояния, и, следовательно, среднее расстояние для группы класса XL является максимальным и составляет около 20 км.

Мы также заметили, что ответственность водителя за принятие поездки высока для категорий VIP + и VIP. Однако для класса VIP + расстояние в км меньше, в основном за счет премиальных сборов.

С другой стороны, группа водителей классов эконом и стандарт является одной из наименьших групп для принятия предложения от пассажиров по отношению к наивысшей доле рынка обоих классов на круговой диаграмме. Опять же, это может быть в основном из-за высокой активности в определенных группах классов из-за низких выставок, и, следовательно, водители не могут принять поступившее предложение.

Сред. Скорость в течение недели в зависимости от часового ключа

Скорость - это функция, которую мы создали на основе расстояния и продолжительности. В следующем многовариантном анализе мы взяли среднюю скорость в течение часа и проверили, какой день недели имеет низкий и высокий трафик. Мы предположили, что низкая скорость означает высокий трафик.

Судя по графику, в более ранние часы дня ср. скорость выше средней, и в начале рабочего дня скорость снижается ниже средней. Однако для воскресенья, как мы видим, отмеченного оранжевым цветом, скорость выше среднего. Это указывает на то, что из-за меньшего количества движения кабины могут достигать значений выше среднего. скорость в воскресенье.

Мы также можем видеть несколько выбросов на графике от полуночи до раннего утра.

Ответ водителя - в отношении Сред. Расстояние и средн. Скорость в определенный день

На основе Avg. Скорость в течение недели, основанная на анализе Hour Key, мы не можем связать реакцию водителя с трафиком.

Здесь 0 означает, что водитель не принял предложение, а 1 означает, что водитель принял предложение. Водители не принимают предложения, если средн. расстояние в км высокое, а средн. Скорость низкая.
Кроме того, на гистограмме мы можем видеть, что в понедельник предложения от пассажиров выше среднего, но уровень принятия водителями ниже среднего. А в субботу все наоборот.

% отклика водителей (принятие) - в отношении категории класса предложения в данный будний день

Согласно следующей круговой диаграмме, группы стандартных и экономичных классов имеют самую большую долю рынка, что легко понять по количеству предложений, поступающих в эти два класса, как это также показано на гистограммах.

Основываясь на расхождении между красным и жадным, мы можем определить, что водители эконом-класса принимают меньше предложений во все рабочие дни. А для класса Стандарт мы видим, что коэффициент приема меньше только в воскресенье (возможно, из-за меньшего количества водителей и праздника).

Эта статья ограничена только анализом данных и анализом функций, однако я также поделился подходом к очистке данных с исследовательским анализом данных и построением модели в репозитории Git - для получения дополнительных сведений щелкните здесь.