Недавно я совершил поездку в Боготу, Колумбия, чтобы принять участие в программе Bloomberg Data For Good Exchange Immersion - Ксавье Гонсалес, и меня отправили туда, чтобы помочь Veeduría Distrital (Управление по борьбе с коррупцией и надзором) Боготы в построении Панель данных, позволяющая руководству города лучше понимать и рассматривать жалобы граждан. Программа была невероятным опытом, но что было также невероятным, так это то, что Папа Франциск благословил нас (и панель управления) визитом в Колумбию прямо в середине нашего погружения.

Это напомнило мне о работе в области науки о данных, которую я проделал несколько месяцев назад с Беном Миллером и Крисом Штрайхом - мы смогли создать Детектор Папы с помощью машинного обучения и городских открытых данных. В частности, мы создали набор алгоритмов, которые предсказывали визит Папы Франциска в Нью-Йорк, просматривая данные Комиссии по такси и лимузинам Нью-Йорка. Мы использовали ряд методов обнаружения аномалий машинного обучения, чтобы выделить те дни, когда желтые такси не останавливались и не останавливались. , 2015.

Чтобы создать «Детектор Папы», нам сначала нужно было загрузить данные TLC за 2015 год:

# loop through and download TLC data for each month of 2015
for num in $(seq -w 01 12)
do 
    echo $num 
    curl -o ./data/tlc_yellow_2015_$num.csv https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2015\-$num.csv
done

Затем, после небольшого преобразования даты и очистки данных, мы разбиваем данные на несколько блоков вокруг собора Святого Патрика (широта: 40.758477, долгота: -73.976223). После подмножества мы затем агрегировали данные по дням, суммируя количество поездок и усредняя общую стоимость каждой поездки на такси.

На графиках выше мы можем видеть некоторые пики и спады, которые отражают изменения дня недели во времени. Тем не менее, вы можете видеть некоторые выбросы в данных - наша следующая задача - увидеть, когда именно эти выбросы, насколько далеко от выбросов эти даты и почему эти даты являются выбросами.

Мы решили сначала выполнить анализ обнаружения выбросов k-средних, используя в качестве набора функций только количество поднятых такси и среднюю общую сумму за поездку на такси, агрегированную по дням. Глядя на данные, кажется, что в данных есть две группы: дни с большим количеством поездок и более высокой средней стоимостью поездки и дни с меньшим количеством поездок на такси и более низкой средней стоимостью поездки. Силуэтная оценка это подтверждает.

На приведенном выше графике вы можете увидеть две группы, окрашенные в голубой и синий цвета, а 10 верхних выбросов окрашены в красный цвет. Отмечены дни, которые я считаю наиболее интересными. Метель 27 января занимает третье место по величине выбросов, если судить по расстоянию от ближайшего центра кластера K-средних. 24 сентября, день визита Папы Франциска к Святому Патрику, занимает второе место по величине. Наконец, 31 мая, дождливое воскресенье, считается самым далеким исключением. Я подумал, что было бы интересно также включить самый нормальный день, например, точку данных / день, ближайшую к центру кластера. Это случилось 17 апреля, поэтому я включил его, чтобы дать всем нам хорошее представление о том, как выглядит типичный день такси вокруг собора Святого Патрика.

На картах выше (слева направо) показана схема приема такси на 17 апреля (самый «нормальный» день), 24 сентября («День Папы») и 31 мая - дождливое воскресенье. Вы можете сразу увидеть разницу между 24 сентября и остальным - в районе вокруг собора Святого Патрика (между 50-м и 51-м, 5-м авеню и Мэдисон) нет грузовиков, предположительно из-за оцепления полиции.

Мы также выполнили алгоритм обнаружения аномалий изолированного леса, чтобы проверить надежность нашей модели и результатов. Даты 31 мая и 27 января по-прежнему были лучшими, а День Папы 24 сентября опустился на не столь далекое пятое место в списке исключений.

Так что все это значит? «Прогнозы», которые произошли более двух лет назад, могут показаться не самыми мощными, но тот факт, что мы смогли выбрать это программно, просто взглянув на агрегированные данные TLC, на мой взгляд, чрезвычайно интересен. Подобно тому, как астрономы просматривают небо на предмет аномальных источников света, сканирование города на предмет аномальных схем такси может оказаться очень эффективным. Такси и схемы движения являются источником жизненной силы Нью-Йорка, и в дополнение к обнаружению событий их можно использовать в качестве прокси для измерения передвижения граждан и уровня жизни в различных районах города.

Как всегда, обратная связь более чем приветствуется, а весь код размещен в репозитории github.