Применение продуктовых методологий в науке о данных

Что делает продукт отличным, управляемым данными? Необычные модели? Новаторские идеи? Правда в том, что секрет успеха обычно заключается в успешном внедрении методологии продукта.

В этом посте я делаю ретроспективу недавнего опыта хакатона, используя концепции бережливой и гибкой методологии минимально жизнеспособного продукта, рискованных предположений и всплесков. Я исследую, как эти подходы могут помочь команде быстро определить вариант использования, сопоставить риски и сложность предполагаемых решений и быстро перейти к готовому к поставке продукту.

Код GitHub доступен здесь

Хакатон дедовщины

«Где и какие нарушения прав человека имеют место в мире?»

Это был не такой уж скромный брифинг для стипендиатов Insight Data Science на недавнем совместном хакатоне с инициативой AI for Good от Microsoft. Я был членом команды в Сиэтле, изначально состоявшей из комнаты, полной докторов наук, качающих головами и бормочущих о ресурсах, масштабах и самой предпосылке, что краткое изложение было даже действительным вопросом исследования. Мы вырвались вперед, довольно далеко продвинулись по пути и оказались одной из двух команд-финалистов, представивших Microsoft.

В рамках нашей работы был проанализирован Годовой отчет Государственного департамента США о положении с правами человека в странах, который ежегодно публикуется примерно в 160 странах мира. Мы использовали метод количественной оценки, разработанный для суммирования показателей страны в каждой области прав человека (с использованием данных и методов из Проекта данных по правам человека Cingranelli-Richards (CIRI)). Затем мы создали информационную панель, наглядно демонстрирующую (1) как типы нарушений прав человека группируются в разных странах, (2) их связь с макроэкономическими показателями и показателями развития (3) ключевые слова, обычно связанные с этими группами в отчетах Государственного департамента.

Это был наш первый хакатон. Я очень горжусь нашей командой и проделанной работой. Однако отзывы судей создали у меня впечатление, что, хотя методы и модели, которые мы использовали, демонстрируют сильные технические возможности, мы иногда изо всех сил пытались рассказать четкую историю о том, что мы сделали и почему. С тех пор это заставило меня задуматься о применении продуктового мышления к проектам в области науки о данных, которые, по правде говоря, имеют тенденцию теряться в спешке, чтобы продемонстрировать техническое мастерство.

Доктора и data science

Insight - это стипендия для постдокторантуры, которая устраняет разрыв между академическими кругами и наукой о данных. Сфера компетенции программы гарантирует, что ее организаторы с особым удовольствием помещают докторов наук в ситуации, когда их старые академические стратегии выживания умирают мучительной смертью. Как вид, мы созданы не для того, чтобы быстро разобраться в проблеме, понять, кому выгодно решение, и провести кратчайшую грань между ними. Намного лучше потратить следующий год на тщательную доработку исследовательского вопроса… и следующие четыре года или около того, публиковать сильно уклончивые ответы в журналах, скрытых за платным доступом.

Чтобы внести ясность, у меня нет никакого желания добавлять к оживленной торговле блоги по науке о данных, триумфально критикующие научные круги. Из докторов наук получаются хорошие специалисты по данным из-за их научной подготовки, а не вопреки этому. Однако для перехода от академического сообщества к техническому сектору необходимо решить, какие инструменты взять с собой в путешествие, а какие с любовью хранить на чердаке «на потом» вместе с хлебопечкой, снаряжением для скалолазания и другими реликвиями прошлые амбиции.

На чердак должен уйти академический исследовательский образ мышления, в частности инстинкт оценивать достоинства исследовательского вопроса по его потенциальному вкладу в совокупность знаний, и соответствующее убеждение, что только глубокий подход выковывается в огне экспертной оценки. пройдет сбор. Следует сохранить понимание важности знания предметной области; Независимо от того, насколько хорош ваш код и математика, если вы не понимаете систему, которую моделируете, и влияние собственных предубеждений, вы все равно блуждаете в темноте.

От исследовательского проекта до разработки продукта

Так что же вынести из отзывов Microsoft? Что ж, один комментарий указывает на то, что вариант использования был непонятным. Кто пользовался этим продуктом и какую проблему мы для них решали? Вторая причина заключалась в отсутствии ясности в нашей методологии продукта. Нам нужно было лучше рассказать о приоритезации функций и о том, как мы выделяем время на их разработку.

Определение варианта использования

Оглядываясь назад, можно сказать, что вариант использования, который мы имели в виду, был построен на основе некоторой работы, которую Microsoft уже проделала с Управлением Верховного комиссара Организации Объединенных Наций по правам человека (УВКПЧ). Подводя итог, можно сказать, что Microsoft и УВКПЧ провели совместную сессию по выработке идей, чтобы определить, что действительно нужно сотрудникам УВКПЧ. Результатом стал RightsView, по сути, живая панель информации о возникающих и продолжающихся нарушениях прав человека по всему миру. Цитата из семинара указывает на то, что УВКПЧ хочет приборную панель;

«Обеспечить четкую перспективу с точки зрения прав человека в отношении потенциальных, возникающих или текущих кризисов и получить соответствующие ответы на них путем более широкого вовлечения других частей ООН и международного сообщества» ¹

Сессия также произвела набросок макета приборной панели, который является полезной отправной точкой при принятии решения о том, что делать с разработкой продукта.

Подход MVP

При наличии хорошо изученного пользователя и варианта использования задача заключается в описании функциональности этого продукта и определении ближайших приоритетов для разработки. Ведущей методологией для этого была разработка минимально жизнеспособного продукта (MVP). Этот подход предписывает определение минимального набора функций, который удовлетворит первых пользователей, доставку этих функций в кратчайшие сроки и повторение продукта, опираясь на успехи и интегрируя отзывы пользователей.

Глядя на пример панели управления RightsView, первое, что бросается в глаза, это то, что это, по сути, проблема «пить из шланга»; мы пытаемся предоставить услугу, которая принимает широкий спектр неструктурированных данных с высокой вариабельностью и шумом и возвращает пользователю что-то структурированное, актуальное, краткое и предсказуемое, что побуждает или поддерживает его в совершении действия. Глубина потенциальных возможностей такого сервиса огромна, и мы можем представить его как по существу многоэтапный подход, в котором мы все ближе и ближе приближаемся к конечной цели - «структурированному, актуальному, краткому и предсказуемому» (см. Рисунок ниже. )

С точки зрения MVP, мы могли бы тогда спросить: каков наименьший объем функциональности, который поможет пользователю переваривать все эти данные? Я бы сказал, что это первый шаг приема всех этих неструктурированных данных и их какого-либо перевода на классифицированные и геолокационные события, объединенные со слоем представления для структурированных данных (скорее всего, приборной панелью карты).

Следует отметить, что подходы MVP часто обвиняют в том, что они попадают в ловушку, сокращая продукт до такой степени, что первоначальный выпуск является несколько тривиальным и ограниченным использованием. Так что стоит поискать на рынке примеры этой функциональности как отдельного продукта.

В случае картирования событий на основе общедоступных неструктурированных данных на самом деле существует довольно здоровый рынок. Например, Проект данных о местонахождении и событии вооруженного конфликта (ACLED) очень близок к этому первому шагу. Однако его данные основаны на том, что исследователи вручную кодируют неструктурированные отчеты, отправленные на веб-сайт. Хотя это делает его более надежным источником данных и фаворитом журналистов (например, газета Guardian часто использует свои данные), ручной подход делает его трудоемким и дорогим продуктом.

Хорошим примером на другом конце спектра является Глобальная база данных событий, языка и тона (GDELT), которая представляет собой попытку полностью автоматизировать процесс синтаксического анализа сообщений общедоступных СМИ в событиях. данные. Основатель проекта Филип Шродт описывает необходимые шаги для создания этого набора данных в статье 2011 года, и теперь набор данных доступен для всех, кто может использовать его здесь. Хотя GDELT слишком обширен, чтобы его можно было применить к вопросу о том, какие типы нарушений прав человека происходят и где, он демонстрирует, что сбор данных о событиях действительно является отдельной областью исследования с широкой базой пользователей в области анализа политики и социологии.

Определив MVP и руководствуясь действиями, изложенными в статье Шродта 2011 года, я решил проделать некоторую дополнительную работу, чтобы увидеть, как будет выглядеть итерация работы MVP. Существует множество сообщений Medium, в которых описывается пошаговый процесс классификации текста, поэтому я просто дам краткое описание и ссылку на проект github, если вам интересно.

MVP взял текст из ежегодного отчета Государственного департамента по правам человека за 2015–2018 годы. Каждый год охватывал около 160 стран, каждый отчет состоял примерно из 10 000 слов и был разделен на следующие разделы;

Коррупция и непрозрачность правительства
Дискриминация, злоупотребления в обществе и торговля людьми
Уважение к гражданским свободам
Уважение непорочности личности
Права рабочих
Свобода участия в политическом процессе

Каждое предложение было помечено разделом, в котором оно произошло, что затем сформировало помеченные данные обучения. После некоторой повторной выборки начальной загрузки для устранения дисбаланса классов данные были очищены, векторизованы и использованы для обучения машины опорных векторов. Затем это служило алгоритмом классификации для новостных лент, анализируемых из различных RSS-лент.

Параллельно с этим я использовал набор инструментов для естественного языка (NLTK) для обнаружения некоторых сущностей в каждой новости, в частности, для поиска названий мест. Когда имя было найдено, оно передавалось в API Google Map для определения местоположения рассматриваемой истории. Результаты были сохранены во фрейме данных pandas и визуализированы с помощью Tableau.

Результатом стала базовая версия существующих подходов, которые я только что рассмотрел, но с особым акцентом на нарушениях прав человека, о которых сообщается в новостных лентах. При обучении модель достигла 76% точности по 6 категориям, при применении к RSS-каналам она упала до 67%.

Ясно, что это гораздо более простой результат, чем подход, принятый нашей командой. Но разве лучше? Было бы лучше потратить наше время на доработку этого «первого шага» в продукте или мы были правы, исследуя гораздо более амбициозные возможности? Чтобы ответить на этот вопрос, полезно задействовать вторую методологию разработки продукта…

Подход с наиболее рискованным предположением

MVP соблазняет ложными заверениями в четком, линейном пути к оптимизированному решению. Тест самого рискованного предположения делает упор на обучение… ²

Если смотреть с этой точки зрения, воронку, описанную в разделе MVP, теперь можно рассматривать как все более рискованные предположения относительно того, что можно, а что нельзя делать, особенно в отведенные сроки.

Опять же, при оценке того, что возможно, а что нет, действительно стоит провести некоторое исследование рынка. Оказывается, в области прогнозирования вспышек преступлений, спонсируемых государством, особенно насилия, предпринимались попытки нескольких групп. Например, Проект раннего предупреждения позиционирует себя как первую в своем роде общественную систему, разработанную для выявления стран, в которых массовые зверства еще не начались, но где риск такого насилия высок ³.

Первое, что бросается в глаза, - это внимание, с которым представитель проекта подчеркивает, что это не прогнозная модель. Вот Гилл Сэвитт, директора Мемориального музея Холокоста США, в котором проводился этот проект;

«Мы не делаем точных прогнозов. Инструмент не в этом », - говорит Савитт. «Мы пытаемся предупредить политиков о том, что существует ситуация, которая созрела для ужасов, и предупредить их о том, что есть меры, которые можно предпринять, чтобы ее предотвратить». ³

Похоже, что аналогичные модели работают в немного более мутных водах частного сектора обороны и безопасности, и их архитекторы заметно менее стесняются их предсказательной способности. Например, Lockhead Martin продвигает свою Интегрированную систему раннего предупреждения о кризисах (ICEWS) как имеющую 80% точность в прогнозировании кризисов во всем мире. Подробности того, что это за кризисы на самом деле, или какое-либо представление о том, как измерялась точность, не дается ...

Таким образом, похоже, что у нас действительно есть некоторые рискованные предположения, присутствующие в нашем продукте, в первую очередь то, что мы можем обнаружить любую корреляцию между нарушениями прав человека и социально-экономическими показателями, и даже более того, чтобы мы могли прогнозировать изменения в деятельности с правами человека с течением времени.

Изучение рискованных предположений и концепции всплесков кода

Наша команда потратила много времени на изучение различных подходов к переходу от описания к прогнозированию с нашими данными, и в процессе отказалась от многих подходов, которые не работали. По сути, в этом и заключается суть подхода с использованием рискованных предположений: переход к непосредственной проверке основных предположений вашего проекта, а не начинать с самых простых / минимальных элементов только для того, чтобы позже ударить по кирпичной стене. Как сказано в одном описании, ключ к подходу, основанному на рискованных предположениях;

… Быстрые, небольшие тесты. Какой самый маленький эксперимент вы можете провести, чтобы проверить свое самое серьезное предположение? ³

Когда эти тесты имеют форму написания некоего скелетного кода, чтобы проверить, есть ли у идеи «ноги», как это было с нами, тогда этот тест также можно описать как всплеск. Вкратце, всплеск - это термин, появившийся в школе экстремального программирования (XP) при разработке продуктов. Он характеризуется как неограниченное, но в идеале краткое и целенаправленное упражнение по кодированию, предназначенное для проверки предположения. Перефразируй;

«Какое самое простое из того, что мы можем запрограммировать, убедит нас в том, что мы на правильном пути?»

Оглядываясь назад на то, как наша команда подошла к этой задаче, можно сказать, что модель выявления рискованных предположений в сочетании с использованием пиков для их проверки была интуитивно понятным подходом, который мы использовали. Наша команда была разделена на четыре широкие задачи, каждая из которых фокусировалась на различных предположениях и задачах пикового значения:

Результаты были неоднозначными. Мы нашли хороший способ перевести структурированный текст в «баллы» для каждой категории прав человека, мы также нашли способ сгруппировать страны по различным типам профилей прав человека, и мы, по крайней мере, начали изучать роль социально-экономических переменные в формировании этих кластеров. Предсказать, как и следовало ожидать, было невозможно.

Параллельное сравнение

Используя подход MVP и наиболее рискованные предположения для определения того, как разрабатывается продукт, теперь мы можем взглянуть на результаты каждого из них и поразмышлять о сильных и слабых сторонах.

Краткосрочный и долгосрочный риск

Один из выводов для меня заключался в том, что подход MVP, по-видимому, снижает краткосрочный риск, в то время как решение самых рискованных предположений требует долгосрочной перспективы. С MVP у вас, возможно, больше шансов получить что-то, что будет отвечать самым минимальным требованиям пользователей. Однако ваша дорожная карта может рухнуть, потому что то, что вы на самом деле пытаетесь сделать - предсказывать нарушения прав человека, - в конце концов может оказаться невозможным.

Управление скоростью

Это особенно важно для хакатона, где результат продукта ожидается в течение нескольких недель. Чаще всего MVP будет состоять из пользовательских историй, сложность и двусмысленность которых невелики (э-э), и поэтому у вас больше шансов определить, сколько времени это займет. Решение вашего самого рискованного предположения в бережливом подходе по своей природе является более исследовательским, и поэтому вам нужно будет гораздо более агрессивно выделять строгие временные рамки для каждого всплеска кода.

Раздутие функций

Подход MVP помогает сосредоточиться на одной функции и добиться ее. Мы чувствовали себя обязанными включать результаты каждого всплеска кода в наши самые рискованные предположения, потому что хакатон был соревнованием. Таким образом, мы получили большое количество функций, которые продемонстрировали, сколько работы мы сделали, но ошеломили судей Microsoft и, возможно, наших будущих пользователей.