Готовность данных - ключ к успеху проектов в области науки о данных.

Радка Ерсакова

Это кросс-пост из Блога инженерных исследований Института Алана Тьюринга, национального института науки о данных и искусственного интеллекта Великобритании.

Вступление

Источником многих общих проблем в проектах по науке о данных является большее внимание моделированию, чем данным. Успех проекта в области науки о данных во многом определяется данными и сложным процессом их подготовки для анализа. Однако прогресс обычно определяется исключительно с точки зрения реализации моделей и результатов анализа. Проблема в том, что «подготовка данных для анализа» - это плохо определенная концепция, которая затрудняет планирование этого этапа и выделение на него достаточных ресурсов. По нашему опыту, определение четких целей готовности данных, вокруг которых строится график проекта, является ключом к планированию и успеху проекта.

По определению, данные лежат в основе проектов в области науки о данных. В общем, нам необходимо получить данные и получить к ним доступ (которые сами по себе могут быть не такими простыми, как кажется), понять их и подготовить к анализу. Это фундамент, на котором держится все остальное. Как говорят в анекдоте; Наука о данных - это 80% очистки данных и 20% жалобы на очистку данных.

К сожалению, наука о данных как отрасль сделала гораздо лучшую работу по определению целей моделирования, чем определение целей, ориентированных на данные. В конце концов, моделирование - захватывающая часть любого проекта как для специалистов по данным, так и для заинтересованных сторон. Однако еще предстоит проделать большую работу, прежде чем можно будет даже приступить к моделированию. Попытка продемонстрировать прогресс исключительно с точки зрения результатов моделирования приводит к ненужному стрессу и разочарованию, когда каждый чувствует, что нечего показать в течение длительного периода упорной работы. В худшем случае это приводит к тому, что не выделяется достаточно времени и ресурсов на понимание данных и споры в пользу «просто делать что-то», что приводит к работе с данными, не подходящими для вопроса, или построению моделей, не подходящих для этих данных.

Проблема в том, что не существует хорошо отлаженного рабочего процесса или словаря для оценки готовности данных. Несмотря на то, что данные являются наиболее важным аспектом любого проекта, доступ к данным, понимание и подготовка часто недооцениваются и, как следствие, испытывают нехватку ресурсов. Мы обнаружили, что использование Концепции готовности данных Нила Лоуренса очень полезно для определения объема и распространения информации об этом процессе.

Структура готовности данных

Структура готовности данных предлагает отдельные диапазоны уровней готовности данных, которые определяют критерии, которым необходимо соответствовать в проекте, прежде чем можно будет сказать, что он перешел на следующий диапазон. В общих чертах, результат каждой группы:

Диапазон C: данные могут быть загружены в программное обеспечение для анализа.
Диапазон B: данные и их ограничения понятны
Диапазон A : Соответствующие данные доступны для ответа на конкретный вопрос.

Полосы можно разделить на любое количество дополнительных подуровней. Например, уровень C4 представляет собой смутное знание о том, что некоторые данные где-то доступны, вплоть до уровня C1, когда данные доступны и доступны и могут быть проанализированы специалистом по данным. Промежуточные шаги, которые для этого потребуются, скорее всего, зависят от конкретного проекта.

Определение четких целей готовности данных, которые должны быть выполнены, дает нам право выделить необходимое количество времени на эту задачу. Например, структура дает понять, что готовность данных включает в себя получение доступа к данным и понимание данных специалистом по данным. Эти задачи обычно воспринимаются как должное или недооцениваются. Прохождение каждого диапазона и удовлетворение этих требований должно соответствовать четким этапам и целям на графике проекта.

В целом, фреймворк упрощает планирование нашего проекта, а также отслеживание и информирование о нашем прогрессе. Сказать, что мы уже прошли полосу C, сейчас мы около B2 изучаем статистические свойства данных, и скоро переход к работе над полосой A будет гораздо более конкретным, чем сказать, что мы очищаем данные и будем продолжать это делать. так что пока еще. И если это займет больше времени, чем предполагалось (даже после нашего тщательного планирования), нам будет легче определить и объяснить, почему это произошло.

Проблемы с готовностью данных

Получение доступа к данным удобным для использования способом, отвечающим соображениям безопасности, само по себе является сложной задачей и обычным препятствием для проектов. Проблемы не только технические, но также юридические и этические. Это может быть длительный процесс, требующий скоординированных усилий между командой специалистов по анализу данных и заинтересованными сторонами проекта, предоставляющими данные. Хорошей лакмусовой бумажкой для этого этапа является то, передавались ли данные в прошлом, что означает, что по крайней мере часть необходимой инфраструктуры уже существует.

Проекты в области науки о данных происходят из разных областей, и каждая новая область приносит с собой новый технический жаргон, который нам необходимо изучить. Более того, во многих доменах используются слова, которые кажутся обыденными, в очень конкретном и техническом смысле. Это обман, потому что на первый взгляд неочевидно, что есть чему поучиться. В одном проекте мы потратили много времени, просто определив, что именно мы имеем в виду, когда говорим о полете. Это может показаться тривиальным, но это не так: рейс, который представлен номером рейса, или поездка между двумя аэропортами, или какие пассажиры покупают билеты, включая пересадку? Не соглашаясь с тем, что мы имели в виду под этим термином, мы обычно говорили о очень разных концепциях и данных, хотя на первый взгляд это звучало так, как если бы мы говорили об одном и том же.

Еще одна проблема - сделать неявные знания явными и передать их от экспертов предметной области специалистам по данным. Когда вы спрашиваете специалиста по предметной области для описания данных, они чаще всего дают вам «наиболее правильный ответ». Это пропускает все неявные предположения и исключения, которые включены в данные. Очень простой пример - наличие повторяющихся строк в базе данных. Все, кто уже работает с данными, знают эту общую информацию и автоматически отфильтровывают дубликаты. Но они часто забывают, что им нужно было научиться этому в первую очередь, и, возможно, они даже больше не осознают, что применяют это. Это означает, что они забывают сообщить об этом сторонним исследователям данных!

Наконец, бывают случаи, когда люди не делятся некоторой информацией о данных, потому что они просто не знают ее. Что наиболее важно, они могут не осознавать этот пробел в своих знаниях.

Все это означает, что, даже работая в знакомой области, специалист по данным всегда должен проходить длительный процесс понимания данных, чтобы подготовить их к анализу. Это включает в себя формулирование явных гипотез о данных и проверку этих гипотез путем их профилирования (например, путем просмотра сводной статистики или ее визуализации). Мы также сочли полезным записать наше понимание данных на простом английском языке и / или в виде псевдокода как можно более подробно. Формулирование явных определений и утверждений эффективно для быстрого выявления любых недоразумений и позволяет нам создать общий словарный запас с нашими сотрудниками и проверить точность нашего понимания с помощью экспертов в предметной области.

Резюме

Готовность данных - ключ к успеху любого проекта в области науки о данных. Недостаточно того, что кто-то говорит, что есть какие-то данные, и они их понимают. Специалист по данным, анализирующий данные, должен иметь доступ к данным и быть уверенным в своем понимании их. Процесс достижения этой точки, как и любая сложная задача, часто следует закону Хофштадтера; это всегда занимает больше времени, чем вы ожидаете, даже если принять во внимание закон Хофштадтера.

Структура готовности данных предлагает язык для планирования, связи и отслеживания процесса подготовки данных для анализа. Это позволяет нам определять прогресс в проекте по науке о данных, помимо результатов моделирования, и дает нам лицензию на выделение необходимого количества времени и ресурсов для подготовки данных. Мы обнаружили, что использование этой структуры очень полезно при оценке наших проектов в области науки о данных.