Если вы следовали мнению экспертов в области науки о данных и прогнозной аналитики, вы, вероятно, натолкнулись на решительную рекомендацию начать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, самым разумным шагом будет поиск низко висящих плодов, а затем масштабирование для получения опыта в более тяжелых операциях.

Совсем недавно мы говорили о платформах машинного обучения как услуги (MLaaS). Главный вывод из текущих тенденций прост. Машинное обучение становится все более доступным для среднего и малого бизнеса, поскольку постепенно превращается в товар. Ведущие поставщики - Google, Amazon, Microsoft и IBM - предоставляют API-интерфейсы и платформы для выполнения основных операций машинного обучения без частной инфраструктуры и глубоких знаний в области науки о данных. На ранних этапах наиболее разумным шагом будет использование этого бережливого и бережливого подхода. По мере расширения возможностей аналитики структура команды может быть изменена для повышения скорости работы и расширения аналитического арсенала.

Как реализовать этот поэтапный подход? На этот раз мы поговорим о структурах команд по анализу данных и их сложности.

Структуры групп специалистов по анализу данных

Чтобы начать заниматься наукой о данных и прогнозной аналитикой, необходимо четкое понимание того, как инициатива будет внедряться, поддерживаться и в дальнейшем масштабироваться с точки зрения структуры команды. Мы рекомендуем рассмотреть три основных командных состава, соответствующих различным этапам внедрения машинного обучения.

IT-ориентированная структура

Иногда нанять специалистов по обработке данных - не вариант, и вам необходимо задействовать уже имеющиеся в компании таланты. Основная аналитическая и руководящая роль будет заключаться в «бизнес-переводчике», обычно называемом главным аналитиком (CAO) или главным сотрудником по данным (CDO). Последний термин постепенно становится излишним, поскольку большинство процессов обработки данных перестраиваются в сторону прогнозной аналитики. Этот человек должен уметь возглавить инициативу. Мы рассмотрим позицию ниже более подробно.

Все остальное - подготовка данных, модели обучения, создание пользовательских интерфейсов и развертывание моделей в корпоративной ИТ-инфраструктуре - может в значительной степени управляться ИТ-отделом (если в вашей организации действительно есть полностью функционирующий внутренний ИТ-отдел). Этот подход довольно ограничен, но его можно реализовать с помощью решений MLaaS. Такие среды, как машинное обучение Azure или Amazon Machine Learning, уже оснащены доступными пользовательскими интерфейсами для очистки наборов данных, обучения моделей, их оценки и развертывания.

Например, Машинное обучение Azure поддерживает своих пользователей подробной документацией по низкому порогу входа. Это позволяет проводить быстрое обучение и раннее развертывание моделей даже без опытного специалиста по данным.

С другой стороны, решения MLaaS имеют свои ограничения с точки зрения методов машинного обучения и стоимости. Все операции, от очистки данных до оценки модели, имеют свою отдельную стоимость. А учитывая, что количество итераций для обучения эффективной модели невозможно оценить заранее, работа с платформами MLaaS влечет некоторую неопределенность бюджета.

Плюсы IT-ориентированной структуры:

  • Используйте новые инвестиции с помощью существующих ИТ-ресурсов
  • Вычислительная инфраструктура предоставляется и поддерживается внешней службой
  • Внутренние специалисты могут быть обучены для дальнейшей реализации потенциала прогнозной аналитики.
  • Уменьшено межведомственное управление, так как все операции выполняются внутри ИТ-отдела.
  • Меньше времени выхода на рынок для относительно простых задач машинного обучения, требующих одной или нескольких моделей.

Минусы IT-ориентированной структуры:

  • Ограниченные методы машинного обучения и процедуры очистки данных, предоставляемые этими сервисами.
  • За обучение, тестирование и прогнозирование моделей следует платить. Это влечет за собой неопределенность конечной стоимости прогноза, поскольку количество необходимых итераций невозможно оценить заранее.

Интегрированная структура

Благодаря интегрированной структуре группа по анализу данных фокусируется на подготовке наборов данных и обучении моделей, а ИТ-специалисты берут на себя ответственность за интерфейсы и инфраструктуру, поддерживающую развернутые модели. Сочетание опыта машинного обучения с ИТ-ресурсами - наиболее жизнеспособный вариант для постоянных и масштабируемых операций машинного обучения.

В отличие от ИТ-ориентированного подхода, интегрированный метод требует наличия в команде опытного специалиста по данным и тщательного набора персонала заранее. Это обеспечивает лучшую эксплуатационную гибкость с точки зрения доступных методов. Помимо комплексных и все же ограниченных услуг, вы можете использовать более глубокие инструменты и библиотеки машинного обучения, такие как Tensor Flow или Theano, которые предназначены для исследователей и экспертов с опытом работы в области науки о данных. Благодаря такому распределению усилий вы можете решать узкоспециализированные бизнес-задачи и выбирать между решениями машинного обучения как услуга и индивидуализированными решениями машинного обучения.

Плюсы интегрированной структуры:

  • Использование существующих ИТ-ресурсов и инвестиций
  • Специалисты по данным сосредоточены на инновациях
  • Использование всего потенциала приложений машинного обучения как услуги, так и настраиваемых приложений машинного обучения
  • Начните с одного или двух специалистов по обработке данных, затем обучите и привлеките к работе больше местных экспертов.
  • Использование пользовательских комбинаций моделей (ансамблевых моделей), которые дают более точные или более широкие прогнозы

Минусы интегрированной структуры:

  • Вычислительная инфраструктура требуется в случае использования кастомного машинного обучения.
  • Управление кросс-силосом требует значительных усилий
  • Значительные инвестиции в привлечение талантов в области науки о данных
  • Проблемы привлечения и удержания талантов в области науки о данных

Специализированный отдел науки о данных

Чтобы сократить усилия по управлению и создать всеобъемлющую структуру машинного обучения, вы можете запустить весь рабочий процесс машинного обучения в независимом отделе обработки и анализа данных. Такой подход влечет за собой максимальную стоимость. Все операции, от очистки данных и обучения модели до создания интерфейсных интерфейсов, выполняются специальной группой по анализу данных. Это не обязательно означает, что все члены команды должны иметь опыт работы в области науки о данных, но они должны приобрести технологическую инфраструктуру и навыки управления услугами.

Специализированная модель структуры помогает решать сложные задачи науки о данных, которые включают исследования, использование нескольких моделей машинного обучения, адаптированных к различным аспектам принятия решений, или нескольких сервисов, поддерживаемых машинным обучением. В случае крупных организаций специализированные группы по обработке и анализу данных могут дополнять различные бизнес-единицы и работать в своих конкретных областях аналитических интересов.

Большинство успешных компаний, основанных на искусственном интеллекте, работают со специализированными командами по анализу данных. Очевидно, что, поскольку они созданы и настроены для решения конкретных задач, все они очень разные. Структура команды в Airbnb Data Science - одна из самых интересных. Вы можете посмотреть этот увлекательный доклад специалиста по данным Airbnb Мартина Дэниела, чтобы лучше понять, как компания выстраивает свою культуру, или прочитать сообщение в блоге своего бывшего руководителя службы поддержки, но вкратце, вот основные принципы, которые они применяют. :

Эксперимент. Найдите способы использовать данные в новых проектах, используя установленный процесс обучения-планирования-тестирования-измерения.

Демократизация данных. Масштабируйте свою команду по анализу данных на всю компанию и даже на клиентов.

Измерьте влияние. Оцените, какое место команды DS играют в вашем процессе принятия решений, и отдайте им должное.

Плюсы специализированного отдела data science:

  • Централизованное управление наукой о данных и расширенные возможности решения проблем
  • Реализация всего потенциала приложений машинного обучения как услуги, так и настраиваемых приложений машинного обучения.
  • Решение сложных задач прогнозирования, требующих глубокого исследования или создания фабрик сегментированных моделей (которые автоматически работают в разных сегментах и ​​бизнес-единицах)
  • Создание полнофункциональной игровой площадки для обработки и анализа данных для стимулирования инноваций
  • Большой потенциал масштабируемости

Минусы специализированного отдела data science:

  • Создание и обслуживание сложной вычислительной инфраструктуры
  • Крупные инвестиции в привлечение талантов в области науки о данных
  • Проблемы привлечения и удержания талантов в области науки о данных

Независимо от того, какую структуру вы выберете, чтобы начать создавать команды по анализу данных, наличие подходящего таланта имеет решающее значение. Кого вам следует искать?

Роли специалистов по анализу данных

Давайте поговорим о наборах навыков специалиста по данным. К сожалению, термин специалист по данным расширился и стал слишком расплывчатым в последние годы. После того, как наука о данных оказалась в центре внимания бизнеса, нет единого мнения о том, каков набор навыков специалиста по данным. Мэтью Мэйо, специалист по анализу данных и заместитель редактора KDNuggets, возражает: «Когда я слышу термин специалист по данным, я склонен думать о единороге и обо всем, что он влечет за собой, и затем помните, что их не существует, и что настоящие специалисты по данным играют множество различных ролей в организациях с разным уровнем деловых, технических, межличностных, коммуникативных и предметных навыков. "

Это правда. Трудно найти единорогов, но можно вырастить их из людей, обладающих нишевым опытом в области науки о данных. При приеме на работу специалистов по машинному обучению мы в AltexSoft учитываем следующие навыки работы с данными:

Как вы увидите ниже, в экосистеме науки о данных есть много ролей, и в Интернете предлагается множество классификаций. Мы поделимся с вами тем, что предложил Майкл Хохстер из Stitch Fix. Майкл определяет два типа специалистов по обработке данных: тип A и тип B.

Тип A означает анализ. Этот человек - статистик, разбирающий данные, не обязательно обладающий хорошими знаниями в области программирования. Специалисты по обработке данных типа A выполняют очистку данных, прогнозирование, моделирование, визуализацию и т. Д.

Тип B означает строительство. Эти люди используют данные в производстве. Это отличные инженеры-программисты с некоторым опытом работы в области статистики, которые создают системы рекомендаций, варианты использования для персонализации и т. Д.

Редко один эксперт попадает в одну категорию. Но понимание этих двух функций науки о данных может помочь вам понять роли, которые мы описали далее.

Имейте в виду, что даже профессионалы с таким гипотетическим набором навыков обычно имеют свои сильные стороны, которые следует учитывать при распределении ролей в команде. В большинстве случаев приобретение талантов влечет за собой дальнейшее обучение в зависимости от их опыта.

Но люди и их роли - разные вещи. Например, если ваша командная модель является интегрированной, человек может совмещать несколько ролей. Итак, не будем обращать внимания на то, сколько настоящих экспертов у вас может быть, и наметим сами роли. Очевидно, что многие наборы навыков в разных ролях могут пересекаться.

Директор по аналитике / директор по данным. В нашем техническом документе по машинному обучению мы подробно обсудили эту ключевую роль лидера. CAO, бизнес-переводчик, устраняет разрыв между наукой о данных и экспертизой в предметной области, выступая одновременно в роли дальновидного и технического лидера. Вы можете получить лучшее представление, посмотрев визуализацию ниже.

Предпочтительные навыки: наука о данных и аналитика, навыки программирования, знание предметной области, лидерские и дальновидные способности

Аналитик данных. Роль аналитика данных подразумевает надлежащий сбор и интерпретацию данных. Аналитик гарантирует актуальность и полноту собранных данных, а также интерпретирует результаты аналитики. Некоторым компаниям, таким как IBM или HP, также требуется, чтобы аналитики данных обладали навыками визуализации, чтобы преобразовывать отчуждающие числа в осязаемую информацию с помощью графики.

Желаемые навыки: R, Python, JavaScript, C / C ++, SQL

Бизнес-аналитик. Бизнес-аналитик в основном реализует функции CAO, но на операционном уровне. Это подразумевает преобразование бизнес-ожиданий в анализ данных. Если у вашего основного специалиста по данным не хватает знаний в предметной области, бизнес-аналитик преодолевает эту пропасть.

Желаемые навыки: визуализация данных, бизнес-аналитика, SQL

Специалист по анализу данных (не единорог), . Чем занимается специалист по анализу данных? Предполагая, что вы не охотитесь на единорогов, специалист по анализу данных - это человек, который решает бизнес-задачи, используя методы машинного обучения и интеллектуального анализа данных. Если это слишком нечетко, роль можно сузить до подготовки и очистки данных с дальнейшим обучением и оценкой модели.

Желаемые навыки: R, SAS, Python, Matlab, SQL, noSQL, Hive, Pig, Hadoop, Spark

Чтобы избежать путаницы и сделать поиск специалиста по данным менее трудоемким, их работа часто делится на две роли: инженер по машинному обучению и журналист данных.

Инженер по машинному обучению сочетает навыки разработки программного обеспечения и моделирования, определяя, какую модель использовать и какие данные следует использовать для каждой модели. Вероятность и статистика - также их сильные стороны. Все, что входит в обучение, мониторинг и поддержку модели, - это работа инженера машинного обучения.

Желаемые навыки: R, Python, Scala, Julia, Java

Журналисты данных помогают понять вывод данных, помещая их в правильный контекст. Им также поручено формулировать бизнес-проблемы и преобразовывать результаты аналитики в убедительные истории. Хотя они должны иметь опыт программирования и статистики, они должны быть в состоянии представить идею заинтересованным сторонам и представлять группу данных с теми, кто не знаком со статистикой.

Желаемые навыки: SQL, Python, R, Scala, Carto, D3, QGIS, Tableau

Архитектор данных. Эта роль важна для работы с большими объемами данных (как вы уже догадались, Big Data). Однако, если вы не полагаетесь исключительно на облачные платформы MLaaS, эта роль имеет решающее значение для хранения данных, определения архитектуры базы данных, централизации данных и обеспечения целостности из разных источников. Для больших распределенных систем и больших наборов данных архитектор также отвечает за производительность.

Желаемые навыки: SQL, noSQL, XML, Hive, Pig, Hadoop, Spark

Инженер по данным. Инженеры внедряют, тестируют и обслуживают компоненты инфраструктуры, которые проектируют архитекторы данных. Реально роль инженера и роль архитектора можно совместить в одном человеке. Набор навыков очень близок.

Желаемые навыки: SQL, noSQL, Hive, Pig, Matlab, SAS, Python, Java, Ruby, C ++, Perl

Инженер по визуализации приложений / данных. По сути, эта роль необходима только для специальной модели науки о данных. В других случаях инженеры-программисты приходят из ИТ-подразделений, чтобы предоставлять результаты науки о данных в приложениях, с которыми сталкиваются конечные пользователи. И очень вероятно, что разработчик приложений или другие разработчики из интерфейсных модулей будут контролировать визуализацию данных конечного пользователя.

Желаемые навыки: программирование, JavaScript (для визуализации), SQL, noSQL

Сборка и масштабирование команды

Первоначальная проблема приобретения талантов в области науки о данных, помимо общей нехватки экспертов, заключается в ожидании высоких зарплат. Согласно исследованию O’Reilly Data Science Salary Survey 2017, средняя годовая базовая зарплата составляет 90 000 долларов, в то время как в США эта цифра достигает 112 000 долларов (на 6,5 процента больше, чем в прошлом году). Эти цифры значительно различаются в зависимости от географии, конкретных технологических навыков, размера организации, пола, отрасли и образования. Если вы решите нанять квалифицированных экспертов по аналитике, к дальнейшим проблемам также относятся вовлеченность и удержание.

Интеллектуальное любопытство в сочетании с высоким спросом побуждает организации привлекать специалистов по данным к творческим и исследовательским проектам. По этим причинам ориентированная на ИТ структура команды, которая использует существующие источники, является многообещающей альтернативой на начальных уровнях внедрения машинного обучения. Таким образом, инженеры могут приобрести некоторые аналитические навыки с помощью решений ML-as-a-service с дружественными интерфейсами.

Еще один способ решить проблему нехватки талантов и бюджетных ограничений - разработать доступные платформы машинного обучения, которые будут приветствовать новых людей из ИТ и обеспечивать дальнейшее масштабирование. Даже если невозможно нанять опытных специалистов по данным, некоторые организации преодолевают этот барьер, выстраивая отношения с образовательными учреждениями. В США около десятка докторов наук. программы с упором на науку о данных и многочисленные учебные лагеря с курсами продолжительностью около 12 месяцев.

Как интегрировать команду специалистов по анализу данных в вашу компанию

Ранее мы представили три типа структур, два из которых предполагают, что команда DS создается путем объединения существующих инженерных усилий с наукой о данных. Третий специализированный подход влечет за собой нечто более сложное, например создание совершенно нового отдела, который необходимо организовать, контролировать, контролировать и управлять. Этот огромный организационный сдвиг предполагает, что у новой группы должны быть определенные роли и обязанности - все по отношению к другим проектам и объектам. Итак, как интегрировать специалистов по анализу данных в свою компанию?

Согласно классификации Accenture существует шесть вариантов организации группы по анализу данных:

1. Децентрализованный. Это наименее скоординированный вариант, когда аналитические усилия используются время от времени в рамках всей организации, а ресурсы распределяются в рамках функций каждой группы. Это часто случается в компаниях, когда экспертиза в области науки о данных появилась органически, что часто приводит к разрозненным стремлениям, отсутствию стандартизации аналитики и, как вы уже догадались, к децентрализованной отчетности.

2. Функциональный. Здесь большинство специалистов по аналитике работают в одном отделе, где аналитика наиболее актуальна: часто это маркетинг или цепочка поставок. Этот вариант также практически не требует координации, и экспертные знания не используются стратегически в масштабах всего предприятия.

3. Консультации. В этой структуре аналитики работают вместе как одна группа, но их роль в организации заключается в консультировании, что означает, что разные отделы могут «нанимать» их для выполнения определенных задач. Это, конечно, означает, что ресурсов почти нет - есть специалисты или нет.

4. Централизованно. Эта структура, наконец, позволяет вам использовать аналитику в стратегических задачах - одна команда специалистов по анализу данных обслуживает всю организацию в различных проектах. Это не только обеспечивает команде DS долгосрочное финансирование и лучшее управление ресурсами, но и способствует карьерному росту. Единственная ловушка здесь - опасность превращения аналитической функции во вспомогательную.

5. Центр передового опыта (CoE). Если вы выберете этот вариант, вы по-прежнему сохраните централизованный подход с единым корпоративным центром, но специалисты по обработке данных будут распределены по разным подразделениям в организации. Это наиболее сбалансированная структура - аналитическая деятельность очень скоординирована, но эксперты не удаляются из бизнес-единиц.

6. Федеративный. Эта модель актуальна, когда в компании есть высокий спрос на таланты аналитиков. Здесь вы нанимаете своего рода команду SWAT - группу аналитиков, которая работает из центра и решает сложные межфункциональные задачи. Остальные специалисты по данным распределены по модели Center of Excellence.

Помните, что ваша модель может меняться и развиваться в зависимости от потребностей вашего бизнеса: хотя сегодня вы можете довольствоваться данными специалистов, работающих в их функциональных подразделениях, завтра Центр передового опыта может стать необходимостью.

Дополнительные рекомендации по созданию высокопроизводительной команды по обработке и анализу данных

Тратьте меньше времени на найм людей для каждой должности и сосредоточьтесь на понимании того, какие роли может выполнять один специалист по данным. Для стартапов и небольших организаций нет необходимости четко определять обязанности.

Стимулируйте межфункциональное сотрудничество. Дизайнеры, маркетологи, менеджеры по продукту и инженеры - все должны тесно сотрудничать с командой DS.

Практика встраивания. Как мы упоминали выше, набор и удержание талантливых специалистов в области науки о данных требует некоторых дополнительных действий. Один из них - встраивание - размещение специалистов по данным для работы в бизнес-отделах, чтобы они могли централизованно отчитываться, лучше сотрудничать и помогать им чувствовать себя частью общей картины.

Создайте командную среду, прежде чем нанимать команду. Это означает, что ваши менеджеры по продуктам должны знать о различиях между данными и программными продуктами, иметь адекватные ожидания и учитывать различия в результатах и ​​сроках. Менеджеры проектов должны обладать достаточными техническими знаниями, чтобы понимать эти особенности. Кроме того, вы можете начать поиск специалистов по данным, которые могут сразу же выполнить эту роль.

Важная вещь, о которой нужно знать

Если вы спросите экспертов AltexSoft по науке о данных, каково текущее состояние искусственного интеллекта / машинного обучения в различных отраслях, они, вероятно, укажут на две основные проблемы: 1. Руководители бизнеса все еще должны быть убеждены в том, что существует разумная окупаемость инвестиций в машинное обучение. 2. Если они убеждены и понимают ценностное предложение и рыночный спрос, им может не хватать технологических навыков и ресурсов, чтобы сделать продукты реальностью.

Эти препятствия в основном связаны с цифровой культурой в организациях. Эффективные процессы обработки данных заставляют руководителей высшего звена принимать горизонтальные решения. Прямые менеджеры с доступом к аналитике имеют большую операционную свободу принимать решения на основе данных, в то время как руководство высшего уровня контролирует стратегию. Это сокращает усилия руководства и, в конечном итоге, снижает риски принятия решений, основанных на интуиции. По сути, культурный сдвиг определяет конечный успех построения бизнеса, основанного на данных. Как утверждает McKinsey, установка корпоративной культуры, вероятно, самая сложная часть, а остальное - управляемое.

Первоначально опубликовано в техническом блоге AltexSoft. Как структурировать группу специалистов по анализу данных: ключевые модели и роли, которые следует учитывать »