Крупномасштабные группы специалистов по обработке и анализу данных могут иметь несколько различных ролей и обязанностей по управлению операциями машинного обучения.

Не было ничего под названием MLOps пять лет назад. Но теперь это неотъемлемая часть любого проекта по науке о данных.

MLOps относится к практике применения принципов DevOps к системам машинного обучения (ML). MLOps помогает поддерживать бесшовную интеграцию между разработкой и развертыванием моделей машинного обучения в крупномасштабных проектах по науке о данных.

В большинстве проектов эксплуатационные аспекты огромны по сравнению с реальным построением модели. Таким образом, часто требуется несколько ролей, отличных от специалистов по данным.

В зависимости от размера организации и характера проекта группы специалистов по обработке и анализу данных могут иметь одну или несколько из этих ролей. В малых и средних командах их обязанности также часто размыты. Тем не менее, крупные фирмы в разумной степени управляют отдельными ролями и обязанностями.

Этот пост может помочь вам различать разные роли и их обязанности. Если вы только начинаете свою карьеру в науке о данных или надеетесь переключиться на другую часть, этот пост также может помочь вам решить, на каком наборе навыков сосредоточиться.

Бизнес-аналитик или предметный эксперт

Большинство людей не понимают, что бизнес-аналитики (BA) являются частью команды специалистов по обработке и анализу данных. Тем не менее, их вклад является наиболее важной частью операций машинного обучения.

Они играют роль переводчика между заинтересованными сторонами бизнеса и технической командой. Они специализируются на разговоре на языке обоих миров.

Бизнес-аналитики помогают технической команде разбить бизнес-проблему на практические задачи машинного обучения. Кроме того, они помогают внешним заинтересованным сторонам сообщать о сроках, ходе и достижениях проекта.

Бизнесмены редко программируют, но отлично разбираются в данных. Они тратят большую часть своего времени на подготовку полезной документации и презентаций. Они очень хороши в планировании и управлении проектами.

На мой взгляд, наиболее отличительной чертой успешных бизнес-аналитиков является их умение рассказывать истории. Если вам нравится рассказывать истории и творчески передавать сообщения, эта роль может оказаться для вас фантастической.

Аналитик данных

Аналитики данных (DA) очень похожи на бизнес-аналитиков. Но DA больше сосредоточены на технических аспектах, чем BA.

Основная обязанность аналитиков данных состоит в том, чтобы делать выводы из данных.

По большей части они тратят время на изучение данных с разных сторон. DA меньше беспокоятся о моделях машинного обучения и их внедрении в производство. Это потому, что им нужно быть непредвзятыми, чтобы извлечь ценную информацию. Таким образом, эта отстраненность помогает им не вертеться вокруг тривиального решения, которое не приносит пользы.

Тем не менее, их работа является квинтэссенцией в решении правильной проблемы.

Инструментарий DA неполный без Excel (или любого другого программного обеспечения для работы с электронными таблицами). Современные DA также заботятся о платформах самообслуживания для аналитики, таких как Tableau и PowerBI. В зависимости от потребностей проекта, некоторые DA должны обладать обширными знаниями в области SQL, а другие могут иметь опыт в таких технологиях, как программное обеспечение ГИС.

Большинство DA знают, как программировать. Они используют либо R, либо Python для исследовательского анализа данных.



Инженеры-программисты и разработчики

Инженеры-программисты помогают создать модель машинного обучения.

Не у всех есть навыки, чтобы открыть блокнот Jupyter и запустить скрипты Python, чтобы использовать прогноз машинного обучения. Они бы использовали его, если бы вместо этого он был обернут в дружественный пользовательский интерфейс.

Кроме того, инженеры-программисты беспокоятся о ряде других вещей, которые не волнуют обычных специалистов по данным. К ним относятся контроль доступа к ПО, сбор статистики использования, кроссплатформенная интеграция, хостинг и т. д.

Некоторый уровень грамотности данных предпочтителен для разработчиков программного обеспечения, работающих в проекте машинного обучения. Тем не менее, не все разработчики программного обеспечения преуспевают в аспектах построения моделей.

С другой стороны, разработка программного обеспечения имеет свой собственный набор навыков. Они создают веб-приложения с такими фреймворками, как Django и Flask. Большинство инженеров-программистов также предпочитают интерфейсные фреймворки, такие как React и Vue. React позволяет создавать кроссплатформенные приложения для iOS, Android и десктоп. Но в некоторых крупных командах есть и нативные мобильные разработчики.



Архитекторы данных и машинного обучения

Архитекторы машинного обучения беспокоятся обо всем жизненном цикле проекта машинного обучения. Они создают структуру проекта и стратегии для их поэтапного выполнения. Они также пытаются предусмотреть любые риски для завершения проекта и поддержания модели в производстве.

Они также служат связующим звеном между учеными, инженерами и разработчиками программного обеспечения. Архитекторы помогают команде выбрать, следует ли использовать локальную реализацию, хранилище данных или облачное озеро данных. Они помогают паре выбрать правильную стратегию хранения и извлечения данных для оптимальной производительности и стоимости.

Архитекторы данных хорошо разбираются в различных инструментах и ​​технологиях, потому что в их обязанности входит оценка и выбор правильного. Таким образом, они обычно обладают более глубоким пониманием технологий передачи данных, алгоритмов и интерфейсных веб-фреймворков.

Инженеры данных

Инженеры данных — это активаторы платформы. Они гарантируют, что соответствующие данные доступны для проекта машинного обучения, а их качество соответствует требуемым стандартам.



Инженеры данных в основном тратят свое время на создание конвейеров данных. Конвейеры данных обеспечивают бесперебойный поток данных от источников, предварительное преобразование данных и загрузку их в соответствующие хранилища данных. Этот процесс широко известен как ETL.

Инженеры данных используют такие инструменты, как Airflow и Prefect, для построения конвейеров ETL. Они помогают организовывать различные отдельные задачи вместе и запускать их по расписанию.



Они также играют важную роль в таких концепциях, как озеро данных, хранилище данных. Они хорошо разбираются в технологиях баз данных, таких как язык SQL, Postgres, MySQL и т. д.

Инженеры MLOps

Инженеры MLOps обеспечивают автоматизацию развертывания модели в производственных системах. Уровень автоматизации может быть разным в разных организациях.

Задача инженеров MLOps состоит в том, чтобы взять модель у специалиста по данным и сделать ее доступной для программного обеспечения, которое ее использует. Специалисты по данным часто используют записные книжки Jupiter или файлы сценариев для создания, тестирования и проверки своих моделей машинного обучения. С другой стороны, разработчики программного обеспечения ожидают, что модель машинного обучения будет доступна через вызываемые API, такие как REST.



MLOPs немного отличается от DevOps. Это связано с тем, что проекты машинного обучения носят экспериментальный характер, тогда как программные проекты являются окончательными (по большей части). Кроме того, тестирование модели машинного обучения кардинально отличается от тестирования программного обеспечения. Тестирование в науке о данных включает в себя качество прогнозирования и ряд других уникальных задач.

Инженеры MLOps обычно отлично разбираются в конвейерах данных. Они тоже, как и дата-инженеры, используют для автоматизации задач такие технологии, как Airflow и Prefect. Относительно новая технология, помогающая в MLOps, — MLFlow.

Инженеры по оптимизации

Большинство организаций тратят большую часть своего бюджета на конвейеры данных, хранение и обучение моделей. Однако библиотеки с низким кодом, такие как scikit Learn, не оптимизированы для другого оборудования. Они созданы для повседневного использования.

Для небольших проектов это вообще не имеет значения. Однако по мере масштабирования затраты на инфраструктуру растут в геометрической прогрессии. Здесь на помощь приходят инженеры по оптимизации.

Задача инженеров по оптимизации состоит в том, чтобы преобразовать модель, созданную с помощью библиотек с низким кодом, для лучшей работы на выбранной аппаратной системе. Они знают, как преобразовать их в байт-коды LLVM, запустить их параллельно и многое другое.



Специалисты по данным

Что такое проект по науке о данных без специалиста по данным? Они являются центральной фигурой в любом проекте машинного обучения.

Этот пост в основном посвящен аспектам науки о данных, отличным от построения моделей, тестирования и оценки (например, MLOps). Однако этот список неполный без упоминания специалистов по обработке и анализу данных.

Их обязанность — найти правильную модель машинного обучения, которая решает бизнес-задачу. Они пробуют разные алгоритмы, настраивают их на оптимальные гиперпараметры, оценивают и проверяют результаты по различным критериям.

Однако, если команда небольшая, специалисты по данным берут на себя большую часть других обязанностей. В небольших подразделениях специалисты по данным также являются архитекторами данных и инженерами данных.

Таким образом, термин ученый данных как бы включает в себя все другие роли, описанные выше.

Последние мысли

Построение алгоритмов — это лишь крошечная часть проекта по науке о данных. Загадка имеет много других сложных работ, чтобы быть полным решением.

В небольших проектах один человек или несколько специалистов по данным могут построить модель машинного обучения и реализовать ее с помощью таких технологий, как Streamlit.

Однако более крупным организациям требуется множество других ролей, специализирующихся на конкретном аспекте общей бизнес-задачи. Мы решаем задачи проектов по науке о данных, которые выходят за рамки построения моделей, как MLOps.

В этой статье мы обсудили восемь ролей, в том числе роль специалиста по данным, которые очень распространены в MLOps. Вместе с каждым из них мы обсудили их обязанности и необходимый набор навыков.

Спасибо за прочтение, передайте мне привет в LinkedIn, Twitter и Medium.

Еще не являетесь участником Medium? Пожалуйста, используйте эту ссылку, чтобы стать участником, потому что без каких-либо дополнительных затрат для вас я получаю небольшую комиссию за рекомендацию вас.