Развертывание решений для машинного обучения

№ 2 в серии «Развитие науки о данных»

Работая над данными, они преследуют две основные цели:

Решить бизнес-проблему с учетом рекомендаций и ограничений, предоставленных бизнесом
Передайте решение тем, кто будет им управлять

Этот подход имеет ряд существенных недостатков, а именно:

Специалисты по данным не поддерживают решение — у них нет шкуры на кону
Процесс индустриализации идет медленно и может привести к моделям, которые больше не актуальны и, возможно, совершенно неверны.
Нет гарантии, что недавно развернутая модель лучше или обеспечивает какую-либо ценность для бизнеса.

Необходимость «оставаться на связи»

Когда специалисты по данным не могут поддерживать связь со своим продуктом/решением, оно теряет доверие, жизнеспособность, ремонтопригодность и возможность развития. Итак, как это происходит? Я обсужу это, а потом расскажу, как с этим бороться.

В традиционной среде науки о данных специалист по данным или группа специалистов по данным будут собираться вместе и выбирать подход к решению, применять стандартизированный «рабочий процесс» для решения проблемы, запускать многочисленные модели на определенном наборе данных и затем решить, когда у них есть лучшее решение, основанное на одной или нескольких метриках.

Запуск модели в производство

Затем эта модель, код и все остальное передается инженеру машинного обучения, инженеру данных или инженеру-программисту — в зависимости от организации. После передачи, а также в зависимости от знакомства инженера с проблемой, математикой и языком, на котором была создана модель, модель запускается в производство.

Изготовление модели — это сложно

Внедрение модели в производство может быть трудоемким процессом, и с точки зрения инженера данных ему потребуется:

Переписать код на другой язык (изобретать велосипед)
Отладка кода без контекста науки о данных (некачественные результаты)
Потратьте время на изучение и понимание алгоритмов (время, не связанное с разработкой)
Изобретайте велосипед (повторяя себя)
Добавьте компоненты, которые не будут рассматриваться не инженерами (например, ведение журнала, обработка исключений и многое другое)

В то же время это приводит к некоторым проблемам решения:

Потеря контекста, который может быть неявным в коде
Предоставление результатов, которые больше не действительны
Становится трудно обновлять, когда решение расходится (становится недействительным, когда оно когда-то было)
Нелегко понять специалистам по данным
Доставляется после того, как его полезность прошла

Точно так же, когда ученый данных пытается предоставить решение без партнерства с инженером данных, некоторые аспекты могут быть «отброшены»:

Специалисты по обработке и анализу данных не являются инженерами данных, поэтому решения могут быть еще не готовы — подумайте о буханке хлеба, которая испечена и выглядит великолепно снаружи, но остается сырой и рыхлой внутри.
Соблюдение SLA и более тонкое взаимодействие с системой
Безопасность, связанная с решением
Архитектурные качества (надежность, доступность и т. д.), которые нельзя наблюдать или учитывать
Корректность (качество, вероятность ошибок и т. д.) кода может быть низкой.

Устранение пробелов

В обоих этих сценариях существуют серьезные пробелы, поэтому ни один из них не идеален. Но найти того одноглазого фиолетового единорога с крыльями летучей мыши, который питается исключительно голубой малиной, выращенной в Атлантиде, который может сделать это за вас, невозможно.

Дело в том, что запуск модели машинного обучения в производство — это не работа инженера и не работа специалиста по данным. Хотя я выделил некоторые из проблем, которые возникают, когда специалист по данным развертывает решение или когда в этом участвует инженер, это лишь некоторые из проблем, которые могут возникнуть и возникнут. Правда в том, что это работа, которая принадлежит команде. Это процесс, который должен быть непрерывным, должен быть автоматизирован и должен интегрироваться в более крупную систему.

Мы в Hashmap занимаемся созданием пространства решений для включения MLOps, подходящего для вашей организации. Наши специалисты по обработке и анализу данных, инженеры и архитекторы будут работать с вами над созданием решения, подходящего для вашей организации.

Охватывая стратегические оценки и тактические реализации, мы сотрудничаем с нашими клиентами, чтобы предоставить рекомендации, указания и советы, которые помогут лучше позиционировать решения для данных и аналитики и добиваться результатов в этом новом десятилетии.

Пожалуйста, свяжитесь с нами здесь, чтобы узнать больше о том, как мы можем помочь вам развить ваше видение данных и аналитики на 2020 год.

Это часть серии Развитие науки о данных.

Не стесняйтесь делиться на других каналах и будьте уверены и следите за всем новым контентом от Hashmap здесь. Чтобы послушать непринужденную беседу обо всем, что связано с обработкой данных и облачными технологиями, посмотрите подкаст Hashmap Hashmap on Tap, а также в Spotify, Apple, Google и других популярных потоковых приложениях.

Если вам понравилось это читать, некоторые из других недавних историй Джона приведены ниже:

Создание конвейеров машинного обучения
Kubernetes с Argo для победыmedium.com

Безопасное использование соединителя Python Snowflake в функции Azure
Зачем и как использовать Key Vaultmedium.com

Использование DBT для выполнения конвейеров ELT в Snowflake
DevOps и DataOps для Snowflake с DBT и Azure DevOpsmedium.com

Оркестрация и дизайн DAG в Apache Airflow — два подхода
Оркестрация процессов ETL, также известных как конвейеры данных, — это концептуально простое упражнение, это реализация, которая… средняя .com

Джон Авен, доктор философии, является техническим директором компании Hashmap, предоставляющей решения для данных, облачных вычислений, Интернета вещей и AI/ML, а также предоставляющей консультационные услуги по всему миру. промышленности с группой инновационных технологов и экспертов в данной области, которые ускоряют получение ценных бизнес-результатов для наших клиентов. Будьте уверены и свяжитесь с Джоном на LinkedIn, чтобы узнать больше о перспективах и идеях для ускорения ваших бизнес-результатов, основанных на данных.