Процесс обработки данных

Чтобы эффективно создавать интеллектуальные приложения на основе предиктивной аналитики, мы используем Data Science Process — гибкую итеративную модель разработки. Инструмент поощряет командное сотрудничество и обучение, предлагая, как командные роли работают вместе. Инициативы в области науки о данных будут реализованы с использованием лучших практик и структур компании и других лидеров отрасли. Это сделано для того, чтобы компании в полной мере осознали преимущества своих программ аналитики.

Важность жизненного цикла машинного обучения

Каждый человек, участвующий в инициативах компании в области науки о данных, должен знать о жизненном цикле машинного обучения, от бизнес-менеджеров до инженеров. Проекты следуют этому циклу от замысла до завершения. Он обеспечивает высокоуровневое представление структуры всего проекта по науке о данных, что приводит к реальной практической ценности для бизнеса. Когда какой-либо из этих шагов не выполняется точно, будут представлены вводящие в заблуждение идеи или модели.

Этапы жизненного цикла машинного обучения

1. Деловое понимание

2. Понимание данных

3. Подготовка данных

4. Моделирование

5. Оценка

6. Развертывание

7. Прием клиентов

Понимание бизнеса

1. Определить цели. Привлеките своих клиентов и других заинтересованных лиц к пониманию и выявлению бизнес-проблем. Определите бизнес-цели, которых можно достичь с помощью методов обработки данных.

2. Определите источники данных: проанализируйте соответствующие данные, которые помогут вам определить цели проекта.

Понимание данных

1. Принимать данные

2. Изучите данные

3. Настройте конвейер данных

Подготовка данных

Разработка функций

Функции создаются путем включения, агрегирования и преобразования необработанных переменных. Чтобы иметь возможность понять, что движет моделью, вам необходимо понять, как функции связаны друг с другом и как алгоритмы машинного обучения должны использовать эти функции. Для этого шага требуется исследование данных и знание предметной области. Находя и включая информативные переменные, а также избегая слишком большого количества несвязанных переменных, проектирование признаков является балансирующим действием. Информативные переменные улучшают результаты; несвязанные переменные вносят в модель шум. Также важно генерировать эти функции для любых новых данных, полученных во время скоринга. Таким образом, формирование этих признаков зависит от данных, доступных на момент оценки.

Моделирование

· Перекрестная проверка набора данных

· Построить модели, используя набор обучающих данных.

Оцените обучение и набор тестовых данных. Внедрите набор конкурирующих алгоритмов машинного обучения, а также различные параметры настройки (называемые анализом параметров), направленные на получение ответа на интересующий вопрос.

Проанализируйте показатели успеха альтернативных решений, чтобы определить «лучшее» решение.

Оценка

· Решение контрольной точки: оцените, подходит ли модель для производства.

Интерпретация модели. Проанализируйте поведение модели в целом или отдельные прогнозы на своем локальном компьютере.

· Оцените справедливость своих прогнозов с помощью модели. Благодаря этому процессу вы узнаете больше о справедливости в машинном обучении.

Развертывание

1. Настройте пакетную или API-систему прогнозирования

2. Процесс моделирования документа для воспроизводимости

3. Создайте план мониторинга и обслуживания модели

Прием клиентов

Доработайте результаты проекта: убедитесь, что конвейер, модель и их развертывание в производственной среде соответствуют требованиям заказчика.