Сравнение двух популярных платформ машинного обучения

AI & Analytics Engine от PI.EXCHANGE — это платформа автоматизированного анализа данных/машинного обучения (ML) без кода, предусматривающая демократизацию ИИ. Число игроков в области поставщиков автоматизированных AI-as-a-Service (AIaaS) без кода увеличивается с каждым днем, предоставляя широкий спектр возможностей, доступных пользователям, ищущим такие инструменты. Недавно к этому классу услуг присоединился Amazon SageMaker Canvas, разработанный Amazon Web Services (AWS).

В этой статье мы сравним возможности AI & Analytics Engine и SageMaker Canvas. В частности, мы будем сравнивать следующие функции:

  1. Импорт данных
  2. Подготовка данных / споры
  3. Выбор модели и обучение
  4. Результаты оценки модели
  5. Получение прогнозов от модели

Обзор Резюме

И SageMaker Canvas, и AI & Analytics Engine — это платформы машинного обучения без кода, предназначенные для использования нетехническими пользователями для создания, оценки и тестирования своих моделей с использованием собственных данных, а также для получения прогнозов от обученных моделей. Пользователи могут обучать модели классификации, регрессии и прогнозирования временных рядов.

Механизм искусственного интеллекта и аналитики предоставляет единый подключенный набор инструментов для сквозного пути, начиная с необработанных данных, и включает в себя подготовку данных, обучение модели, развертывание и мониторинг. С другой стороны, SageMaker Canvas — это инструмент, предназначенный исключительно для обучения моделей и прогнозирования, который является частью экосистемы AWS. Подключение нескольких инструментов AWS для создания сквозного конвейера — не совсем простой процесс.

Общие процессы как для SageMaker Canvas, так и для Engine показаны на изображении ниже:

В этой статье будут рассмотрены важные сходства и различия между функциями двух платформ. Давайте сначала начнем с пары основных отличий, а затем перейдем к подробному пошаговому обзору.

Отличие №1: Подготовка данных

Механизм искусственного интеллекта и аналитики больше подходит для помощи пользователям в выполнении самой сложной и трудоемкой задачи по созданию сквозного конвейера машинного обучения: импорте данных из разнородных источников и их подготовке с использованием широкого спектра преобразований данных (рецепт действия).

С другой стороны, при использовании SageMaker Canvas загружаемые данные должны быть достаточно чистыми. Единственное действие по подготовке данных, предоставляемое SageMaker Canvas, — это объединение наборов данных.

Если ваши данные должны быть подготовлены с большей гибкостью, вам придется полагаться на другие инструменты в экосистеме AWS, такие как AWS Glue DataBrew. Если вы используете это, вы должны запустить там конвейеры преобразования данных, экспортировать данные в Amazon S3, а затем импортировать данные в SageMaker Canvas из Amazon S3. Не невыполнимая задача, но в целом довольно трудоемкий процесс. Это не относится к AI & Analytics Engine. Engine обеспечивает беспрепятственную связь между подготовкой данных, проектированием функций и обучением модели. Следовательно, вы можете выполнять сквозной процесс, не переключаясь между инструментами.

Отличие № 2: Модели

Еще одно важное различие между SageMaker Canvas и Engine — это то, как существует понятие «Модель». С помощью SageMaker Canvas вы можете построить только одну модель для каждой задачи, определяемой выбором набора данных и целевого столбца. С другой стороны, с AI & Analytics Engine вы определяете задачу прогнозирования как «приложение», где вы можете выбирать данные и целевые столбцы. Затем приложение будет построено с разделением обучения/тестирования, где несколько моделей могут быть построены с использованием обучающей части и оценены на тестовой части, чтобы их можно было честно сравнивать.

Механизм искусственного интеллекта и аналитики также придает большее значение операциям машинного обучения, которые включают в себя развертывание и поддержку моделей в масштабе производства, а также предоставление гибких вариантов интеграции, таких как конечные точки API, для вызова прогнозов из модели. В настоящее время эти функции недоступны в SageMaker Canvas.

Отличие № 2: Организованное рабочее пространство

Наконец, в Engine вы можете организовать свою работу по разным типам пространств, таким как организации и проекты. Это общие пространства для бизнеса или групп. Несколько пользователей могут работать вместе в рамках организации или проекта на платформе. Внешние пользователи также могут быть приглашены для работы в определенном пространстве проекта. Эта функция позволяет пользователям работать совместно с другими заинтересованными сторонами или товарищами по команде. Отдельные пользователи также могут использовать эти общие пространства для организации своих различных проектов. Эти административные функции пока недоступны в SageMaker Canvas.

Заинтересованы в использовании платформы машинного обучения, такой как AI & Analytics Engine? PI.EXCHANGE предлагает 2-недельную бесплатную пробную версию. "Подпишите здесь!"

Сквозное прохождение

Мы провели пробный запуск SageMaker Canvas для бинарной классификации, многоклассовой классификации и типов задач регрессионного машинного обучения, используя следующие наборы данных:

В следующих подразделах подробно описывается процесс для различных этапов сквозного рабочего процесса построения модели машинного обучения.

Шаг 1: Вход в систему

Первый шаг — войти на платформу и перейти к соответствующему инструменту. Для работы с SageMaker Canvas сначала необходимо войти в консоль AWS, используя свои учетные данные AWS. Затем вам нужно использовать панель поиска для поиска SageMaker Canvas. Затем следует ряд шагов настройки, прежде чем вы попадете в инструмент.

AI & Analytics Engine может похвастаться простым и беспроблемным процессом входа в систему. Просто войдите в систему, используя свои учетные данные (адрес электронной почты и пароль). Как только вы окажетесь на платформе, нажмите «Создать проект» или любой из ваших существующих проектов, чтобы начать загрузку данных и построение моделей. Легкий.

Шаг 2: Импорт данных

В качестве первого шага SageMaker Canvas попросит вас загрузить данные. Мы попытались загрузить файл напрямую. Для этого AWS посоветовал нам включить определенные разрешения, отредактировав текстовое поле JSON в консоли управления AWS S3:

Однако мы так и не смогли заставить загрузку файла работать:

Поэтому мы прибегли к:

  1. Загрузка файла в AWS S3
  2. Импорт его в SageMaker Canvas из AWS S3

Несмотря на то, что это было не очень просто, этот процесс работал. При нажатии на выбранный файл CSV на S3 нам показывают предварительный просмотр набора данных (ниже). После завершения процесса импорта можно напрямую создавать модели.

В AI & Analytics Engine поддерживаются несколько типов источников данных, одним из которых является «загрузка файлов». Все, что вам нужно сделать, это просто перетащить файл.

На этом этапе возникает важное отличие. В AI & Analytics Engine пользователь может выбирать гибкие параметры конфигурации, имена столбцов автоматически очищаются, а схему можно настраивать. Рядом отображается предварительный просмотр, чтобы пользователи могли увидеть эффект от выбора конкретной конфигурации:

Движок предлагает разумные значения по умолчанию в качестве «рекомендуемых настроек для применения» в зависимости от сценария. Если эти значения по умолчанию подходят, пользователь может просто нажать «Далее», не вводя ничего вручную. В то же время пользователь имеет полную гибкость и контроль, если он захочет внести какие-либо изменения.

В SageMaker Canvas невозможно такое гибкое ручное управление. Следовательно, нестандартный анализ CSV и т. д. не поддерживаются. Как упоминалось ранее, AI & Analytics Engine поддерживает несколько форматов файлов, тогда как SageMaker Canvas поддерживает только (стандартный) CSV.

Шаг 3: Создание моделей

Когда дело доходит до создания моделей, AWS SageMaker Canvas предоставляет действительно простой способ сделать это. Просто выберите набор данных и целевой столбец. Необязательный третий шаг — это выбор типа модели.

В AI & Analytics Engine вы начинаете со страницы сведений о наборе данных, из которой вы создаете приложение. Оттуда вы продолжите создавать набор функций и выбирать модели, которые хотите обучить.

SageMaker Canvas предоставляет «Предварительный просмотр» для каждой модели, где он оценивает производительность модели, если она построена, на тестовом наборе, а также влияние каждого столбца:

Это пока недоступно в AI & Analytics Engine, но планируется в следующих выпусках. Тем не менее, прогнозируемая производительность показана для каждого алгоритма, где Engine обеспечивает большую гибкость для технических пользователей, таких как специалисты по данным, чтобы они могли самостоятельно выбирать предпочтительные алгоритмы:

В процессе создания (и обучения) моделей в SageMaker Canvas необходимо понимать несколько ключевых моментов и ограничений:

Для небольших наборов данных время обучения и качество прогноза схожи:

Сведения о наборе данных Время обучения Прогнозируемая производительность (качество)

Однако даже для не очень больших наборов данных (> 50 000 строк) процесс построения модели в SageMaker Canvas завершился со сбоем со следующим сообщением через 1 час 23 минуты:

Очевидно, что для обучения более 50 000 строк требуется выделить больше ресурсов вручную, что необходимо сделать вне SageMaker Canvas и на консоли AWS.

По сравнению с этим, на AI & Analytics Engine процесс обучения модели был успешно завершен менее чем за 5 минут:

Прогностическая эффективность полученных моделей также была высокой, около 85–89 %.

Дополнительные ограничения SageMaker Canvas:

  1. Вы не можете построить модель с менее чем 250 строками. Следовательно, нам пришлось утроить количество строк в наборе данных цветов ириса, просто повторив каждую строку три раза. В AI & Analytics Engine такого ограничения нет.
  2. Опция «быстрая сборка» доступна только для наборов данных размером менее 50 000 строк.

Шаг 4: Обзор модели

В SageMaker Canvas можно увидеть значения воздействия столбца:

На вкладке «Оценка» мы можем увидеть производительность модели:

Существует также опция «Дополнительно», которая показывает более подробную информацию, знакомую специалистам по данным:

В AI & Analytics Engine для моделей классификации в настоящее время доступны матрица путаницы, кривые ROC и PR, а также таблица различных показателей. Эта точка зрения знакома специалистам по данным:

Шаг 5: Прогноз

В SageMaker Canvas после построения модели вы можете получать прогнозы двумя способами:

  1. Одиночный прогноз (анализ сценариев «что, если…?»)
  2. Пакетные прогнозы

В AI & Analytics Engine необходимо развернуть обученную модель, прежде чем прогнозы можно будет вызывать через конечную точку API:

Затем вы можете получить пример кода для вызова прогнозов через развертывание модели в конечной точке:

Engine также предлагает опцию пакетного прогнозирования при развертывании. Что касается одиночных прогнозов, их можно получить с помощью функции «Тест API» в пользовательском интерфейсе, где для входных функций можно ввести значения, разделенные запятыми, для получения прогноза. Полная поддержка графического интерфейса для одиночных прогнозов («что, если…» сценарии) будет доступна в следующем выпуске Engine.

Дополнительные примечания по ценам

Первоначально мы попробовали SageMaker Canvas, используя кредит в размере 100 долларов, который они нам щедро предоставили. Во время использования платформы я получил электронное письмо с уведомлением о том, что я израсходовал 85% своего кредита. Естественно, я думал, что мне будет предоставлена ​​подсказка, что у меня закончились кредиты. К сожалению, они не предоставили такой подсказки или уведомления, поэтому я согласился, предполагая, что у меня все еще есть кредит.

После завершения моего времени на платформе я получил счет за использование в размере 373 долларов США (после вычета моего кредита). Я израсходовал больше, чем мой кредит на платформе. Это было бы понятно, если бы от них было какое-либо указание или уведомление о том, что у меня закончился кредит. И все это за создание 5 моделей, 2 из которых не прошли обучение.

Примечание для себя: при использовании SageMaker Canvas в кредит следите за ним!!

Цены на AI & Analytics Engine гораздо проще. Затраты прозрачны и авансовые, с фиксированным использованием. Когда у вас заканчивается кредит, вы просто не можете делать больше, чем можете заплатить. Следовательно, нет никаких неожиданных счетов с Engine.

Заворачивать

AWS SageMaker Canvas — это новая платформа AIaaS, выпущенная AWS и предназначенная для использования нетехническими пользователями в компаниях, которым необходимо создавать прогностические модели. AI & Analytics Engine предоставляет сопоставимые функции, но более стабилен и надежен для построения моделей на больших наборах данных. Это также обеспечивает большую гибкость для пользователей при выборе различных алгоритмов для моделей обучения, а также при развертывании моделей и управлении ими. Кроме того, Engine предлагает улучшенные функции подготовки данных по сравнению с SageMaker Canvas, помогая пользователям выполнять самые трудоемкие задачи по созданию конвейеров машинного обучения.