Прогностическое обслуживание роботизированной руки — решение Oracle Lakehouse для производства.

Следующий блог — моя попытка создать основу для модели машинного обучения с прогнозным обслуживанием и продемонстрировать/объяснить преимущества больших данных и архитектуры Lakehouse. Цель этого блога — помочь читателям увидеть искусство возможного с помощью Lakehouse, вдохновляя идеи в обрабатывающей промышленности. Моя цель состоит в том, чтобы поддерживать обзор высокого уровня, при этом обеспечивая ценность для читателя. Начнем с объяснения производственного варианта использования.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ. Этот блог предназначен только для личных образовательных целей. Чтобы следовать этой демонстрации, требуется учетная запись Oracle и созданный раздел , а также базовые знания Oracle Cloud Infrastructure. Цель этого блога — продемонстрировать, насколько легко настроить решение для домика на озере и как быстро можно получить ценную информацию. На протяжении всего блога будет предоставлено множество подробных ссылок, которые помогут глубже изучить каждую технологию/терминологию, используемую для поддержания блога на высоком уровне.

Оглавление:

  1. Производственный вариант использования
  2. Что такое Data Lakehouse?
  3. Загрузка данных — объектное хранилище
  4. Предоставление автономного хранилища данных — ADW
  5. Подключение объектного хранилища и ADW
  6. Создание нового пользователя базы данных
  7. Создание ML-модели профилактического обслуживания — OML
  8. "Краткое содержание"

Вариант использования в производстве — профилактическое обслуживание

В настоящее время было бы трудно зайти на производственное предприятие и не увидеть какую-то автоматизацию, выполняемую роботом/машиной. Преимущества очевидны; машины могут производить гораздо быстрее, использовать меньше ресурсов и могут быть чрезвычайно точными. Благодаря этим преимуществам компании-производители год за годом увеличивали свои инвестиции в промышленную робототехнику, с каждым годом увеличивая поставки этих машин.

Тем не менее, эти машины могут стоить огромных денег и даже больше, чтобы их содержать и обслуживать. Для этой демонстрации мы рассмотрим конкретно роботизированные руки, которые могут стоить от 25 000 до 400 000 долларов США в виде капитальных затрат, согласно Engineering360, и еще несколько тысяч операционных затрат на их эксплуатацию и обслуживание. Хотя эти промышленные роботы могут сэкономить компании тысячи долларов, в случае их отказа или поломки они могут остановить весь производственный процесс. В некоторых случаях это может привести к потере тысяч в минуту. Это осознание положило начало нескольким инвестициям в профилактическое обслуживание.

Прогностическое обслуживание – это форма обслуживания машины, в которой используются данные в режиме реального времени, такие как работоспособность, производительность и статус, для прогнозирования того, когда и где следует выполнять обслуживание. В конечном счете, профилактическое обслуживание увеличивает жизненный цикл машин, сокращает дорогостоящие простои и позволяет менеджерам составлять стратегические производственные планы. Этот тип обслуживания в значительной степени зависит от данных IoT (Интернета вещей), которые собираются с датчиков в сочетании с алгоритмом прогнозирующего машинного обучения. Огромный объем, разнообразие и скорость, с которой собираются эти данные, являются прекрасным примером больших данных.

О данных:

Ради этой демонстрации я не буду использовать настоящие большие данные, так как это повлечет за собой использование дорогостоящих ресурсов. Тем не менее, я буду использовать смоделированные данные IoT, которые были собраны в процессе производства 10 000 различных продуктов с различными параметрами робота-манипулятора. Эти данные будут получены из рабочего листа Excel. Обратите внимание, что реальным применением этой демонстрации будет использование кластера Big Data Service для доступа к данным датчиков в реальном времени.

Ниже приведены имена столбцов вместе с описанием набора данных.

  • UID: уникальный идентификатор в диапазоне от 1 до 10000
  • productID: состоит из букв L, M или H для низкого (50 % всех продуктов), среднего (30 %) и высокого (20 %) вариантов качества продукта и серийного номера для конкретного варианта.
  • температура воздуха [K]: генерируется с использованием процесса случайного блуждания, позже нормализованного до стандартного отклонения 2 K около 300 K.
  • температура процесса [K]: генерируется с использованием процесса случайного блуждания, нормализованного до стандартного отклонения 1 K, добавленного к температуре воздуха плюс 10 K.
  • скорость вращения [об/мин]: рассчитывается исходя из мощности 2860 Вт с наложением нормально распределенного шума
  • крутящий момент [Нм]: значения крутящего момента обычно распределяются около 40 Нм с σ = 10 Нм и без отрицательных значений.
  • износ инструмента [мин]: Варианты качества H/M/L добавляют 5/3/2 минут износа инструмента к используемому в процессе инструменту.
  • Тип сбоя: причина сбоя, если таковой имел место. - Это будет то, что будет предсказано

Всего у нас есть 10 000 записей о различных продуктах, с которыми работает робот-манипулятор, и типах их отказов, если таковые имеются. Это дает нам небольшое представление о том, как работает рука, какие факторы влияют на отказ и какое обслуживание может потребоваться. Вы можете скачать набор данных прямо с Kaggle здесь.

Так что же такое Data Lakehouse?

Data Lakehouse — это, по сути, комбинация Data Warehouse и Data Lake.

Хранилище данных. Централизованная система управления данными, которая позволяет пользователям выполнять большие запросы и анализировать. Эти хранилища обычно состоят из нескольких источников данных, таких как данные цепочки поставок, транзакционные данные, операционные данные и т. д. Такая централизация данных позволяет предприятиям получать ценную информацию из «единого источника достоверной информации», что значительно улучшает процесс принятия решений. Хранилище данных обычно состоит из реляционной базы данных, решений ELT и средств аналитики/визуализации для составления отчетов, но не ограничивается ими.

Озеро данных. Любая форма структурированных или неструктурированных необработанных данных, которые обычно поступают из различных внутренних или внешних источников. По сути, озеро данных представляет собой комбинацию неорганизованных данных из различных источников, которые обычно не имеют большого значения для бизнеса в необработанном виде. Некоторыми примерами являются кадры с камер наблюдения, данные из социальных сетей и данные датчиков. Узнайте больше здесь о разнице между Data Lake и Data Warehouse.

Идея решения Lakehouse состоит в том, чтобы получить доступ к огромному количеству данных или метаданных, которыми располагают компании, сопоставить их со структурированными данными, которые в настоящее время имеют смысл для их бизнеса, и использовать самые современные технологии (AI, ML, DS) для предоставления информативных данных. деловые решения.

Решение для домика у озера основано на доступности. Независимо от того, откуда поступают данные или где они хранятся, к ним можно получить доступ с помощью любого инструмента бизнес-аналитики, модели машинного обучения, блокнота для анализа данных или приложения.

Примечание о больших данных:

Есть несколько статей, которые могут объяснить, продемонстрировать и подробно рассказать о том, что такое большие данные, поэтому я скорее объясню, почему большие данные так важны.

По своей сути большие данные — это данные, которые доходят до крайности по трем характеристикам: объем, разнообразие и скорость. К сожалению, эти данные обычно практически не имеют ценности для бизнеса в необработанном виде. Однако с учетом последних тенденций машинного обучения и искусственного интеллекта компании начали разрабатывать чрезвычайно интеллектуальные процессы (или модели), которые преобразуют эти большие блоки бессмысленных данных в новаторские бизнес-открытия, полностью меняя пользовательский или бизнес-опыт. В прошлом отрасли полагались на отзывы клиентов или проверки производительности/качества для внесения изменений в свой бизнес, но теперь — благодаря возможностям больших данных — они могут вносить специальные изменения на основе данных в режиме реального времени о датчиках машин, покупательских моделях клиентов. , социальные сети и т. д.

Теперь давайте приступим к созданию нашего решения для домика у озера.

Создание сегмента хранилища объектов — загрузка данных

Для настоящего решения Data Lake потребуются возможности хранения больших неструктурированных данных (таких как изображения, видео и т. д.). Для этого мы обращаемся к сервису Oracle Object Storage, где мы можем виртуально загружать любые типы данных по более выгодной цене, чем хранение в базе данных.

Мы начинаем с перехода к OCI (Oracle Cloud Infrastructure), входа в систему и перехода к Storage, а затем к Buckets.

Сегменты — это виртуальные контейнеры, в которых вы можете хранить файлы данных любого типа (видео, резервные копии, фотографии, электронные таблицы и т. д.). Каждое ведро связано с определенным отсеком, чтобы лучше организовать ресурсы вашей организации. По сути, ведра — это место для хранения структурированных и неструктурированных данных и возможность легко управлять публичным и частным доступом.

После того, как правильное отделение выбрано (создать отделение) , нажмите кнопку Создать корзину, чтобы настроить корзину. Присвойте корзине подходящее Имя корзины для его содержимого и обязательно обдумайте это, поскольку в будущем его нельзя будет изменить. Мой совет — использовать что-то более широкое из-за возможности создавать папки внутри ведер, где вы можете быть более конкретными.

Затем выберите Стандартный в качестве уровня хранения, поскольку мы будем часто обращаться к этим данным.

Для простоты я предлагаю оставить остальные конфигурации, как показано выше, и нажать кнопку Создать внизу слева. Если вы хотите узнать больше о ведрах, обратитесь здесь.

Как только корзина будет правильно настроена и готова к использованию, на странице сведений о корзине появится большой зеленый значок «B». Важно отметить, что по умолчанию все корзины создаются приватными.

Лично мне нравится создавать несколько папок под своим ведром, чтобы лучше упорядочивать данные. Это совершенно необязательно, но это можно сделать, нажав Дополнительные действия и Создать новую папку. Дайте папке понятное имя и нажмите Создать.

Наконец, мы готовы загрузить некоторые данные в нашу корзину. Начните с нажатия синей кнопки Загрузить в корзине/папке. Появится всплывающее окно «Загрузить объекты».

Выберите подходящий уровень хранения для вашего объекта, затем нажмите Выбрать файлы и выберите файлы, которые вы хотите загрузить. Нажмите кнопку Загрузить после выбора файлов.

Поздравляем, вы только что загрузили свой первый файл в хранилище объектов!

Для этого примера я загрузил один файл .CSV с именем predictive_maintenance со своего компьютера, однако для реального приложения обычно требуется несколько больших файлов. Я решил загрузить это в Object Storage просто для того, чтобы продемонстрировать настоящее решение Data Lakehouse. Как упоминалось ранее, объектное хранилище может хранить различные типы данных, централизуя все ваши активы данных в одном месте. В будущем блоге я добавлю в эту корзину более 1000 изображений, что еще больше пополнит мое озеро данных. Из Object Storage мы можем получать данные откуда угодно. Давайте посмотрим, как мы можем получить доступ к этому файлу из автономного хранилища данных и создать с его помощью модель машинного обучения.

Предоставление автономного хранилища данных (ADW)

Но во-первых, почему ADW?

ADW — это самоустанавливающаяся, самовосстанавливающаяся, автоматически масштабируемая база данных, которая автоматизирует обслуживание и обновление, необходимые для традиционной базы данных. Он имеет возможность масштабироваться в 3 раза по сравнению с исходным размером ЦП при увеличении рабочих нагрузок, автоматически (или по расписанию) развертывая последние исправления и версии. Это также одна из самых быстрых инсталляций, предлагаемых Oracle, которая позволяет вам начать работу за считанные секунды. Узнать больше о ADW.

3 шага к подготовке вашей автономной базы данных:

  1. В OCI щелкните значок гамбургера в правом верхнем левом углу, выберите раздел базы данных Oracle и выберите Автономная база данных.

2. Выберите нужный раздел (создайте, если у вас его нет) и нажмите кнопку Создать автономную базу данных.

3. Настройте свою базу данных

  • Дайте вашей базе данных значимое отображаемое имя (может содержать пробелы и любые символы) и имя базы данных (только буквы и цифры, без пробелов).
  • Выберите Тип рабочей нагрузки: Хранилище данных.
  • Выберите тип развертывания: Общий
  • Версия базы данных: 19c
  • OCPU: 1–3 (1 предназначен для непроизводственной среды и подходит для этой демонстрации)
  • Автомасштабирование OCPU: Включить (если вашим данным или рабочим нагрузкам требуется больше емкости, это позволит увеличить количество OCPU в 3 раза по сравнению с установленным объемом).
  • Хранилище: 1 ТБ

  • Добавьте пароль для пользователя/схемы ADMIN, запишите этот пароль в своих заметках, так как он понадобится на последующих этапах.
  • Доступ к сети: безопасный доступ из любого места
  • Тип лицензии: BYOL (только для пробных учетных записей)
  • Нажмите синюю кнопку Создать автономную базу данных, чтобы начать создание базы данных.

Подождите пару минут, пока ваша база данных начнет работу. Как только вы увидите зеленый блок «ADW», ваша база данных готова к использованию. Поздравляем с созданием вашего первого ADW!

Подключение объектного хранилища и автономного хранилища данных

После того, как вы подготовили свою автономную базу данных и загрузили свои файлы в корзину хранилища объектов (шаги, описанные выше), вы можете создать соединение между ними. Есть несколько способов сделать это, некоторые из них включают события и функции или подключаются напрямую через Действия базы данных. Однако для этого я решил использовать пакет DBMS_CLOUD и таблицы ADW. Я выбрал этот путь не потому, что он был самым простым, а потому, что я хочу создать настоящее решение Lakehouse, которое может поддерживать различные источники и типы данных. Кроме того, рекомендуется хранить большие файлы данных в Object Storage из-за его экономической эффективности и применять его в ADW только при необходимости.

Пакет DBMS_CLOUD поддерживает следующие источники данных:

Oracle Cloud Infrastructure Object Storage, Oracle Cloud Infrastructure Object Storage Classic, Amazon AWS S3, Microsoft Azure Cloud Storage и Google Cloud Storage

Шаги по подключению объектного хранилища и автономной базы данных

  • Прежде чем мы начнем, я настоятельно рекомендую открыть текстовый редактор или блокнот, так как следующие шаги попросят вас скопировать несколько элементов, которые будут использоваться позже в процессе.

1. Получить информацию о пользователе

  • Чтобы загрузить данные из Object Storage, вам нужен пользователь OCI с достаточными привилегиями (чтение/загрузка данных) и создание или загрузка ключа API. Войдите в OCI под этим пользователем. Обычно такие привилегии есть у пользователя, создавшего автономную базу данных. Мы соберем несколько ключевых элементов этого пользователя, чтобы создать наши учетные данные на следующем шаге.

  • После входа в систему нажмите значок человечка в правом верхнем углу в OCI. Нажмите на имя пользователя.
  • Это предложит вам детали пользователя.

  • Сначала скопируйте User OCID и вставьте его в свои заметки.
  • Затем нажмите Ключи API в левом нижнем углу экрана. Это отобразит все ваши ключи API для этого пользователя.

  • Нажмите Добавить ключи API. Откроется новый экран.
  • Здесь вы можете сделать так, чтобы Oracle сгенерировал для вас ключ API, или вы можете загрузить свои собственные открытые ключи. В нашем случае мы позволим Oracle сгенерировать для нас ключи и загрузить закрытый и открытый ключи на наш компьютер.
  • В идеале хранить ключи в папке ~/.ssh, но это не обязательно.

  • Откройте закрытый ключ с помощью текстового редактора и скопируйте его содержимое в свои заметки. Не включайте части «начало» и «конец», скопируйте выделенный блок, как показано.

  • Вернитесь на страницу с подробными сведениями о ключах API в OCI и скопируйте отпечаток, созданный после создания ключа API. Запишите этот отпечаток пальца в свои заметки.

  • Последний элемент, который вам понадобится, — это ваш OCID аренды, который можно найти, щелкнув Значок человека, а затем Аренда: xxx.

  • В разделе OCID нажмите копировать и вставьте это в свои заметки.

Подводя итог, в своих заметках вы должны иметь следующую информацию:

  • OCID пользователя
  • OCID аренды
  • Закрытый ключ (большой блок случайных символов)
  • Отпечаток пальца

2. Создать учетные данные

Скопировав 4 элемента выше в наши заметки, мы теперь можем создать учетные данные, необходимые для копирования данных из хранилища объектов с помощью DBMS_CLOUD.

  • Нажмите SQL (при этом откроется онлайн-среда SQL, что даст вам прямой доступ к вашей автономной базе данных).

BEGIN
DBMS_CLOUD.CREATE_CREDENTIAL (
credential_name => 'OCI_KEY_CRED',
user_ocid => 'ocid1.user.oc1....xdhusa',
tenancy_ocid => 'ocid1.tenancy.oc1.....v54xu7dq',
private_key => 'MIIEvgIBADANBgkqhkiG9w0B....0JneyjEP6GPW',
fingerprint => '83:7.......9b:f8:5b:5a');
END;

  • Скопируйте скрипт выше в редактор скриптов.
  • Дайте учетным данным любое имя по вашему желанию (OCI_KEY_CRED).
  • Замените каждую запись своей информацией из блокнота. Обратите внимание, что ваши значения будут намного длиннее, я сократил свои в целях безопасности.
  • Запустите скрипт, нажав зеленый значок воспроизведения.

  • Убедитесь, что сценарий PL/SQL выполнен успешно.
  • Кроме того, вы можете запустить команду «Select * from USER_CREDENTIALS», чтобы убедиться, что учетные данные были введены правильно.

3. Получите базовый URL хранилища объектов:

  • Перейдите к сегменту, в котором находится загруженный вами файл (см. раздел Создание сегмента хранилища объектов — Загрузка данных, если вы еще не создали сегмент).

  • Нажмите на три точки в правой части файла и выберите Просмотреть сведения об объекте.

  • Скопируйте URL-адрес (URI) до имени папки/файла (должно заканчиваться на «/o» в блокноте).
  • Шаблон URI: https://objectstorage.<название региона>.oraclecloud.com/n/<название пространства имен>/b/<название сегмента>/o

4. Создать таблицу ADW и скопировать содержимое корзины

  • Теперь, когда у вас есть URI, вернитесь в онлайн-среду SQL из действий с базой данных. Создайте свою таблицу с помощью команды CREATE TABLE. Вам нужно только указать тип и размеры каждого столбца.

  • Используйте приведенный выше пример кода, чтобы скопировать данные из корзины хранилища объектов в таблицу ADW. Обратите внимание, что file_url_base — это URL-адрес, который мы скопировали на шаге 3, а выделенная часть — это остальная часть этого URL-адреса. Поскольку я встроил свой файл в папку (Predictive_Maintenance_Data), у меня более длинная конечная точка. Если вы не создавали папку, это будет просто имя вашего файла.
  • ПРИМЕЧАНИЕ. Если вы загружаете/копируете файлы других типов (json, xml и т. д.), вам необходимо изменить команду форматирования, обратитесь к этой ссылке для параметров формата DBMS_CLOUD.

  • Наконец, запустите простую инструкцию SQL, чтобы убедиться, что таблица заполнена правильно.
  • Поздравляем, вы официально перенесли данные из объектного хранилища в автономную базу данных!

Создание нового пользователя базы данных

Теперь, когда наши данные загружены в Autonomous Database Warehouse, мы можем легко получить доступ к встроенной платформе Oracle Machine Learning и начать исследование данных.

Но сначала… давайте создадим нового пользователя.

Раньше мы выполняли все наши шаги в рамках пользователя ADMIN, это было сделано для упрощения процесса (пропуск шагов по предоставлению доступа). Однако не идеально создавать модели данных под пользователем ADMIN. Поэтому мы создадим нового пользователя базы данных (или схему) для нашей базы данных. Мы делаем это, чтобы лучше организовать наши данные таким образом, чтобы это имело логический смысл. В этом примере я создам схему под названием «Команда контроля качества», которую могут использовать инженеры отдела качества производственного предприятия.

Начните с перехода к своей автономной базе данных (созданной в разделе Предоставление автономного хранилища данных выше). Найдите кнопку Действия с базой данных и нажмите ее.

Когда вы перейдете к действиям с базой данных, найдите раздел Администрирование и выберите Пользователи базы данных. Это предложит вам экран входа в систему, где вы войдете, используя свои учетные данные ADMIN.

Теперь мы начнем создавать нового пользователя (схему) для нашей базы данных. Нажмите синюю кнопку Создать пользователя.

Начните с присвоения новому пользователю логического имени. Обязательно включите OML, Graph и Web Access, так как это предоставит роли, необходимые для доступа к Oracle Machine Learning и интерактивному SQL, который мы использовали ранее. Вы также можете предоставить пользователю дополнительные роли, но в этом примере мы будем придерживаться 5 ролей по умолчанию, предоставленных путем включения 3 кнопок.

Поздравляем, вы создали нового пользователя!
Теперь вы должны увидеть своего нового пользователя на главном экране действия с базой данных. Убедитесь, что у вас есть теги REST, Graph и OML рядом с именем, как показано выше.

Еще кое-что…

Теперь, когда у нас есть новый пользователь, мы можем перенести нашу таблицу ADW от пользователя ADMIN к новому пользователю (Quality_team).

Войдите в систему как ADMIN, перейдите на онлайн-платформу SQL и имитируйте приведенный выше код, чтобы передать таблицу от пользователя ADMIN пользователю QUALITY_TEAM. Теперь, когда наша таблица находится в схеме Quality_Team, мы можем перейти к части машинного обучения этой демонстрации.

Доступ к Oracle Machine Learning (OML)

переход к этой теме (определить кратко, цель и т.д.)****

Теперь, когда у нас есть новый пользователь, мы можем получить доступ к OML.

Для начала вернитесь к подробному экрану ADW (автономное хранилище данных) и выберите Service Console.

С левой стороны выберите Разработка. Затем нажмите Пользовательский интерфейс Oracle Machine Learning.

Войдите, используя учетные данные нового пользователя. Дайте системе несколько секунд, чтобы раскрутиться, так как она загружает несколько шаблонов в первый раз.

Поздравляем, вы открыли домашнюю страницу Oracle Machine Learning!

Некоторые вещи, на которые следует обратить внимание перед началом работы:

  • Убедитесь, что вы вошли в систему как новый пользователь, а не как АДМИН (справа вверху)
  • AutoML — это самый быстрый способ начать работу. Здесь вы можете использовать несколько моделей машинного обучения (ML) для ваших данных всего за несколько кликов.
  • Записные книжки — это то, где вы будете проводить большую часть своего времени. Здесь вы будете создавать/изменять сценарии, чтобы постепенно создавать модель машинного обучения, соответствующую вашим потребностям.
  • Примеры — отличный ресурс для начала создания индивидуальной модели машинного обучения. Здесь вы можете искать предварительно настроенные модели машинного обучения на основе Python или SQL, которые применимы к вашему варианту использования. Вы можете продублировать примеры как свои собственные и настроить для использования с вашими данными в записных книжках.

Создание модели машинного обучения для профилактического обслуживания — с использованием OML

Самый быстрый способ получить представление о ваших данных — использовать AutoML. AutoML берет ваши данные и прогоняет их через несколько предварительно настроенных моделей машинного обучения, сравнивая все модели с помощью различных методов точности. Это позволяет вам лучше понять тип модели, которую вы можете построить, используя необработанные данные. Обратитесь здесь для получения более подробной информации об интерфейсе AutoML.

Начните с входа в OML (обратитесь к разделу Доступ к Oracle Machine Learning, чтобы открыть этот экран) и нажмите AutoML.

Вам будет предложено провести все ваши эксперименты AutoML. Нажмите Создать, чтобы начать новый эксперимент.

Начните с присвоения вашей модели значимого имени и необязательного описания. Возможно, вы захотите запустить несколько разных конфигураций эксперимента, поэтому добавление номера версии поможет различать эксперименты.

Затем нажмите Источник данных, чтобы открыть окно подключения между OML и ADW, как показано ниже.

Здесь вы можете выбрать свою схему (QUALITY_TEAM) и имя таблицы (PREDICTIVE_MAINTENACE) и нажать OK.

ПРИМЕЧАНИЕ. Поскольку мы вошли в систему как QUALITY_TEAM, у нас не будет доступа — по умолчанию — для просмотра таблиц в любой другой схеме, включая ADMIN (именно поэтому мы перенесли таблицу из ADMIN в QUALITY_TEAM в конце Creating раздел Новый пользователь базы данных).

После выбора источника данных мы можем выбрать столбец, который мы хотим прогнозировать.

В моем случае «FAIL_TYPE» содержит причины отказа (если таковые имеются) манипулятора. По сути, я хочу иметь возможность прогнозировать тип отказа, который может произойти при определенных условиях процесса (об/мин, температура, давление и т. д.). В результате я выбрал «FAIL_TYPE» в качестве целевого/прогнозируемого значения.

Поскольку столбец FAIL_TYPE не является числовым, для типа прогноза автоматически выбирается Классификация, однако это можно изменить, если применимо.

Наконец, мы должны выбрать наши Функции, это столбцы, которые, по нашему мнению, влияют на целевое значение. В идеале эти столбцы не зависят друг от друга, но сейчас мы выберем все функции (кроме TARGET из-за утечки) и будем полагаться на AutoML, чтобы показать нам отношения.

Чтобы получить более глубокое представление обо всех полях, включая Дополнительные настройки AutoML, обратитесь к этой статье.

Сохраните эксперимент и нажмите на стрелку раскрывающегося списка Начать. Мы выберем Более быстрые результаты, так как мы впервые запускаем эту конфигурацию функций. Надеюсь, это даст нам некоторые результаты, которые мы сможем интерпретировать, перенастроить наши функции и повторно запустить для большей точности в будущем.

Примерно через 30 минут у нас есть первые результаты!

В течение этих 30 минут AutoML прогнал 8 различных моделей машинного обучения, определил, что только 5 из них применимы к нашему варианту использования, и выполнил настройку модели для всех 5 моделей. Эти 5 моделей показаны в разделе таблицы лидеров, где лучшим алгоритмом является наивный байесовский алгоритм, обеспечивающий сбалансированную оценку точности 0,7394.

Кроме того, были определены наиболее важные факторы, которые способствуют точному прогнозированию того, произойдет ли сбой роботизированной производственной процедуры или нет. Из результатов видно, что крутящий момент и число оборотов являются двумя наиболее важными факторами.

Чтобы получить еще лучшее представление о результатах, мы можем нажать на название модели-чемпиона, выделенное синим цветом (NB_C92A77DEBE), и нажать Матрица путаницы. Это позволяет нам увидеть процент случаев, когда модель предсказывала определенную категорию (столбцы), по сравнению с фактическим результатом (строки). По сути, это показывает нам, когда модель была правильной и неправильной. Отсюда мы можем определить несколько вещей:

  • Прогнозирование «отсутствия сбоев» имело большую часть оценки точности, измеряемую в 60,94% случаев. Это значительно выше, чем другие прогнозы, а это означает, что эта модель несбалансирована. Однако это было ожидаемо, так как было гораздо больше записей «нет сбоев» по ​​сравнению с другими типами сбоев. Мы могли бы вернуться и сбалансировать наши данные и снова попробовать эту модель, чтобы получить несбалансированный результат.
  • Даже с несбалансированными данными тип отказа «Рассеивание тепла» был правильно предсказан более чем в 2 раза лучше, чем любой другой тип отказа, с использованием выбранных функций. Это открытие может привести к более частым работам по техническому обслуживанию корпуса руки.

Не написав ни строчки кода машинного обучения, мы рассмотрели 5 моделей и определили единственный алгоритм, который дает приемлемые результаты для нашего варианта использования. Отсюда мы можем продолжить исследование модели Наивный Байес, создав собственный блокнот и настроив гиперпараметры. На этом этапе инженер данных-гражданин может передать это опытному специалисту по данным для дальнейшей настройки и применения модели.

Несмотря на то, что это всего лишь предварительная модель машинного обучения, она точно демонстрирует, насколько легко можно создать модель профилактического обслуживания. Затем эту модель можно использовать для будущих производственных графиков, чтобы прогнозировать сбои до того, как они произойдут. Это позволило бы менеджерам составить более стратегический план производства и запланировать необходимое техническое обслуживание в нерабочее время.

Краткое содержание

В этом блоге мы познакомились с несколькими ключевыми концепциями, связанными с Data Lakehouse. Мы обсудили их важность и продемонстрировали, как настроить архитектуру Lakehouse от начала до конца. Кроме того, мы создали предварительную модель машинного обучения, которая помогает менеджерам прогнозировать сбои, позволяя им лучше планировать обслуживание своих машин — без написания единой строки кода.

Я надеюсь, что этот блог помог вашему бизнесу увидеть искусство возможного с помощью Oracle Lakehouse и получить некоторое представление о том, как эти технологии могут изменить ваш бизнес.