Внутри ИИ

Как создавать алгоритмы машинного обучения, которым можно доверять?

Объясните любую модель машинного обучения за считанные минуты - с уверенностью и доверием.

«Быть ​​или не быть» стало мантрой мысли и саморефлексии на философской арене, когда Гамлет произнес эти слова в знаменитой трагической пьесе Шекспира. В современном деловом мире, движимом решениями, принимаемыми искусственным интеллектом, эта мантра превратилась в «доверять или не доверять».

В связи с тем, что недавние фиаско в сфере ИИ стали новостями, всплыл вопрос об отсутствии прозрачности и растущей предвзятости в моделях ИИ. Недавние примеры, когда система искусственного интеллекта заявила, что сильно загрязненный воздух безопасен для дыхания, тогда как на самом деле это было очень опасно, или случай, когда система искусственного интеллекта заявила, что у определенного пациента нет рака, тогда как на самом деле пациент действительно болел. рак и умер, или случай, когда система ИИ определила определенную транзакцию как мошенничество, тогда как это была полностью законная транзакция, создавшая ненужные проблемы для клиента, явно что-то не так. Эти катастрофы увеличиваются с каждым днем ​​с широким использованием ИИ и вызваны не чем иным, как нашим слепым доверием к этим системам ИИ, но теперь пора действовать!

Текущий бизнес-ландшафт по-прежнему очень скептичен, когда дело доходит до внедрения этих систем ИИ и доверия к ним. Многие компании начали этот процесс, но еще не осознали его ценность. В основном это происходит из-за разрыва понимания между командами по анализу данных и заинтересованными сторонами. За последние несколько месяцев мы поговорили со многими заинтересованными сторонами из бизнеса, которые получают эти прогнозы, и обнаружили, что неспособность специалиста по обработке данных объяснить, почему и как лежат в основе прогнозов систем ИИ, является самым большим фактором недоверия и скептицизма по отношению к ним. инициатива в области науки о данных. Люди в командах по обработке и анализу данных очень технически сложны, чтобы показать степень их навыков. Однако заинтересованные стороны бизнеса иногда бывают полной противоположностью: их не волнует используемая технология, а то, как результаты, полученные с помощью модели, связаны с их бизнес-целями и ключевыми показателями эффективности.

Этого невозможно достичь, если специалист по данным не сможет ответить на следующие важные вопросы:

1. Почему я должен доверять результатам, полученным с помощью модели?

2. Какое обоснование использовалось моделью для получения результатов?

3. Каковы преимущества и недостатки использования модели в производстве?

4. Соответствуют ли результаты бизнес-логике или нет?

Только ответив на эти вопросы, специалист по данным может дать рекомендации бизнес-пользователю и рассчитывать на некоторый прогресс.

Чтобы решить эту проблему, у специалиста по данным есть два варианта:

1. Объясните модели черного ящика, построив на их основе интерпретируемую модель. Это логика, лежащая в основе LIME & SHAP. SHAP используется более широко, поскольку он гарантирует справедливое распределение вкладов для каждой из переменных и имеет широкий набор графиков. К сожалению, этот подход требует множества итераций, лишен интерактивности и не масштабируется, особенно когда вы имеете дело с конфиденциальными наборами данных и решениями. Более того, визуализации не привлекательны и не интерактивны. Их статический характер создает еще больший разрыв между специалистами по обработке данных и заинтересованными сторонами в бизнесе. Отсутствие динамических и интерактивных графиков чрезвычайно затрудняет получение значений из SHAP или LIME, поэтому требуется лучший способ использования этих методов.

2. Используйте интерпретируемые модели: вместо использования моделей черного ящика, таких как глубокие нейронные сети, специалист по данным может попытаться оптимизировать более простые модели, такие как логистическая регрессия или деревья решений, чтобы делать прогнозы. Придется компромисс между точностью и интерпретируемостью, но специалисту по обработке данных необходимо будет решить, что важно для создания ценности, и ему нужно будет сосредоточиться на предельных преимуществах между двумя моделями. Если предельное увеличение между точностями несущественно, идеальным вариантом будет реализовать более простые модели и напрямую связать прогнозы с бизнес-ключевыми показателями эффективности. К сожалению, с увеличением сложности данных, которые мы собираем сегодня, более простые модели не работают.

Возникает вопрос: Есть ли лучший способ укрепить доверие к нашим моделям машинного обучения?

Лаборатория xAI mltrons изучает модуль xAI, цель которого сделать модели черного ящика ML / DL понятными и прозрачными за счет инноваций в области взаимодействия. Цель состоит в том, чтобы понять, почему решения были приняты системой ИИ, и обеспечить беспристрастность, точность и отсутствие каких-либо логических противоречий в прогнозах ИИ.

Этот модуль действует как система plug-n-play, которая вписывается в любой ноутбук Jupyter - благодаря автоматизированной визуализации и высокой интерактивности специалисты по данным смогут работать вместе с заинтересованными сторонами бизнеса, чтобы укрепить доверие к системе ИИ и принимать полностью обоснованные решения. .

Это означает, что специалисты по данным теперь могут использовать свои записные книжки Jupiter, источники данных - Amazon, MySQL, HDFS и пользовательские модели, использующие XGBoost, CatBoost, PyTorch, Tensorflow, SageMaker, в движок mltrons - модуль mltrons xAI будет принимать входные данные и будет работают как дополнительный слой, чтобы обеспечить объяснение того, как эти алгоритмы работают, думают и выводят результаты. Затем специалист по анализу данных сможет объяснить результаты простым и понятным для бизнеса языком с помощью интерактивных визуализаций, отчетов и информационных панелей, которыми можно поделиться.

Если у вас есть какие-либо вопросы о технологии, не стесняйтесь обращаться к нам с помощью этой формы:

Https://raheelahmad453253.typeform.com/to/qa8QRB

Об авторе: Рахил Ахмад - приглашенный исследователь Центра визуализации изображений и анализа данных (VIDA) Нью-Йоркского университета Тандон, специализирующийся на объяснимости модели машинного обучения. Он также является соучредителем mltrons.