Согласно статье Forbes «Следующее поколение искусственного интеллекта», опубликованной 12 октября 2020 года, федеративное обучение становится горячей темой в искусственном интеллекте из-за большого количества данных наряду с обязательной необходимостью сохранения конфиденциальности при работе с личными информация

Определение и контекст

Модели машинного обучения требуют огромного количества данных, однако для многих секторов бизнеса и случаев получение данных может быть очень сложным, сложным и даже дорогостоящим из-за аспектов конфиденциальности и конфиденциальности. Например, создание модели глубокого обучения на основе изображений пациентов, полученных из медицинских изображений, является прекрасной иллюстрацией сложности сбора данных, поскольку изображения будут находиться на разных серверах, в разных местах и ​​даже в разных помещениях.

Федеративное обучение в контексте машинного обучения помогает специалистам по обработке данных в основном обучать свои модели без необходимости централизовать данные клиентов на их машинах или в одном частном облаке. По сути, это процесс распределения модели, реализованной на нескольких устройствах / серверах, чтобы обучать ее отдельно на каждом устройстве без доступа к данным на этих устройствах. Это помогает сохранить конфиденциальность, что помогает преодолеть «нехватку данных».

Короче говоря, как специалист по анализу данных, владелец / создатель модели; моя модель будет расположена на центральном сервере и в месте, которое отвечает за агрегирование параметров моделей и выходных данных от различных сторон, которых мы называем работниками. Рабочие могут находиться в разных сетевых местоположениях, поскольку они физически не зависят от центрального сервера модели. Во время обучения модели данные, которые присутствуют на разных сторонах, остаются на соответствующей стороне и никогда не покидают помещение.

На рисунке ниже представлена ​​конфигурация федеративного обучения, которая иллюстрирует взаимосвязь между тем, что мы называем «агрегатором», как владельцем модели, который будет получать обновленные параметры, и различными сторонами, расположенными на разных серверах в сети, где хранятся соответствующие данные обучения. .

Федеративное обучение и сектор здравоохранения: как одно может принести пользу другому?

Прорывы в радиологии, патологии, геномике и других областях медицины стали результатом растущих исследований в области машинного обучения и глубокого обучения в последние годы. Как мы объяснили, для обучения моделей глубокого обучения требуется значительный объем данных, чтобы обновить тысячи и / или миллионы функций и параметров, которые определяют модель.

Один из секторов, где федеративное обучение очень помогает, поскольку оно становится нормой на сегодняшнем рынке, - это сектор здравоохранения и, в частности, фармацевтическая промышленность. В основном это связано с характером данных, которые очень чувствительны и их не так много в лабораториях. Фактически, исследования доза-реакция или клинические испытания проводятся с небольшим количеством образцов, в отличие от Apple, обучающей модели прогнозирования текстовых сообщений на миллионах устройств.

В отличие от объема данных, которые могут быть собраны с помощью мобильных устройств, например, Apple, где федеративное обучение играет важную роль в сохранении данных на устройствах пользователей, чтобы существенно избежать нарушений конфиденциальности, лаборатории и клиники страдают от недостатка данных.

Сбор данных в сфере медицинского обслуживания - нетривиальная задача, поскольку сбор информации о частных пациентах связан с нормативными и правовыми препятствиями

На самом деле, наборы данных в медицинской отрасли может быть трудно получить из-за отсутствия источников и ресурсов. Это будет иметь несколько последствий не только из-за количества данных, необходимых для обучения модели, но и из-за диверсификации, при которой популяция пациентов может иметь предубеждения (по возрасту, полу или другим факторам наследственности), которые определенно повлияют на результаты и прогнозы.

Кроме того, существует множество правил, направленных на предотвращение нарушений, связанных с данными клиентов, и обеспечение конфиденциальности на протяжении всего процесса цепочки данных, начиная с предварительной обработки.

Что, если мы будем использовать федеративное обучение, чтобы использовать данные конкурентов, чтобы улучшить модели, которые способствуют эквивалентному исследованию или модели между ними

Фактически, мы можем представить себе случай, когда две разные лаборатории или клиники, занимающиеся исследованиями и разработками, работают над одним и тем же исследованием с одной и той же целью, анализируя и обнаруживая конкретное вещество / вакцину / лекарство.

Каждая лаборатория сама по себе имеет свою собственную модель, собственные данные, и в обеих лабораториях не хватает данных, которых недостаточно. Таким образом, их соответствующие модели обучения недостаточно эффективны и далеки от оптимальности из-за множества ограничений, касающихся их данных

Как федеративное обучение может помочь компенсировать нехватку данных?

Решением было бы : Почему бы не использовать данные каждой лаборатории без нарушения конфиденциальности? Без предоставления какой-либо конфиденциальной информации третьей стороне, ответственной за модель? Почему бы не использовать федеративное обучение для улучшения совместной работы лабораторий с сохранением их данных в соответствующих помещениях.

Стороны на рисунке 1 будут соответствующими лабораториями; агрегатор будет в каждой лаборатории, который будет использовать обе лаборатории для улучшения модели.

Однако при такой настройке возникают некоторые проблемы, поскольку структура федеративного обучения может повлиять на следующее

  • Ошибки при сборе данных: данные могут сильно отличаться от лаборатории к другой, что затрудняет получение прогноза, основанного на неоднородных наборах данных для конкретного человека.
  • Компромисс между конфиденциальностью и точностью: сохраняя конфиденциальность посредством федеративного обучения, мы обеспечиваем конфиденциальность (на определенном уровне, конечно) и конфиденциальность данных пациентов в течение жизненного цикла обучения модели. . Однако из-за этих ограничений конфиденциальности возникает компромисс, который может повлиять на точность соответствующей модели.
  • Проблемы с сетевой архитектурой. Федеративное обучение требует настройки безопасных уровней связи между различными сторонами и агрегатором модели. Он также полагается на ресурсы с хорошей вычислительной мощностью по всей сети.

В фармацевтических исследованиях и разработках клинические испытания могут быть очень дорогостоящими и обычно требуют много времени на проведение экспериментов. Набор данных о пациентах в конкретной лаборатории также может быть необъективным, поскольку не является репрезентативным для населения из-за некоторых предубеждений в данных.

Заключительное примечание

Появилось множество стартапов, стремящихся к федеративному обучению в сфере здравоохранения. Наиболее известная из них - Owkin, базирующаяся в Париже. Они разработали фреймворк под названием «OWKIN CONNECT», который помогает специалистам по обработке данных обучать модели машинного обучения на децентрализованных данных, как в случае с сектором здравоохранения и фармацевтики. Они используют федеративное обучение, например, чтобы позволить различным центрам лечения рака работать и сотрудничать вместе.

Об авторе

Зиад Надер - старший научный сотрудник Capgemini Invent France. У него была возможность работать во многих областях, от анализа текста до статистического анализа в области здравоохранения. Он также участвовал в проведении курсов по НЛП в университетах-партнерах Capgemini Invent во Франции. Его интересуют темы, связанные с этическим искусственным интеллектом и конфиденциальностью данных.

Https://www.linkedin.com/in/ziad-nader-67b04a31/

Ссылки:

Https://www.forbes.com/sites/robtoews/2020/10/12/the-next-generation-of-artificial-intelligence/?sh=6db9011559eb

Https://owkin.com/platform/software-stack/