Введение

ИИ уже давно является модным словом в отрасли и имеет широкое применение во всех отраслях. Данные — это сырой ингредиент, на котором строится ИИ. В повседневной жизни, сознательно или неосознанно, мы производим петабайты данных.

Данные, особенно информация, позволяющая установить личность, хотя и необходимы для предоставления персонализированных рекомендаций, улучшений и оптимизаций, — палка о двух концах. Данные могут помочь компаниям понять своих заинтересованных сторон и свои собственные внутренние операции и стимулировать рост, но в то же время, если данные не управляются и не защищены, они также могут представлять угрозу от рук хакеров.

Повышенное значение придается конфиденциальности данных, безопасности данных, степени детализации, с которой пользователь может понять, как его / ее данные используются и передаются, и так далее. Серьезное отношение правительств к этому доказывается различными законами и нормативными актами, которые существуют с разной степенью ограничений и ограничений в разных странах — GDPR и CCPA являются главными из них.

Для ритейлеров это тем более актуальная проблема, поскольку поведение потребителей в наши дни требует от ритейлеров наличия надежного и достаточно гибкого механизма, чтобы лучше понимать своих клиентов и отслеживать их меняющиеся потребности, вооружившись этими данными, что позволяет им принимать решения и направлять их. к лучшему поиску продуктов и, в конечном итоге, к созданию клиентской базы [1]

Федеративное обучение, о котором идет речь в этом блоге, является одной из последних технологических парадигм, которая позволяет модели искусственного интеллекта развертываться на периферии, например: мобильные/носимые устройства, так что модели не нужно обмениваться данными или «разговаривать» с центральным сервером. для предоставления аналитических сведений скорее можно было бы сделать это, выполняя на самом пограничном сервере.[2]

Распределенное обучение

Распределенное машинное обучение, многоузловая система машинного обучения повышают точность, позволяют работать с большими объемами входных данных и улучшают производительность. Это уменьшает машинные ошибки и помогает с анализом данных и принятием решений. В настоящее время методы распределенного машинного обучения способны обрабатывать большие наборы данных.

Обработка больших объемов данных может быть сложной задачей, поскольку у методов машинного обучения есть проблемы с масштабируемостью и эффективностью.

Для крупномасштабного обучения требуются распределенные алгоритмы машинного обучения, поскольку они могут распределять операции обучения по нескольким рабочим станциям. Некоторые из секторов, где наиболее часто используются алгоритмы распределенного машинного обучения, включают здравоохранение, рекламу, энергосистемы, сотовые сети и т. д. В этих областях простое приложение генерирует большой объем данных. Из-за большого объема данных программисты часто переобучают данные, чтобы не мешать рабочему процессу, и используют параллельную загрузку.[3]

Что такое федеративное обучение?

Федеративное обучение предлагает способ обучения моделей ИИ, не позволяя никому видеть ваши данные или получать к ним доступ, высвобождая данные для запуска новых приложений ИИ.

Целью федеративного обучения является перенос вычислений туда, где находятся данные. Когда приобретается модель с глобальным общим доступом, а данные находятся, например, на смартфонах. Перенос модели на устройство позволяет нам обучать ее коллективно.[3]

Любой может принять участие в федеративном обучении на своих устройствах прямо или косвенно в свете этой концепции. В частности, для устройств с ограниченными вычислительными возможностями, где связь с меньшими устройствами является узким местом, периферийные устройства, такие как смартфоны и устройства IoT, могут извлечь выгоду из данных на устройстве, даже если данные никогда не покидают устройство.[5]

Это отличная идея перенести вычисления в данные, чтобы создать любую интеллектуальную систему, защищая при этом конфиденциальность пользователей. На самом деле это децентрализованная форма машинного обучения.

Как работает федеративное обучение?

Федеративное обучение позволяет обучаться на периферии, позволяя применять обучение модели к данным, разбросанным по миллионам устройств. Кроме того, это дает вам возможность улучшить результаты, полученные из отдаленных областей. Посмотрим, как это работает.

Сначала вы выберете модель для запуска возможностей, которая либо никогда не обучалась, либо уже обучалась на основном сервере. Распространение исходной модели среди клиентов будет следующим этапом процесса.

Каждый клиент продолжает использовать локальные данные для локального обучения. Крайне важно, чтобы эти обучающие данные, которые могут включать в себя привилегированные электронные письма, журналы чатов, личные изображения и показатели здоровья, держались в секрете. Собрать эти данные в облачных средах может быть сложно или даже невозможно.

После локального обучения обновленные модели передаются по зашифрованным каналам связи на главный сервер. Важно помнить, что в этом сценарии сервер получает только параметры обученной модели, а не фактические данные. Обновления от всех клиентов усредняются и объединяются для повышения точности общей модели. Затем эта модель возвращается на все компьютеры и серверы.

Захватывающим аспектом федеративного обучения является итеративный процесс обучения. В результате участники все еще могут общаться, в то время как сервер и клиенты передают туда и обратно обновленные параметры. Работает ли устройство с конфиденциальными данными независимо от того, включено оно или нет, это возможно без ущерба для его конфиденциальности.[5]

Насколько федеративное обучение отличается от классического распределенного/централизованного обучения?

Основное различие между федеративным обучением и распределенным обучением заключается в предположениях о свойствах локальных наборов данных, при этом исходная цель распределенного обучения состоит в том, чтобы распараллелить вычислительную мощность, а исходная цель федеративного обучения состоит в обучении на разнородных наборах данных.

В обычном машинном обучении данные участников независимы и равномерно распределены. С другой стороны, федеративное обучение делает предположение об отсутствии i.i.d, поскольку разные пользователи имеют разные типы данных.

В обычном машинном обучении все обучение выполняется на одном сервере после сбора данных. В этом обучении представлены многочисленные проблемы с конфиденциальностью, когда данные передаются на основной облачный сервер.

Обучение федерации превзошло по важности обучение распределенным данным. Пользователи могут коллективно обучать локальные модели на локальных данных с помощью федеративного обучения, которое защищает личную информацию пользователей от передачи центральному облачному серверу. Это позволяет проводить непрерывное обучение на устройствах конечных пользователей, гарантируя при этом, что никакие данные конечных пользователей не покидают устройство.

В традиционном машинном обучении централизованная среда использует все обучающие данные для построения единой модели машинного обучения. Эта функция работает без сбоев, когда центральный сервер доступен для доставки прогнозов. [3]

Федеративное обучение может быть реализовано на устройстве конечного пользователя, но непрерывное обучение затруднено, поскольку модели необходимо обучать на большом наборе данных, к которому устройство конечного пользователя не имеет доступа.

Роль федеративного обучения в персонализации при сохранении конфиденциальности данных

Федеративное обучение использует децентрализованные пограничные устройства или серверы для хранения распределенных данных и применяет к ним методы машинного обучения. На централизованный сервер исходные данные никогда не перемещаются. Он сохраняется на гаджете.

Результаты отправляются обратно на сервер после того, как алгоритм обучения завершит обработку данных. Предоставленные результаты были зашифрованы. Это делает невозможным изучение результатов и воссоздание исходных данных. Выводы могут быть зашифрованы с использованием неизвестного серверу ключа для повышения безопасности, что затрудняет расшифровку любых данных. Каждое устройство способно создавать высококачественную модель, отправляя множество пакетов обучающих данных с течением времени. После этого обучающий алгоритм может удалить себя из машины, которую он использовал. Чтобы обеспечить максимально возможную скорость загрузки, эти обновления квантуются и чередуются случайным образом.

Сервер использует только средние результаты обновлений при использовании метода федеративного усреднения. Использование безопасной агрегации является альтернативной стратегией. В этот момент сервер может декодировать только совокупные данные, поскольку этот метод объединяет зашифрованные результаты с любого количества пограничных устройств. Это добавляет еще один уровень безопасности, что еще больше затрудняет восстановление исходных данных. Каждое граничное устройство, которое будет передавать свои результаты обучения, сначала добавляет к результатам маски с нулевой суммой. Для этого используется защищенный протокол агрегации. Затем результаты представляются в скрытом формате. С другой стороны, маски точно компенсируются при суммировании результатов обучения.

Несмотря на то, что сервер не может получить доступ к результатам какого-либо пограничного устройства, все еще существует проблема конфиденциальности в отношении того, что произойдет, если одно устройство предоставит особую информацию, которая выделяется из других собранных результатов. Вопрос в том, может ли совместное использование данных с этого одного устройства с другими результатами на сервере поставить под угрозу право источника на неприкосновенность частной жизни. То, что это может случиться, является тревожным ответом. Чтобы этого не произошло, любые аномальные данные удаляются. Аргумент состоит в том, что для того, чтобы машинное обучение работало наилучшим образом, оно должно распознавать и использовать общие закономерности в данных.

Альтернативной стратегией, которую можно было бы использовать, является дифференциальная конфиденциальность. Это ограничивает объем данных, которые могут поступать с однограничного устройства и использоваться в модели. Кроме того, можно добавить шум, чтобы скрыть любые необычные данные. Это не позволяет одному устройству предоставлять слишком много данных и оказывать большое влияние на строящуюся модель. Для этого используется термин «запоминание модели».[4]

Размер модели и федеративное обучение

Размер модели описывает объем хранилища и вычислительную мощность, необходимые для хранения и использования модели машинного обучения. Более крупные модели обычно имеют больше параметров и могут фиксировать более сложные закономерности в данных, но они также требуют больше времени и денег для обучения и использования.

Размер модели является важным фактором при использовании федеративного обучения, метода распределенного машинного обучения, который позволяет нескольким сторонам обучать общую модель без совместного использования своих данных.

Каждый участник федеративного обучения обучает локальную версию модели на своих собственных данных, а затем обновления объединяются для улучшения общей модели. Стороны могут столкнуться с трудностями при обучении модели локально, если размер модели большой, поскольку для этого может потребоваться чрезмерный объем памяти и вычислительной мощности. В результате период обучения может быть продлен, а обновления глобальной модели могут передаваться медленно.

Можно уменьшить размер модели без заметного ухудшения ее производительности, используя для решения этой проблемы такие методы, как сжатие модели или обрезка. Чтобы спроектировать архитектуру модели, которую можно эффективно обучать и развертывать на конечных устройствах, также важно учитывать ограничения устройства и сети.

Использование таких методов, как федеративное обучение с помощью коградиентного спуска, которое позволяет сторонам обучаться с использованием подмножества параметров глобальной модели, является еще одним вариантом, который может помочь снизить требования к памяти и обработке на локальных устройствах.

Большие модели можно обучать на распределенных данных, комбинируя федеративное обучение и размер модели, что может повысить эффективность и масштабируемость систем машинного обучения. При проектировании и внедрении федеративных систем обучения необходимо тщательно решать эти проблемы, поскольку они представлены этой стратегией, включая вопросы коммуникации и конфиденциальности, которые она поднимает.

Как добиться персонализации в моделях FL?

Благодаря свободе хранения данных на устройстве пользователя для дальнейшей обработки возможности персонализации взаимодействия с пользователем резко возросли. Как правило, существует три этапа создания персонализированного федеративного обучения.

  • Начальный этап

Начальный этап знаменует собой первый шаг в создании канала связи между различными участниками сети. Эта фаза относится к начальному обмену информацией. В то время как граничные вычисления шифруют данные конечных пользователей, локально обученные модели совместно используются в сети на основе федеративного обучения. Таким образом, первоначальный набор сообщений здесь переносится на следующий уровень [7][8].

  • Этап обучения

На этапе обучения строится локальная модель с использованием данных конечного пользователя. В граничных вычислениях это происходит на периферии и при федеративном обучении на самом устройстве. Это итеративный процесс, при котором глобальная модель, собранная на центральном сервере, обновляется коллективно, повышая точность для каждого цикла обучения [7] [8].

  • Этап персонализации

Этот этап является продолжением этапа обучения. Личная информация используется для создания локальной модели на локальном устройстве. В федеративном обучении на этом этапе рассматривается устройство конечного пользователя, источник пользовательских данных, и он позволяет локальным моделям более эффективно согласовываться с пользовательской информацией, создавая общий персонализированный опыт [7][8].

Что мотивирует персонализацию в федеративном обучении?

Федеративное обучение позволяет разрабатывать локальную модель на устройстве пользователя. Однако нет двух одинаковых устройств или пользователей. Существует ряд вариантов локальных моделей, созданных для нескольких пограничных устройств. Это приводит к неоднородности данных на разных уровнях. Это основной драйвер реализации концепций персонализации во всей коммуникационной сети. Таким образом, мотивация к внедрению персонализации классифицируется ниже. [8]

  • Неоднородность устройств

Растущее использование устройств IoT и постоянное улучшение коммуникационных возможностей конечных устройств привели к появлению множества вариантов. Пограничные устройства теперь варьируются от возможностей хранения и обработки данных до коммуникационных и аппаратных возможностей. Все эти функции напрямую влияют на затраты на обработку данных и связь при работе этих устройств на локальном конце. Это становится особенно сложной задачей, когда устройства различной сложности подвергаются одному и тому же итеративному процессу обучения модели посредством глобальных обновлений. Таким образом, проблемы связи с разнородными устройствами можно решить только путем внедрения пользовательских методов федеративного обучения [7] [8].

  • Неоднородность данных

Ключевым термином в этой категории является распространение данных, не относящихся к IID. Это относится к неидентичному распределению независимых данных. У каждого пользователя есть своя среда фиксации устройства, что приводит к уникальному результату для каждого устройства. В каждом устройстве существует множество различных типов данных, а также количество выборок, взятых для обучения локальной модели. Эта проблема приводит к расхождению глобальной модели, что прямо противоположно конечному результату.

Хотя существуют решения в виде интегрированного усреднения (FedAvg) для борьбы с неоднородностью данных [9], это может привести к снижению производительности и привести к незначительным результатам. Следовательно, очень важно внедрить персонализированные модели федеративного обучения [7] [8].

  • Неоднородность модели

Когда несколько устройств подключены к сети, пользователи обычно договариваются о предопределенной коммуникационной архитектуре. Это обеспечивает эффективную среду для конвергенции локальных моделей и упрощает развертывание глобальной модели на всех пограничных устройствах. Однако с появлением IoT-устройств выявилась адаптируемость и потребность в более персонализированной модели связи. Из-за разнообразия сред и ограничений ресурсов каждое устройство ищет модель, которая лучше всего подходит для его работы, сохраняя при этом конфиденциальность своей архитектуры. Следовательно, требуется адаптация модели FL для создания решения, в котором различные архитектуры моделей могут быть связаны и переданы через глобальную стандартную модель.

Хотя эти разнородные проблемы увеличивают сложность коммуникационной сети, проблемы инициировали поиск возможных решений. Таким образом, они стали основными мотивирующими факторами, которые привели к развитию персонализированного федеративного обучения [7] [8].

Методы, используемые в федеративном обучении для персонализации

  • Метаобучение [7] [8]

Концепция метаобучения направлена ​​на повышение адаптивности локальной модели за счет внедрения алгоритма обучения в различные функции [10]. Метаобучение предлагает несколько вариантов данных для локальной модели, улучшая способность обучаться и адаптироваться к новым данным. Это увеличивает способность локальной модели обучать варианты глобальной модели.

Некоторыми примерами алгоритмов метаобучения являются модельно-независимое метаобучение (MAML) [11] и Reptile[12]. Они довольно популярны благодаря быстрой обработке данных и быстрой адаптации. MAML разрешил обработку данных двумя сериями: мета-обучение и мета-тестирование. В то время как этап обучения фокусируется на построении глобальной модели с использованием различных задач, этап тестирования перестраивает глобальное обучение для локальных моделей. Функции MAML основаны на концепции федеративного усреднения, при этом алгоритм Reptile играет роль, аналогичную FedAvg, на этапе метатестирования.

Таким образом, идея состоит в том, чтобы повысить точность глобальной модели, чтобы ее можно было легко настроить для локальной конечной точки, позволяя мета-обучению решать вопросы персонализации как в ядре, так и у конечных пользователей.

  • Перенос обучения [7] [8]

Как следует из названия, эта методика основана на переносе результатов машинного обучения из одного источника в другой. Это позволяет использовать ранее обученные модели обучения и ускоряет процесс на локальном конце. В случае с федеративным обучением идея заключается в совместном использовании глобальной модели с пограничными устройствами, чтобы они могли настроить обновление на локальном конце.

Процесс в основном осуществляется двумя способами.

В первом подходе глобальная модель сначала обучается с помощью традиционного подхода FL, а выходные данные передаются устройствам конечных пользователей. После этого каждое устройство использует глобальную модель и свои пользовательские данные для создания локальной модели. Только несколько выбранных параметров переобучаются с локальными данными, чтобы избежать проблем с обучением. При этом передаются нижние слои глобальной модели. и повторно использован.

Второй подход делит обучение на два слоя: фундамент и персонализация. Базовый уровень является общим и обучается коллективно с использованием традиционных подходов федеративного обучения. Эти пользовательские слои обучаются локально с использованием пользовательских данных. Каждое устройство конечного пользователя обучает эти настраиваемые уровни, используя типичную глобальную модель, что приводит к улучшенному включению персонализированных методов обучения в модели FL.

  • Многозадачное обучение [7] [8]

Этот метод направлен на выявление взаимосвязи между различными локальными моделями в процессе обучения. Это одновременно изучает конкретные задачи с нескольких устройств без ущерба для конфиденциальности входных данных, что приводит к персонализированным моделям, и позволяет каждому устройству получать выгоду от других устройств, обучая их первоначальные модели.

Центральный сервер обрабатывает сходство параметров модели между разными клиентами, позволяя конечным устройствам обновлять свои модели на основе выявленных взаимосвязей данных. В результате проблема неоднородности данных решается наряду с улучшением качества персонализации на локальном конце. MOCHA [13] — это стандартный алгоритм реализации многозадачного обучения.

Заключение

Персонализация приобрела большое значение на быстро развивающемся рынке цифровых коммуникаций. Итак, с прогрессивной идеей граничных вычислений и FL развилась идея персонализации, которая привела к персонализированному федеративному обучению. Пользовательский опыт можно улучшить, внедрив три основных этапа персонализации; Начальный уровень, обучение и персонализация.

Ключевой проблемой для персонализации остается разнообразие различных заинтересованных сторон в рамках одной сети. Это называется неоднородностью, которая может быть многократной в федеративном обучении. Распространение по разным периферийным устройствам, типам данных и архитектурам моделей; Неоднородность создает разнообразные проблемы. При этом эти проблемы являются важными мотивирующими факторами для разработки пользовательских моделей FL.

Стандартный механизм, реализованный для достижения персонализации, включает в себя метаобучение, трансферное обучение и многозадачное обучение. Все методы направлены на создание персонализированного опыта для пользователей конечных устройств без ущерба для конфиденциальности и решения различных проблем неоднородности. [7] [8]

Ссылки

[1] https://pwc.com/future-of-cx

[2] https://www.analyticsvidhya.com/blog/2021/05/federated-learning-a-beginners-guide/

[3] https://research.ibm.com/blog/what-is-federated-learning

[4] https://analyticsindiamag.com/distributed-machine-learning-vs-federated-learning-what-is-better/

[5] https://federated.withgoogle.com/

[6] https://research.aimultiple.com/federated-learning/

[7] На пути к персонализированному федеративному обучению Алиса Цзыин Тан, Хан Ю∗, Личжэнь Цуй∗ и Цян Ян∗, научный сотрудник IEEE

[8] https://blog.nimbleedge.ai/personalized-fl-101/

[9] С. П. Каримиредди, С. Кале, М. Мори, С. Дж. Редди, С. У. Стич и А. Т. Суреш, «ЛЕСА: стохастическое контролируемое усреднение для федеративного обучения», в ICML, 2020, стр. 5132–5143

[10] Т. Хоспедалес, А. Антониу, П. Микаэлли и А. Сторки, «Обучение металлами в нейронных сетях: обзор», IEEE TPAMI, №. 01, стр. 1–1, 2020 г.

[11] К. Финн, П. Аббил и С. Левин, «Независимое от модели метаобучение для быстрой адаптации глубоких сетей», в ICML, 2017, стр. 1126–1135.

[12] А. Николь, Дж. Ачиам и Дж. Шульман, «Об алгоритмах метаобучения первого порядка», arXiv: 1803.02999, 2018 г.

[13] В. Смит, К.-К. Чанг, М. Санджаби и А. Талвалкар, «Федеративное многозадачное обучение», в NeurIPS, vol. 30, 2017 г., стр. 4427–4437.