Что такое трансферное обучение (TL) и чем оно отличается от классического машинного обучения (ML)?

Большая ложь ML заключается в том, что распределение обучающих данных совпадает с распределением данных, на которых будет использоваться модель. Что, если нарушается это предположение, что данные имеют разное распределение по разному пространству функций?

Когда доступно достаточно данных, можно просто переобучить модель на новых данных и полностью отбросить старые данные. Это не всегда возможно. Однако есть способ улучшить. Если известно, что существует связь между обучающими данными и другими данными, может помочь передача знаний (или передача обучения), полученных на обучающих данных, в модель для других данных.

Трансферное обучение отличается от классической установки машинного обучения: вместо обучения в одной обстановке знания, полученные при обучении в одной обстановке, повторно используются для улучшения обучения в другой. Трансферное обучение вдохновлено тем, как люди-ученики используют свои существующие знания и навыки: человек, который умеет читать литературу, с большей вероятностью преуспеет в чтении научных статей, чем человек, который вообще не умеет читать. В контексте обучения с учителем трансферное обучение подразумевает возможность повторно использовать знания о структуре зависимости между функциями и метками, изученными в одной настройке, для улучшения вывода о структуре зависимости в другой настройке. В Датасвати мы особенно заинтересованы в этом типе трансферного обучения, и я лично потратил значительную часть своего времени, работая над этими проблемами.

В этом посте я рассмотрю различные аспекты трансферного обучения, но сначала пару слов о классической настройке машинного обучения с учителем.

У нас есть набор данных D, который содержит образцы векторов признаков (x ∈ 𝒳) и соответствующие метки (y ∈ 𝒴): D = {(xi, yi): i = 1 ,…, m}. D состоит из набора обучающих примеров D | X = {xi: i = 1 ,…, m} и набор соответствующих меток D | Y = {yi: i = 1 ,…, m}. Здесь m - размер выборки. Предполагается, что все пары (x, y) отбираются независимо из одного и того же совместного распределения P (X , Y) (предположение iid), которое отражает зависимость между случайными величинами X и Y. Другими словами, (xi, yi) является реализацией (X, Y) ∼ P (X, Y) для всех i. Наша цель - использовать D для изучения функции h: 𝒳 → 𝒴 (h для гипотезы), чтобы h приближает истинное соотношение между x и y, то есть краткое изложение P (Y | X = x), например h (x) ≈ E ( Y | X = x). Когда мы ищем хороший h, мы ограничиваем наш поиск некоторым классом функций ℋ (например, классом линейных моделей), h ∈ ℋ. Если ℋ не слишком сложный, а размер выборки m достаточно велик, мы можем узнать хорошо h (например, используя Минимизация эмпирического риска:

, где l - некоторая функция потерь), так что h обеспечивает хорошее приближение истинного отношения между x и y не только на (x, y) ∈ D, но и на других данных (x, y) взят из P (X, Y).

Что делать, если у нас недостаточно данных или у нас нет ярлыков? Есть надежда?

Что, если…

  • … У нас есть несколько разных наборов данных, но с похожей структурой зависимости X-Y?
  • … У нас есть метки только для некоторых из этих наборов данных, но нет у других, и мы хотим делать прогнозы, когда метки недоступны?
  • … Мы хотим узнать зависимость от набора данных с небольшим размером выборки, когда у нас есть другой набор данных с большим размером выборки и похожей, но другой структурой зависимости?
  • … У нас есть комбинация всего этого?

Действительно, надежда есть, и она называется…
… трансферным обучением.

Пан, Янг и другие (2010) и Вайс, Хошгофтаар и Ван (2016) дают отличный обзор трансферного обучения до повального увлечения глубоким обучением. Пан, Янг и другие (2010) определяют домен 𝒟 как пространство признаков, рассматриваемое вместе с распределением вероятностей по этому пространству 𝒟 = (𝒳, P (X)). Формально задача определяется как 𝒯 = (𝒴, f), здесь f истинная, но неизвестная (и, возможно, стохастическая) функция f: 𝒳 → 𝒴, который мы пытаемся аппроксимировать с помощью h ∈ ℋ.

Чтобы определить основные типы трансферного обучения (TL), давайте рассмотрим упрощенную настройку, когда у нас есть всего два домена с одной задачей на домен: исходный домен 𝒟 S и задача 𝒯 S , целевой домен 𝒟 T и задача 𝒯 T. В этой простой настройке TL стремится улучшить обучение fT, используя знания 𝒯 S, 𝒟 S в дополнение к 𝒯 T , 𝒟 T, когда 𝒯 S ≠ 𝒯 T или 𝒟 S ≠ 𝒟 Т.

В таблице ниже приведены типы TL по сравнению с классическим ML.

Дополнительная классификация может быть проведена на основе пространств признаков:

Самый общий случай трансферного обучения - это когда как пространства функций, так и распределения различны, а также разные задачи.

Пан, Ян и другие (Pan, Yang, and others, 2010) группируют подходы к TL на основе вопроса «Что передавать»:

  • Обучение передачи на основе экземпляров. Предполагается, что некоторые данные из исходного домена могут быть повторно использованы в целевом домене. Здесь используются выборка по важности и повторное взвешивание экземпляров.
  • Перенос функции-представительства. Представление функции r изучено для облегчения моделирования зависимости между r (X) и Y. Затем он используется для повышения производительности целевой задачи. В контексте нейронных сетей можно обучить контролируемую модель в исходном домене, а затем взять представление из одного из последних слоев для преобразования данных в целевом домене, а затем обучить другую модель на этих преобразованных данных.
  • Передача параметров. Предполагается, что исходная и целевая задачи имеют одни и те же параметры или априоры. В простом случае, когда hS, hT ∈ ℋ, hS = f (x ; θS), hT = f (x; θT), это означает, что θS частично похож на θT. В контексте нейронных сетей можно взять предварительно обученную модель, такую ​​как VGG, и переобучить последние слои на собственных данных, специфичных для конкретной задачи (переобучение небольшой части θS).

В этой серии публикаций я рассмотрю некоторые недавние разработки в TL, включая адаптацию предметной области, обучение за несколько шагов и самые общие настройки многодоменного обучения с передачей.

В рамках гомогенной трансдуктивной ТЛ (𝒳 S = 𝒳 T = 𝒳) адаптация предметной области (обучение модели на данных из одного совместного распределения и использование ее на данные другого) в последнее десятилетие привлекли к себе пристальное внимание, особенно в контексте глубокого обучения.

Часто требуется найти преобразования ϕS, ϕT: 𝒳 → 𝒳̃, чтобы распределение преобразованных целевых данных было таким же, как распределение преобразованных исходных данных, то есть P (ϕS (X)) = P (ϕT (X )) для X ∈ 𝒳 или в частном случае, когда преобразование применяется только к исходным данным: ϕS (X) ∼ P (X). Здесь есть надежда, что мы сможем эффективно применить модель, обученную на преобразованных исходных данных, к преобразованным целевым данным.

Адаптация домена теоретически исследовалась в контексте задач классификации (Ben-David et al. 2007, 2010) и регрессии (Cortes and Mohri 2011). Бен-Дэвид и др. (2007) изучали условия, при которых классификатор, обученный на данных исходного домена, может использоваться в целевом домене. Они доказали верхнюю границу ошибки в целевом домене, которая выражалась как функция ошибки в исходном домене. Они расширили свой анализ в Ben-David et al. (2010). Таким образом, теория предполагает, что для эффективной адаптации предметной области необходимо обучить модель представлению данных, по которому невозможно различить исходный и целевой домены.

Сначала я упомяну некоторые общие подходы.

Очень простой подход к адаптации предметной области был предложен Доме III (2009). Daumé III (2009) преобразовал проблему адаптации домена в проблему контролируемого обучения, применив простое дополнение данных (дублирование функций или заполнение нулями) как для исходного, так и для целевого домена, а затем обучив модель на расширенных данных, собранных вместе из обоих доменов. Однако их подход требует помеченных данных в целевом домене (DTY ≠ ∅).

Без помеченных данных в целевом домене можно найти преобразования, которые выравнивают исходное и целевое распределения. Sun, Feng и Saenko (2016) предложили алгоритм CORrelation ALignment (CORAL), который выравнивает статистику второго порядка исходного и целевого распределений. Sun, Feng и Saenko (2016) показали, что CORAL может превзойти некоторые современные подходы, основанные на глубоком обучении.

Si, Tao и Geng (2010) использовали регуляризацию на основе дивергенции Брегмана для кросс-доменного неконтролируемого уменьшения размерности и предложили версии PCA с учетом переноса данных, линейный дискриминантный анализ Фишера (FLDA), проекции с сохранением местоположения (LPP), маргинальный анализ Фишера. (MFA) и дискриминационное выравнивание по местности (DLA). Дивергенция Брегмана использовалась для минимизации разницы между распределениями прогнозируемых данных в исходном и целевом доменах.

В своем анализе компонентов переноса (TCA) Pan et al. (2011) использовали максимальное среднее отклонение (MMD) как меру расстояния распределения. MMD использовался для изучения преобразования (компонентов передачи) набора данных, чтобы минимизировать расстояние распределения. Long et al. (2013) предложили совместную адаптацию распределения (JDA), которая обобщает TCA, включая цель минимизации условного распределения.

Недавно Optimal Transport был успешно использован для адаптации домена (Courty, Flamary и Tuia 2014; Courty, Flamary, Tuia и др., 2017; Courty, Flamary, Habrard и др., 2017). Оптимальный транспорт находит преобразование данных в одном домене в другой домен, минимизируя расстояние Вассерштейна между распределениями (Peyré, Cuturi и др., 2017).

В контексте обучения на основе смешанной модели Beninel et al. (2012) предложили метод сопоставления исходных данных, чтобы распределение, моделирующее преобразованные данные, было равно распределению, моделирующему целевые данные.

Glorot, Bordes и Bengio (2011) использовали адаптацию предметной области на основе представления признаков в контексте классификации настроений. Используя сокращенную версию набора данных Amazon, который включал данные в четырех разных доменах, они сначала собрали данные из всех доменов и изучили неконтролируемое представление функций с помощью Stacked Denoising Autoencoder (Винсент и др., 2008) на кратком представлении данные. Затем для каждой пары доменов источник-цель они обучили двоичный классификатор SVM представлению исходных данных и использовали его для представления целевых данных.

Ганин и Лемпицкий (2014) предложили архитектуру нейронной сети, которая объединяет адаптацию предметной области и глубокое изучение функций в рамках одного процесса обучения. Подобно состязательному обучению (Goodfellow et al.2014), они одновременно обучили две модели: i) сеть классификаторов предметной области для различения преобразованных исходных и целевых данных и ii) сеть предикторов, которая обучена предсказывать метки в исходной области, а также «Обмануть» классификатор предметной области (достигается с помощью члена регуляризации в его функции потерь). Однако вместо чередования обучения классификатора предметной области и предиктора они ввели уровень обращения градиента, который позволил провести сквозное обучение. Они продемонстрировали эффективность своего подхода на серии наборов данных компьютерного зрения: SVHN, MNIST и наборы данных дорожных знаков. Ajakan et al. (2014) эффективно применили очень похожую модель к набору данных анализа настроений в обзорах Amazon. Ганин и др. (2016) представляет расширенный анализ таких нейронных сетей, так называемых нейронных сетей доменно-состязательной адаптации.

Для продолжения нажмите здесь. Вы найдете во второй части обзор обучения с нулевым или несколькими выстрелами. В следующей третьей части я также рассмотрю обучение многодоменному переносу, поэтому, если вы не хотите пропустить эту историю, обязательно следите за нами.

Аякан, Хана, Паскаль Жермен, Уго Ларошель, Франсуа Лавиолетт и Марио Маршан. 2014. «Домен-состязательные нейронные сети». Препринт arXiv arXiv: 1412.4446.

Бен-Дэвид, Шай, Джон Блитцер, Коби Краммер, Алекс Кулеша, Фернандо Перейра и Дженнифер Вортман Воан. 2010. «Теория обучения из разных областей». Машинное обучение 79 (1-2): 151–75.

Бен-Давид, Шай, Джон Блитцер, Коби Краммер и Фернандо Перейра. 2007. «Анализ представлений для адаптации предметной области». В Достижения в системах обработки нейронной информации, 137–44.

Бенинель, Фарид, Кристоф Бирнацки, Шарль Бувейрон, Жюльен Жак и Александр Лурм. 2012. Модели параметрических связей для передачи знаний в статистическом обучении. Nova Publishers.

Кортес, Коринна и Мериар Мори. 2011. «Адаптация домена в регрессии». В Международной конференции по теории алгоритмического обучения, 308–23. Springer.

Курти, Николя, Реми Фламари, Амори Хабрар и Ален Ракотомамонжи. 2017. «Оптимальный транспорт совместного распространения для адаптации домена». В Достижения в системах обработки нейронной информации, 3730–9.

Курти, Николас, Реми Фламари и Девис Туиа. 2014. «Адаптация домена с помощью регуляризованного оптимального транспорта». В Объединенной европейской конференции по машинному обучению и открытию знаний в базах данных, 274–89. Springer.

Курти, Николас, Реми Фламари, Девис Туиа и Ален Ракотомамонжи. 2017. «Оптимальный транспорт для адаптации домена». Транзакции IEEE по анализу шаблонов и машинному анализу 39 (9): 1853–65.

Доме III, Хэл. 2009. «Удивительно простая адаптация домена». Препринт arXiv arXiv: 0907.1815.

Ганин, Ярослав и Виктор Лемпицкие. 2014. «Неконтролируемая адаптация домена с помощью обратного распространения ошибки». Препринт arXiv arXiv: 1409.7495.

Ганин, Ярослав, Евгения Устинова, Хана Аякан, Паскаль Жермен, Уго Ларошель, Франсуа Лавиолетт, Марио Маршан и Виктор Лемпицкий. 2016. «предметно-состязательное обучение нейронных сетей». Журнал исследований в области машинного обучения 17 (1): 2096–2030.

Глорот, Ксавье, Антуан Бордес и Йошуа Бенжио. 2011. «Адаптация предметной области для крупномасштабной классификации настроений: подход глубокого обучения». В Материалы 28-й Международной конференции по машинному обучению (ICML-11), 513–20.

Гудфеллоу, Ян, Жан Пуже-Абади, Мехди Мирза, Бинг Сюй, Дэвид Вард-Фарли, Шерил Озэр, Аарон Курвиль и Йошуа Бенжио. 2014. «Генеративные состязательные сети». В Достижения в системах обработки нейронной информации, 2672–80.

Лун, Миншэн, Цзяньминь Ван, Гуйгуан Дин, Цзягуан Сунь и Филип С.Ю. 2013. «Обучение передаче функций с совместной адаптацией распределения». В Proceedings of the IEEE International Conference on Computer Vision, 2200–2207.

Пан, Синно Джиалин, Айвор В. Цанг, Джеймс Т. Квок и Цян Ян. 2011. «Адаптация предметной области с помощью анализа передаточных компонентов». Транзакции IEEE в нейронных сетях 22 (2): 199–210.

Пан, Синно Цзялин, Цян Ян и другие. 2010. «Обзор трансфертного обучения». Транзакции IEEE по разработке знаний и данных 22 (10): 1345–59.

Пейре, Габриэль, Марко Кутури и другие. 2017. «Вычислительный оптимальный транспорт».

Си, Си, Дачэн Тао и Бо Гэн. 2010. «Регуляризация на основе дивергенции Брегмана для обучения трансферному подпространству». Транзакции IEEE по разработке знаний и данных 22: 929–42.

Сун, Баочен, Цзяши Фэн и Кейт Саенко. 2016. «Возвращение удручающе простой адаптации домена». В AAAI, 6: 8.

Винсент, Паскаль, Уго Ларошель, Йошуа Бенжио и Пьер-Антуан Манзаголь. 2008. «Извлечение и создание надежных функций с помощью автоэнкодеров с шумоподавлением». В Труды 25-й Международной конференции по машинному обучению, 1096–1103. ACM.

Weiss, Karl, Taghi M Khoshgoftaar и DingDing Wang. 2016. «Обзор трансфертного обучения». Журнал больших данных 3 (1): 9.

Первоначально опубликовано на medium.com 19 ноября 2018 г.