В настоящее время астрономия сталкивается с лавиной данных. Например, выпуск данных 5 Многообъектного оптоволоконного спектроскопического телескопа большой области неба (LAMOST) содержит более 9 миллионов спектров звезд, а Sloan Digital Sky Survey имеет архив со спектрами более 3 миллионов звезд. астрономические объекты. Более того, миссия Gaia Европейского космического агентства проведет астрономическое наблюдение за 1 миллиардом звезд. Поэтому мы должны разработать новые алгоритмы, которые будут фильтровать эти огромные архивы данных для человека, потому что люди не смогут найти редкие астрофизические объекты со сложной физикой, которые потенциально могут привести к новым научным открытиям.

Расширенное машинное обучение является неотъемлемой частью рабочих процессов, ведущих к открытиям в больших объемах данных. Целью этого проекта является анализ влияния применения доменной адаптации в астрономических архивах с акцентом на нейросетевые модели, которые позволили бы использовать размеченные данные одного наземного телескопа или космической миссии для обнаружения объектов в другом архиве. Например, 700-миллиметровая камера спектрографа 2-метрового телескопа Ондржейова уже создала архив примерно из 17 тысяч спектров звезд с эмиссионными линиями. С другой стороны, архив телескопа LAMOST не ориентирован на звезды эмиссионных линий и его разрешающая способность значительно ниже. Если мы хотим найти звезды с эмиссионными линиями в LAMOST, то использование данных телескопа Ондржейова должно быть полезным, но, поскольку эти телескопы имеют разное разрешение и наблюдают разное распределение звезд, стандартное машинное обучение применить нелегко. Здесь решение состоит в использовании адаптации предметной области, которая позволила бы нам адаптировать данные спектрографа Ондржейова и использовать их в качестве обучающих данных сверточной нейронной сети. Затем сеть будет идентифицировать звезды с эмиссионными линиями в архиве LAMOST, давая нам новые образцы редких объектов, таких как сверхновые звезды или квазары.

Далее мы приводим некоторые общие сведения об астрономической спектроскопии, адаптации предметной области в контексте трансферного обучения, активного обучения и сверточной нейронной сети, поскольку все эти области играют решающую роль в наших предварительных результатах. В следующих разделах описывается связанный исследовательский проект по адаптации домена с особым акцентом на применение в астрономии и предварительные результаты нашей методологии глубокого активного обучения (сочетание сверточной нейронной сети с активным обучением). Мы завершаем этот пост в блоге нашим планом будущих исследований.

История астрономии и машинного обучения

Чтобы понять эту работу, нам нужно сначала ввести спектральные данные, потому что мы заинтересованы в их классификации. Затем мы определим адаптацию предметной области в контексте трансферного обучения, чтобы мы были уверены, в какой среде мы находимся и чего хотим достичь. Наконец, мы включили короткие разделы о сверточных нейронных сетях и активном обучении вместе с идеями о том, почему они необходимы для наших предварительных результатов.

Астрономическая спектроскопия

Телескопы — это гигантские глаза, которые могут собирать гораздо больше света, чем человеческий глаз. Спектрографы могут рассеивать свет, собранный телескопом, в спектры, которые показывают состав объектов, скорость, температуру и многое другое. В этом разделе мы вводим спектроскопию в соответствии с учебником Беннета (2005) и веб-страницей ЕКА о спектроскопии Gaia.

Видимый свет — это лишь крошечная часть полного спектра электромагнитного излучения. Полный спектр электромагнитного излучения обычно называют электромагнитным спектром. Электромагнитное излучение несет информацию о звездах и планетах, состоящих из материи, по всей Вселенной. Энергия, переносимая светом, взаимодействует с материей следующим образом:

  • излучение (электрический ток, протекающий через лампочку, нагревает ее до точки, при которой ее вещество излучает видимый свет);
  • поглощение (рука, помещенная рядом с зажженной лампочкой, поглощает часть света).

Спектры бывают трех основных типов, и реальные астрономические спектры обычно представляют собой комбинацию этих типов:

  1. спектр обычной лампочки представляет собой непрерывную радугу (так называемый спектр теплового излучения);
  2. если облако газа находится между детектором и колбой, облако может поглощать определенную длину волны, образуя спектр линии поглощения;
  3. облако может само излучать свет; поэтому этот спектр называется спектром эмиссионных линий.

Тот факт, что каждый атом, ион или молекула обладает уникальным набором энергетических уровней, вызывает линии излучения и поглощения на определенных длинах волн в спектрах. Спектральные линии соответствуют длинам волн света, поглощаемого химическими веществами на поверхности звезды. Следовательно, положение линий излучения и поглощения может сказать нам о составе объектов.

Мы отображаем спектры как полосы света, которые представляют собой проекцию света, проходящего через призму на стене. Более разумным способом является отображение спектров в виде графиков интенсивности света на каждой длине волны. Два изображения ниже иллюстрируют обе эти визуализации.

Наконец, мы можем рассматривать астрономический спектр как одномерное изображение. Поэтому сверточные нейронные сети кажутся отличным инструментом для их анализа.

Определение предметной адаптации в контексте трансферного обучения

Теперь мы представляем ключевую концепцию нашей работы: адаптация предметной области. Адаптация предметной области — это подраздел трансферного обучения, который является частью машинного обучения. Трансфертное обучение определяется в большинстве работ, посвященных Pan and Yang (2010). Преимущество более недавнего исследования Weiss, Khoshgoftaar and Wang (2016) состоит в том, что оно содержит более новые методы, чем Pan and Yang (2010), но его определение трансферного обучения и адаптации предметной области такое же, как у Pan and Yang (2010).

В машинном обучении принято исходить из того, что обучающие и тестовые данные независимы и одинаково распределены, что означает, что образцы берутся из одного и того же пространства признаков и одного и того же распределения. (Дауме III и Марку, 2006 г.) Когда это предположение не выполняется, в игру вступают трансферное обучение и адаптация предметной области. Более того, по словам Торри и Шавлика (2010), существует биологическое вдохновение, потому что у людей, похоже, есть естественные способы переноса знаний из предыдущего опыта на новые задачи.

Пан и Янг (2010) определяют перенос обучения как способность системы распознавать и применять знания и навыки, полученные в предыдущих задачах, к новым задачам. Пан и Янг (2010) вводят понятия домена и задачи. Домен состоит из двух компонентов: пространства признаков и маргинального распределения вероятностей. Учитывая конкретную область, задача состоит из двух компонентов: пространства меток и целевой прогностической функции, которая не наблюдается, но изучается на основе обучающих данных. . Когда нам дают задачу переноса обучения, мы должны определить исходную область и исходную задачу обучения, целевую область и целевую задачу обучения. Затем перенос обучения направлен на то, чтобы помочь улучшить изучение целевой прогностической функции в целевой области с использованием знаний в исходной области и исходной задаче, где домены разные или задачи разные.

Адаптация домена — это сценарий, когда исходный и целевой домены имеют разные предельные распределения вероятностей (например, два разных телескопа наблюдали спектры), а задачи одинаковые (мы хотели бы отнести их к одним и тем же классам).

Наконец, Торри и Шавлик (2010) предупреждают, что как исходный, так и целевой домены и задачи должны быть достаточно связаны между собой, иначе может произойти негативный перенос. Отрицательный перенос — это ситуация, при которой использование исходных данных ухудшает производительность. С другой стороны, когда производительность повышается, мы говорим об положительном переносе.

Сверточные нейронные сети

Глубокие сверточные нейронные сети (Гудфеллоу и др., 2016) — это современный метод решения задачи классификации изображений. Таким образом, сверточные нейронные сети кажутся подходящими для классификации астрономических спектров, поскольку их можно рассматривать как одномерное изображение с одним каналом (поток и, возможно, больше, так как обратная дисперсия часто предоставляется со спектральными данными), тогда как изображение представляет собой двухмерное изображение. -мерная матрица обычно с тремя RGB-каналами.

Более того, сверточные нейронные сети используют три важных свойства. Во-первых, ядра, используемые для свертки с изображением, имеют меньше параметров, чем полносвязные нейронные сети. Во-вторых, они имеют общие параметры для всех местоположений и, наконец, они эквивалентны переводу, что означает, что объект может быть смещен на изображении, но все равно будет распознан. Кроме того, объединение слоев делает их инвариантными к небольшим смещениям и поворотам, что является отличным свойством для обнаружения спектральных линий, поскольку спектральные линии могут смещаться в синее или красное смещение из-за движения объектов во Вселенной.

Активное изучение

Как мы увидим в следующем разделе, активное обучение сыграло важную роль в приложениях адаптации предметной области и трансфертного обучения в астрономии. Поэтому мы даем краткое введение в активное обучение, согласно Сеттлсу (2009), а также даем представление о его потенциале в науке.

Активное обучение — это область машинного обучения, основанная на идее о том, что алгоритм будет работать лучше и с меньшим количеством данных для обучения, если ему будет разрешено выбирать данные для обучения. Машинный алгоритм в сочетании с активным обучением (активный ученик) запрашивает неразмеченные примеры данных для пометки оракулом (например, астрономом).

Фундаментальный — это стратегия запроса, поскольку все сценарии активного обучения включают оценку показателя информативности неразмеченных примеров. Простейшей из них является пассивная выборка, при которой примеры выбираются случайным образом. Наиболее часто используемой стратегией является выборка по неопределенности, которая запрашивает примеры, относительно которых наименее точно можно пометить. Выборка по неопределенности подходит для использования со сверточной нейронной сетью со слоем softmax, поскольку энтропию можно вычислить непосредственно из вероятностей в слое softmax. Простота вычислений является причиной того, что мы используем стратегию выборки неопределенности в наших предварительных экспериментах.

Активное обучение — это не единственный способ передачи знаний между двумя областями, но и способ передачи знаний человека-эксперта (например, астронома или биолога) в модель машинного обучения. Эксперт-человек в роли оракула может направить алгоритм на исключение некоторых образцов из классификации и наоборот.

Адаптация предметной области и передача обучения в астрономии

Как мы показали во введении, адаптация домена представляет большой интерес для астрономов из-за различных инструментов, измерений и распространения наблюдений. Поэтому в этом разделе мы рассмотрим текущее состояние адаптации предметной области в астрономических приложениях.

Если у нас есть общий набор наблюдаемых звезд в обоих архивах, то мы можем нанести их на карту и узнать передаточную функцию. Хо и др. (2017) сделали именно это, потому что нашли общий набор из 9952 спектров как в архивах APOGEE, так и в архивах LAMOST. Используя этот набор, они обучили метод Кэннона (Несс и др., 2015) и использовали модель для передачи некоторых физических параметров из APOGEE в LAMOST.

В случае отсутствия общего набора Gupta et al. (2016) экспериментировали с выравниванием подпространства (Фернандо и др., 2014) и сопоставлением среднего ядра (Греттон и др., 2008) с последующим активным обучением. . В случае подпространственного выравнивания произошел отрицательный перенос, в то время как сопоставление ядерных средних кажется очень многообещающим в задаче классификации сверхновых. Затем Вилальта и соавт. (2018) расширили работу Gupta et al. (2016). Вилальта и др. (2018) использовали подход максимум апостериорно (MAP), чтобы узнать априорные параметры модели из спектроскопической исходной области, а затем использовать это априорное распределение для изучения модели в фотометрической целевой области. В частности, Вилалта и соавт. (2018) поставили априорное количество слоев нейронной сети, а затем использовали активное обучение. Ричардс и др. (2011) столкнулись с аналогичной ситуацией, поскольку Gupta et al. (2016). Ричардс и др. (2011) представляют проблему как смещение выборки (Shimodaira 2000) или ковариативный сдвиг (Heckman 1979), когда разные распределения генерируют исходные и целевые данные. Это именно та проблема, которую мы определили как адаптацию предметной области. Ричардс и др. (2011) экспериментировали со случайным лесом в сочетании с тремя методами адаптации предметной области: взвешивание по важности (Shimodaira 2000), совместное обучение (Blum and Mitchell 1998) и активный обучение (Settles 2009). Результат не удивителен с нашей точки зрения. Активное обучение работает лучше всего, в то время как взвешивание важности и совместное обучение обеспечивают отрицательный перенос.

Термин трансферное обучение недавно использовался в контексте глубокого обучения. Однако трансферное обучение в контексте глубокого обучения означает нечто более конкретное, чем то, что мы ранее определили как трансферное обучение. Трансферное обучение в контексте глубокого обучения — это конкретная ситуация, когда берется предварительно обученная модель глубокой нейронной сети, а ее последние слои переобучаются на данных целевой предметной области. Аккерманн и др. (2018) использовали подход трансферного обучения в контексте глубокого обучения для обнаружения слияний галактик. Аккерманн и др. (2018) взяли сверточную нейронную сеть Xception Шолле (2016) и переобучили ее последние слои с изображениями слияния галактик, помеченными в проекте гражданской науки Galaxy Zoo. Такой подход к трансфертному обучению позволил Ackermann et al. (2018), чтобы снизить наилучший уровень ошибок на 15%.

Предварительные результаты

Обнаружение интересующих объектов в обширном астрономическом архиве было бы легкой задачей, если бы у нас был репрезентативный помеченный обучающий набор. Затем мы обучим нейронную сеть свертки (или даже более простую модель) и получим согласованный результат с соответствующей точностью. Однако, поскольку большинство больших архивов не имеют маркировки или маркировка не соответствует нашей задаче, нам необходимо разработать новую процедуру.

В нашем предварительном эксперименте мы сосредоточимся на обнаружении объектов с редкими эмиссионными линиями с эмиссионной линией в Hα (6564 Å). В качестве исходного домена мы используем телескоп Ондржейова, а в качестве целевого домена — данные LAMOST Data Release 2. Набор данных Ондржейова содержит 12936 помеченных звездных спектров из архива Ондржейова CCD700, а спектры наблюдались с помощью 2-метрового телескопа Ондржейов Перек. Спектры делятся на три класса: абсорбционные, однопиковые и двухпиковые в соответствии с их профилем в спектральной линии Hα. Интересующие классы представляют собой однопиковые и двухпиковые спектры. В то время как выпуск данных LAMOST 2 содержит более 4 миллионов немаркированных спектров, полученных с помощью спектрографа низкого разрешения.

Зная, что большинство успехов в астрономии с адаптацией предметной области было достигнуто с использованием активного обучения и что глубокое обучение является современным рубежом (Гудфеллоу, Бенжио и Курвиль, 2016), мы объединили глубокую сверточную нейронную сеть с активным обучением, назвали это глубоким активным обучением и применили его. к спектральным данным.

Активное глубокое обучение

Во-первых, мы разработали глубокую сверточную нейронную сеть, вдохновленную VGGNet (Симонян и Зиссерман, 2014), и адаптировали ее для работы с одномерными спектрами. Мы протестировали эту сверточную нейронную сеть на наборе данных Ondřejov, получив точность тестирования 96%. Затем мы применили сверточную нейронную сеть поезда к данным из LAMOST. Поскольку в LAMOST нет меток, мы оценили точность по 30 случайно выбранным образцам, и результат оказался хуже. Однако мы начали с активного обучения и в каждой итерации:

  1. мы выбрали 100 спектров, используя стратегию запроса выборки по неопределенности;
  2. вручную промаркированы 100 выбранных спектров с помощью стратегии запроса выборки по неопределенности;
  3. добавили размеченные спектры в обучающую выборку;
  4. выполнили балансировку классов нового тренировочного набора с помощью SMOTE (Чавла и др., 2002);
  5. переобучить сверточную нейронную сеть с помощью расширенного обучающего набора и
  6. снова классифицировать данные LAMOST.

Пройдя этот цикл 17 раз, мы остановили активный цикл обучения, потому что получили очень надежные результаты. На левом изображении ниже показаны оценки точности для каждой итерации.

Сеть правильно идентифицировала 3641 спектр с одним пиком из 3731, предсказанных как спектры с одним пиком (точность 97,6%), и правильно идентифицировала 609 спектров с двойным пиком из 648, предсказанных как спектры с двойным пиком (точность 94,0%). На изображениях ниже показаны некоторые избранные нанесенные на карту обнаруженные звезды с эмиссионными линиями.

Будущая работа

В качестве следующих шагов мы собираемся больше экспериментировать с активным обучением, потому что активное обучение имеет свойство создавать предвзятую обучающую выборку. (Settles 2009) Таким образом, мы можем пропустить какой-то интересующий объект в целевом домене. Кроме того, мы также хотим заменить активное обучение автоматическим подходом и посмотреть, имеют ли человеческие экспертные знания решающее значение для хороших результатов открытия или нет.

Наконец, мы хотим попробовать использовать такие методы, как перевод непарного изображения в изображение (Zhu et al. (2017), сеть передачи домена (Taigman, Polyak, and Wolf, 2016), самосборка (French, Mackiewicz, and Fisher, 2018). ) или функции минимальной сложности (Галанти, Бенаим и Вольф, 2018), которые сделают образцы из исходного домена похожими на взятые из распределения целевого домена.Мы считаем, что перечисленный метод может снизить несоответствие между исходным и целевым распределением. и, таким образом, повысить точность классификации.

Подтверждение

Я хочу поблагодарить Петра Шкоду за его поддержку в этом исследовании и его бесценные знания в данной области. Кроме того, это исследование проводится в рамках VýLeT 2019 на факультете информационных технологий Чешского технического университета в Праге.

Библиография

Акерманн, Сандро, Кевин Шавински, Се Чжан, Анна К. Вайгель и М. Деннис Терп. 2018. Использование трансферного обучения для обнаружения слияний галактик. Ежемесячные уведомления Королевского астрономического общества 479 (1): 415–25. https://doi.org/10.1093/mnras/sty1398.

Беннетт, Джеффри О., изд. 2005. Основная космическая перспектива. 3-е изд. Сан-Франциско: Пирсон/Аддисон Уэсли.

Блум, Аврим и Том Митчелл. 1998. «Объединение размеченных и неразмеченных данных с совместным обучением». В Материалы одиннадцатой ежегодной конференции по вычислительной теории обучения, 92–100. Издательство Морган Кауфманн.

Чавла, Н.В., К.В. Бойер, Л.О. Холл и В.П. Кегельмейер. 2002. SMOTE: метод избыточной выборки синтетического меньшинства. Journal of Artificial Intelligence Research 16 (июнь): 321–57. https://doi.org/10.1613/jair.953.

Шолле, Франсуа. 2016. Xception: глубокое обучение с помощью глубоко отделимых сверток. ArXiv:1610.02357 [Cs], октябрь. http://arxiv.org/abs/1610.02357.

Дауме III, Хэл и Д. Марку. 2006. Адаптация предметной области для статистических классификаторов. Журнал исследований искусственного интеллекта 26 (июнь): 101–26. https://doi.org/10.1613/jair.1872.

Фернандо, Басура, Амори Хабрард, Марк Себбан и Тинне Туйтелаарс. 2014. Выравнивание подпространства для адаптации предметной области. ArXiv:1409.5241 [Cs], сентябрь. http://arxiv.org/abs/1409.5241.

Френч, Джефф, Михал Мацкевич и Марк Фишер. 2018. Самоорганизация для адаптации визуального домена, февраль. https://openreview.net/forum?id=rkpoTaxA-.

Галанти, Томер, Саги Бенаим и Лиор Вольф. 2018. «Роль функций минимальной сложности в неконтролируемом обучении семантических отображений».

Гудфеллоу, Ян, Йошуа Бенджио и Аарон Курвиль. 2016. Глубокое обучение. Адаптивные вычисления и машинное обучение. Кембридж, Массачусетс: MIT Press.

Греттон, Артур, Алекс Смола, Цзяюань Хуан, Марсель Шмиттфулл, Карстен Боргвардт и Бернхард Шёлькопф. 2008. «Сдвиг ковариации путем сопоставления среднего ядра». В разделе Сдвиг набора данных в машинном обучении. Кембридж, США: MIT Press.

Гупта, К. Д., Р. Пампана, Р. Вилальта, Э. Э. О. Исида и Р. С. де Соуза. 2016. Автоматизированная классификация Supernova Ia с использованием адаптивных методов обучения. Серия симпозиумов IEEE по вычислительному интеллекту (SSCI) 2016 г., 1–8. https://doi.org/10.1109/SSCI.2016.7849951.

Хекман, Джеймс Дж. 1979. Смещение выборки как ошибка спецификации. Эконометрика 47 (1): 153–61. https://doi.org/10.2307/1912352.

Несс, М., Дэвид В. Хогг, Х.-В. Рикс, Анна Ю. К. Хо и Г. Засовски. 2015. Пушка: основанный на данных подход к определению звездных меток. Астрофизический журнал 808 (1): 16. https://doi.org/10.1088/0004-637X/808/1/16.

Пан, С.Дж. и К. Ян. 2010. Обзор трансферного обучения. IEEE Transactions on Knowledge and Data Engineering 22 (10): 1345–59. https://doi.org/10.1109/TKDE.2009.191.

Ричардс, Джозеф В., Дэн Л. Старр, Хенрик Бринк, Адам А. Миллер, Джошуа С. Блум, Натаниэль Р. Батлер, Дж. Бериан Джеймс, Джеймс П. Лонг и Джон Райс. 2011. Активное обучение для преодоления систематической ошибки при выборе образца: приложение к фотометрической классификации переменных звезд. Астрофизический журнал 744 (2): 192. https://doi.org/10.1088/0004-637X/744/2/192.

Симодайра, Хидетоши. 2000. Улучшение прогностического вывода при ковариативном сдвиге путем взвешивания логарифмической функции правдоподобия. Журнал статистического планирования и выводов 90 (2): 227–44. https://doi.org/10.1016/S0378-3758(00)00115-4.

Симоньян, Карен и Эндрю Зиссерман. 2014. Очень глубокие сверточные сети для крупномасштабного распознавания изображений. ArXiv:1409.1556 [Cs], сентябрь. http://arxiv.org/abs/1409.1556.

Оседает, Берр. 2009. Обзор литературы для активного обучения. Технический отчет. Университет Висконсин-Мэдисон, факультет компьютерных наук. https://minds.wisconsin.edu/handle/1793/60660.

Тайгман, Янив, Адам Поляк и Лиор Вольф. 2016. Неконтролируемое создание междоменных изображений. ArXiv:1611.02200 [Cs], ноябрь. http://arxiv.org/abs/1611.02200.

Торри, Лиза и Джуд Шавлик. 2010. Передача обучения. Справочник по исследованиям приложений и тенденций машинного обучения: алгоритмы, методы и приемы, 242–64. https://doi.org/10.4018/978-1-60566-766-9.ch011.

Вилальта, Рикардо, Кинджал Дхар Гупта, Дайнис Бумбер и Михаил М. Месхи. 2018. Общий подход к адаптации домена с приложениями в астрономии. ArXiv:1812.08839 [Cs, Stat], декабрь. http://arxiv.org/abs/1812.08839.

Вайс, Карл, Таги М. Хошгофтаар и Диндин Ван. 2016. Обзор трансфертного обучения. Journal of Big Data 3 (1): 9. https://doi.org/10.1186/s40537-016-0043-6.

Чжу, Джун-Ян, Тэсон Пак, Филипп Изола и Алексей А. Эфрос. 2017. Непарный перевод изображения в изображение с использованием циклически согласованных состязательных сетей. В ICCV, 2223–32. http://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Unpaired_Image-To-Image_Translation_ICCV_2017_paper.html.