Мысли и теория

Где симметрия машинного обучения и квантовой механики улучшает моделирование

Аспирант физики UT Остин Крис Рот решает экзотические квантовые проблемы с помощью силы симметрии.

Законы квантовой механики, печально известные своей неинтуитивностью, предсказывают множество странных эффектов. Многие экзотические материалы, такие как сверхпроводники, имеют настолько сложное поведение, что даже самые мощные компьютеры не могут справиться с их расчетами [1]. В результате некоторые системы необходимо преодолевать с помощью инновационных крупномасштабных симуляций [2]. Крис Рот, исследователь UT в Остине, разработал алгоритм машинного обучения, который использует две симметрии, чтобы сделать эту проблему более решаемой [3]. Во-первых, его периодическая система находит аналог во входной структуре. Во-вторых, силы между частицами удобно подчиняются типу зависимости, характерной для вывода алгоритма.

Понятие симметрии постоянно появляется в физике; он упрощает проблемы и подчеркивает взаимосвязь между различными свойствами. Процитируя первопроходца в области квантовой физики Филипа Андерсона, «будет лишь немного преувеличением сказать, что физика - это изучение симметрии». Он может принимать разные формы, например, две стороны листа, являющиеся отражением друг друга, или циклические узоры во времени. Кристаллы характеризуются симметрией: перемещаясь по материалу дискретными шагами, вы обнаружите одну и ту же локальную среду где угодно. Это называется «трансляционной инвариантностью» и показано на рисунке 1.

В твердых телах положительно заряженные ядра фиксируются периодическим образом, а электроны более или менее свободно перемещаются. Следовательно, моделирование сосредоточено только на моделировании взаимодействий между электронами [4]. Кулоновская сила заставляет одноименные частицы отталкиваться друг от друга и не зависит от точного местоположения электронов, а скорее от расстояния между ними. Это свойство заботиться только об относительных расстояниях, а не о точных положениях, также появляется в рекуррентных нейронных сетях (RNN), типе алгоритма машинного обучения. Однако в случае RNN расстояние находится между указателем входных шагов, а не фактическим пространством. Входные данные разбиваются на дискретные последовательные части, и каждая часть кодируется для получения собственного вывода. RNN позволяет передавать более ранние входные данные для информирования о результате, так что окончательный результат зависит от всех входных данных [5]. Процесс показан на рисунке 2. Три цветных кружка представляют это «скрытое состояние», шаг между вводом и выводом. В этом примере есть три части ввода, индексированные 1–3. Вход 1 (i1) подается в алгоритм, который будет относиться к вопросу, который RNN пытается решить. Затем в алгоритм подаются i2 и предыдущее скрытое состояние. Они производят o2, о чем даже больше осведомлены. Это будет повторяться на многих этапах, пока не будут учтены все входные данные. На этом чертеже есть только еще один шаг, дающий окончательный результат, o3.

Как показано на рисунке, не все входные данные имеют одинаковое значение - самые последние входные данные больше всего влияют на выход. Это известно как «потеря кратковременной памяти», и способ построения RNN вызывает этот эффект. Модели обучаются на наборах данных как с входными, так и с правильными выходными данными. Обучение модели настраивает параметры в каждом скрытом состоянии для получения правильного окончательного значения. После прогноза ошибка вычисляется на основе сравнения с известным ответом, и параметры каждого слоя корректируются. Благодаря этой настройке машина учится! Обновление в каждом слое зависит от того, насколько нужно было изменить предыдущий слой. Как правило, корректировки уменьшаются с каждым слоем, распространяясь в обратном направлении от конца. Следовательно, первые слои почти не подвергаются корректировке и не учатся так много.

Хотя в одних случаях потеря кратковременной памяти является недостатком, в других она на самом деле отражает природу. У электронов есть свойство, называемое спином, которое является мерой внутреннего углового момента. Вероятность нахождения электрона в определенном положении можно предсказать по так называемой волновой функции [4]. В случае Рота входом является состояние спина каждой элементарной ячейки, а выходом - волновая функция. Если электроны заботятся только о других соседних, тогда кратковременная потеря памяти не проблема - ответ должен меньше зависеть от удаленного входа электронов! Таким образом, свойство RNN ценить локальный ввод больше, чем дальнейший ввод, имитирует физику системы. Однако следует отметить, что каждый вывод учитывает только предыдущий ввод, эффективно игнорируя более поздний ввод, даже если он находится в равной близости. Это равносильно поддержке направления, хотя отталкивание электронов должно быть пространственно симметричным. Чтобы учесть эту асимметрию в архитектуре RNN, можно использовать средние значения выходных данных для достижения точного результата. Второй аналог между системами проявляется в дискретном входном формате RNN, который подходит для кристаллов, поскольку их свойства применимы только для дискретных пространственных перемещений.

Вычисление волновой функции для нескольких элементарных ячеек может быть качественно интересным, но приближение размеров реальных кристаллов, используемых в экспериментах, даст более определенные ответы о новом квантовом поведении. Метод Рота не только хорошо работает для небольших систем, но и качество вычислений улучшается по мере увеличения размера входных данных. Это говорит о том, что RNN способна изучать физику системы, возможно, улавливая, насколько естественно моделировать систему с использованием алгоритмов с аналогичной симметрией. Подобные вычислительные достижения необходимы, если физики хотят понять некоторые из наиболее интересных квантовых явлений наших дней, такие как сверхпроводимость, эффекты взаимодействующих магнитных и электрических полей (квантовый эффект Холла) и запутанность.

использованная литература

[1] https://www.nature.com/articles/s41524-018-0085-8

[2] https://www.nature.com/articles/s41567-018-0048-5

[3] https://arxiv.org/abs/2003.06228

[4] Р. М. Мартин, Электронная структура: основная теория и практические методы (издательство Кембриджского университета, Кембридж, Великобритания, 2004 г.).

[5] https://towardsdatascience.com/illustrated-guide-to-recurrent-neural-networks-79e5eb8049c9