Сегодня я хочу поговорить с вами о проблемах, связанных с неравновесной информационной динамикой, и о том, как понимание ее особенностей приводит нас к лучшему интуитивному пониманию систем глубокого обучения или обучающих систем в целом.

Разрешите мне резюмировать свое наблюдение из предыдущего поста Глубокое обучение в неравновесной динамике. В нашем исследовании глубокого обучения специалисты-практики черпают интуицию из математики физических систем. Однако, поскольку это не физическая система, которую мы изучаем, а скорее информационные системы, мы применяем теоретико-информационные принципы. Теория информации также берет свое начало в математике, описывающей физику (т.е. термодинамику). Обе теории по сути являются массовыми наблюдениями за природой. Под объемными я подразумеваю то, что они представляют собой совокупную меру систем с большим количеством взаимодействующих частиц или сущностей.

Киран Д. Келли, [КЕЛЛИ], на чьи работы я недавно наткнулся, обладает одной из лучших интуиций в отношении неравновесной динамики. Его блог приятно читать, и я настоятельно рекомендую его всем, кто интересуется такими эзотерическими вещами.

Wired опубликовал статью под названием Переместите кодеров - физики скоро будут править Силиконовой долиной [WIRED]. Теперь мы можем заметить, что физики в целом должны иметь приличный IQ, чтобы делать то, что они делают, и, таким образом, уметь заниматься информатикой. Мы также можем утверждать, что математика, найденная в Deep Learning, не настолько продвинута по сравнению с тем, что содержится в типичной программе обучения физике для студентов (с упором на студентов). Однако есть кое-что еще, чего большинство людей не понимает, но это обычно понимают те, кто изучает физику.

То, что люди, кажется, не могут понять, и это даже среди людей с техническим образованием, таким как информатика и математика, - это взаимосвязь между математикой и реальностью. Они не понимают, что математика, которую мы используем, всего лишь приближение к реальности; эта математика имеет ограничения за пределами определенных измерений. Люди, занимающиеся физикой, знают это, потому что, несмотря на использование аналитических форм, мы постоянно выполняем приближения, машущие рукой (т.е.Используем ряд Тейлора, чтобы расширить любую функцию и выбросить любой член за пределы квадратичного). Поэтому, когда я пишу о пределах математики по отношению к ИИ, я получаю массу возмущения от математиков! Невежество в этом мире даже среди ученых действительно удивительно.

Возвращаясь к Келли, он повторяет то же мнение о математике и реальности:

Физика - это в некотором смысле наука о линейной динамике, наука о «динамике без обратной связи» ; такая динамика действительно легко сжимается, но реальный мир изобилует обратной связью, «нелинейный» мир, полный «несжимаемой динамики» [KEL].

Многих это заявление может показаться шоком. Но на самом деле это не так; это просто базовая реальность, что существуют пределы аналитических форм. Еще одна вещь, которая, кажется, смущает людей, - это использование физиками слов «линейный» и «нелинейный». Большинство людей думают, что «линейное» - это линейное уравнение, а я полагаю, что «нелинейное» означает то, чего нет. Таким образом, квадратное уравнение считается нелинейным. Однако то, что физик определяет как линейное и нелинейное, является с точки зрения дифференциальных уравнений. Линейное дифференциальное уравнение может быть решено в замкнутой форме.

Напротив, с нелинейными дифференциальными уравнениями почти все ставки отключены. Самый классический пример - уравнение Навье-Стокса для жидкостей. Решается аналитически только до двух измерений. Да, двухмерный, это нереальный равнинный мир.

Тем не менее, думайте о нелинейных как о системах с обратной связью. Другими словами, большая часть нашей реальности. Итак, чтобы немного понять нашу реальность, мы должны немного понять природу нелинейности. Получается с годами; Были изучены две особенности систем обратной связи. Это хаос и сложность. У Келли есть целый набор статей по этим двум темам, и я перенаправлю вас туда, чтобы получить введение.

Теперь я хочу сосредоточиться на информационных системах (а не на физических системах), поэтому мы ищем хаос и сложность в контексте информационных систем. (примечание: системы глубокого обучения - это информационные системы, несмотря на плохую связь с термином нейронные сети). Итак, вот очень красивая таблица от Келли:

Источник: http://www.kierandkelly.com/what-is-complexity/

Келли пишет:

Что движет спонтанной и прогрессивной сложностью эволюции, так это взаимодействие недостаточной отрицательной обратной связи и сильной положительной обратной связи; или, другими словами, движущей силой эволюции является Взаимодействие случайных инноваций и естественного подкрепления.

Отрицательная обратная связь здесь - это естественная тенденция, которая существует во втором законе термодинамики (который на самом деле является законом больших чисел). То есть системы стремятся к максимальной энтропии. Однако положительная обратная связь - это механизм, который может привести к хаосу. Но в верхнем правом квадранте мы обнаруживаем возникающую сложность. Другими словами, нужно принять существование как взаимной обратной связи, так и случайности. К сожалению, наше математическое наследие, предполагающее хорошие независимые гауссовские распределения и предпочтение разреженности (или скупости) случайности, требует неестественных ограничений для системы.

Предположение об особенностях IID (то есть о независимом идентичном распределении) и предположение о том, что разреженность является предпочтительным решением, ведет каждого исследователя в совершенно неправильном направлении! Эти предположения эквивалентны тому, что физики делают свои уравнения линейными. Все для того, чтобы наша математика стала удобнее. К сожалению, Бог не потребовал, чтобы реальность удобно выражалась в математике. Мы подталкиваем наших исследователей верить в религию, а не в реальность.

А теперь, прежде чем я полностью забуду, позвольте мне объяснить, как хаос и сложность связаны с объяснением глубокого обучения. Начнем со случайности или энтропии, я писал об этом в Неоправданной эффективности случайности. Когда мы изучаем Deep Learning, мы просто не можем игнорировать присутствие случайности. Это просто кажется неотъемлемой чертой этих систем. Самая простая интуиция, которую я могу придумать, заключается в том, что разнообразие ведет к выживаемости. Монокультуры имеют тенденцию к меньшей приспособляемости и возможному исчезновению. Самое противоречивое понятие, случайность ведет к сохранению информации. Как пример этого в информатике, это используется в Алгоритмах распространения информации. То есть вы берете информацию и разбрасываете ее по разным узлам хранения, причем в массовом масштабе вы делаете это случайным образом. Вы создаете хранилище с высокой степенью избыточности. Это тот же механизм, что и в голографической памяти. Итак, здесь мы устанавливаем значение высокой энтропии.

Давайте рассмотрим другую ось, ось высокой взаимной информации, которая может привести к нестабильной обратной связи и, следовательно, к хаосу. Взаимная информация является противоположностью многих вероятностных методов. Это потому, что математика просто не справляется. Но должны ли мы подогнать реальность под математику? Думаю, нет. Одна из лучших характеристик того, как глубокое обучение способно хорошо работать в областях более высокой взаимной информации, - это статья Критическое поведение из глубинной динамики: скрытое измерение в естественном языке:

Источник: http://arxiv.org/abs/1606.06737v2 [LIN / TEG]

Как мы можем узнать, когда машины плохие или хорошие? Старый ответ - вычислить функцию потерь. Новый ответ - также вычислить взаимную информацию как функцию разделения, которая может сразу показать, насколько хорошо модель справляется с фиксацией корреляций в разных масштабах.

Глубокое обучение должно иметь возможность изучать корреляции в нескольких масштабах, чтобы быть полезным. Чтобы сформулировать это иначе, что имеет смысл, глубокое обучение должно уметь понимать состав языка, от букв до слов, предложений и, в конечном итоге, до полных текстов. Глубокое обучение работает, потому что захватывает язык.

И какой именно механизм обучения для этого? У Джереми Инглиша есть очень веские аргументы в пользу самоорганизации жизни. Вы можете прочитать это на Quanta: Новая физическая теория жизни [ENG]. Мы можем взять эту идею и использовать ее, чтобы объяснить, как обучение работает в глубоком обучении. Я рано писал о 3 Ilities. Пояснения к Обучаемости значительны. Многоуровневая система DL строит представление языка от нижних уровней до более абстрактных верхних уровней. У каждого слоя есть своя взаимная запутанность, которая обнаруживается в процессе обучения. Со временем запутанность усиливается, так что разрыв запутанности становится менее вероятным. Так, например, если сеть видит только латинские символы, она никогда не разовьет способность понимать арабские символы. Слои также взаимосвязаны, поэтому существует ограничение внизу (более фундаментальные концепции) и вверху (минимизация относительной энтропии). Таким образом, в конечном итоге строится языковая иерархия.

Возражение здесь, однако, состоит в том, что для достижения правильного представления должно потребоваться бесконечное количество времени. Вот тут-то и проявляется взаимодействие энтропии. Основная теория мало чем отличается от голографического принципа. Случайность порождает устойчивость, а взаимная информация порождает самоорганизацию и сжатие. Что порождает обобщение? Не уверен, но кажется, что что-то всплывает в правом верхнем квадранте!

Чтобы понять больше, продолжайте читать этот блог или загляните к нам в Intuition Machine. Кроме того, убедитесь, что вы не пропустите никаких разработок в области глубокого обучения. Подпишитесь на нашу рассылку новостей: https://www.getrevue.co/profile/intuitionmachine.

использованная литература

[КЕЛЛИ] http://www.kierandkelly.com/

[ПРОВОДНОЙ] h ttps: //www.wired.com/2017/01/move-coders-physicists-will-soon-rule-silicon-valley/

[KEL] http://www.kierandkelly.com/what-drives-consciousness/

[LIN / TEG] http://arxiv.org/abs/1606.06737v2

[ENG] https://www.quantamagazine.org/20140122-a-new-physics-theory-of-life/

Узнайте больше в этой новой книге: