Эта статья продолжает общий обзор исследования «Объяснимое глубокое обучение и визуальная интерпретируемость».

В середине 1990-х годов исследователи представили искусственные нейронные сети, и они ознаменовали сдвиг парадигмы прогнозного моделирования от мира прикладной статистики к информатике и машинному обучению.

Революция глубокого обучения

Глубокое обучение — это надмножество машинного обучения, корни которого лежат в математике, информатике и нейробиологии. Прежде всего, математика играет важную роль в глубоком обучении, как и в изучении зрительной обработки мозга. Примерно в 2010 году нейронные сети возродились под новым названием «глубокое обучение», в основном благодаря гораздо более быстрым и крупным вычислительным системам и некоторым новым идеям.

Глубокое обучение — это особый набор методов из более широкой области машинного обучения, который фокусируется на изучении и использовании глубоких искусственных нейронных сетей для изучения представлений структурированных данных. Он используется для классификации паттернов с использованием больших наборов обучающих данных и многослойных нейронных сетей.

Глубокое обучение — это, прежде всего, метод обучения машин на основе данных, слабо смоделированных на том, как биологический мозг учится решать проблемы, где каждая искусственная нейронная единица связана со многими другими единицами. Связи могут быть усилены или ослаблены на основе данных, используемых для обучения системы. Каждый последующий уровень в многоуровневой сети использует выходные данные предыдущего уровня в качестве входных данных.

Происхождение глубокого обучения восходит к заре искусственного интеллекта в 1950-х годах, когда существовало два противоположных видения того, как создать ИИ: одно видение было сосредоточено на символических подходах, основанных на логике и компьютерном программировании, которые десятилетиями доминировали в ИИ; другой был основан на обучении непосредственно на данных, что заняло гораздо больше времени, чтобы разработать и показать результаты.

В 1956 году Джон Маккарти, профессор математики в Дартмутском колледже, предложил провести семинар под названием «Летний исследовательский проект по искусственному интеллекту в Дартмуте», который дал начало области искусственного интеллекта и побудил целое поколение ученых и экспертов исследовать неиспользованный потенциал информационных технологий для соответствовать возможностям человека.

В 1962 году психолог Франк Розенблатт из Корнельского университета задался целью создать аналоги мозга, полезные для аналитических задач. Он изобрел простую технику моделирования нейронов в аппаратном и программном обеспечении. Это положило начало исследованиям, позволяющим машинам учиться и классифицировать.

Розенблатт предложил «персептрон» — однослойную нейронную сеть для бинарной классификации, которая могла бы научиться сортировать простые изображения по категориям — например, квадраты и треугольники. Персептрон стал основой дальнейших исследований, завершившихся созданием многоуровневых обучающих сетей, которые легли в основу современного глубокого обучения.

В последнее десятилетие глубокое обучение успешно применялось в различных областях и приложениях, требующих больших объемов цифровых данных для обучения и предоставления полезной информации. В последнее время они продвигают передовые достижения в области искусственного интеллекта и привели к важным прорывам во многих областях, таких как компьютерное зрение (CV), распознавание речи и обработка естественного языка.

Обзор архитектуры

Теперь, когда мы рассмотрели различные компоненты глубоких нейронных сетей, в этом разделе дается общий обзор четырех основных архитектур глубоких сетей.

Я рассматриваю типы нейронных сетей, чтобы дать общее представление и обсудить некоторые влиятельные архитектуры глубоких нейронных сетей, основанные на зрении, с приложениями в промышленности и академических кругах.

Персептроны

Нейронная сеть — это высокопараметризированная модель, вдохновленная архитектурой человеческого мозга. Он широко рекламировался как универсальный аппроксиматор — машина с достаточным количеством данных, чтобы изучить любую плавную прогностическую связь.

Однослойные персептроны

Однослойный персептрон или нейронная сеть с прямой связью представляет собой набор нейронов, расположенных в последовательности из семи слоев. Каждый нейрон получает входные данные от предыдущего слоя и выполняет простые вычисления (например, вычисляет взвешенную сумму входных данных, за которой следует нелинейная функция активации). Нейроны сети совместно выполняют нелинейное отображение входных данных в выходные. Эта функция отображения изучается из данных путем настройки и адаптации весов каждого нейрона с использованием метода, называемого обратным распространением.

На рисунке выше показан простой пример диаграммы нейронной сети с прямой связью. Есть четыре предиктора или входа, пять скрытых блоков и один блок вывода:

Скрытый слой производит преобразования входных данных — нелинейные преобразования линейных комбинаций — которые затем используются для моделирования выходных данных, и есть один выходной блок:

В следующей статье этой серии рассказывается о структуре и глубине многослойного персептрона и модели сверточной нейронной сети, используемой в компьютерном зрении:

https://medium.com/deepviz/explainable-ai-and-visual-interpretability-background-part-6-6467736f82b8