Сверточные нейронные сети, или сокращенно CNN, составляют основу многих современных систем компьютерного зрения. В этом посте будет рассказано о происхождении CNN, начиная с биологических экспериментов 1950-х годов.

Простые и сложные клетки

В 1959 году Дэвид Хьюбел и Торстен Визель описали простые клетки и сложные клетки в зрительной коре головного мозга человека. Они предположили, что при распознавании образов используются оба типа клеток. Простая ячейка реагирует на края и полосы определенной ориентации, такие как это изображение:

Сложная ячейка также реагирует на края и полосы определенной ориентации, но она отличается от простой ячейки тем, что эти края и полосы можно перемещать по сцене, и ячейка по-прежнему будет реагировать. Например, простая ячейка может реагировать только на горизонтальную полосу внизу изображения, в то время как сложная ячейка может реагировать на горизонтальные полосы внизу, в середине или вверху изображения. Это свойство сложных ячеек называется пространственной инвариантностью.

На рисунке 1 в этой статье показана разница между простыми и сложными ячейками.

Хьюбел и Визель в 1962 году предложили, что сложные клетки достигают пространственной инвариантности путем «суммирования» выходных данных нескольких простых клеток, которые все предпочитают одну и ту же ориентацию (например, горизонтальные полосы), но разные рецептивные поля (например, нижнюю, среднюю или верхнюю часть изображения). Собирая информацию от группы простых ячеек-миньонов, сложные ячейки могут реагировать на горизонтальные полосы, которые встречаются где угодно.

Эта концепция - простые детекторы могут быть «суммированы» для создания более сложных детекторов - присутствует во всей зрительной системе человека, а также является фундаментальной основой моделей сверточной нейронной сети.

(Примечание: если довести эту концепцию до крайности, вы получите клетку бабушки: представление о том, что где-то в вашем мозгу есть единственный нейрон, который реагирует исключительно на взгляд вашей бабушки.)

Неокогнитрон

В 1980-х годах доктор Кунихико Фукусима был вдохновлен работой Хьюбела и Визеля о простых и сложных клетках и предложил модель неокогнитрона (исходная статья: Неокогнитрон: модель самоорганизующейся нейронной сети для механизма паттерна). Распознавание не зависит от смены позиции »»). Модель неокогнитрона включает компоненты, называемые S-клетки и C-клетки. Это не биологические клетки, а математические операции. S-ячейки находятся на первом уровне модели и связаны с C-ячейками, которые находятся на втором уровне модели. Общая идея состоит в том, чтобы уловить концепцию от простого к сложному и превратить ее в вычислительную модель для визуального распознавания образов.

Сверточные нейронные сети для распознавания рукописного ввода

Первая работа над современными сверточными нейронными сетями (CNN) появилась в 1990-х годах, вдохновившись неокогнитроном. Ян ЛеКун и др. В своей статье Градиентное обучение, применяемое для распознавания документов (теперь цитируется 17 588 раз) продемонстрировали, что модель CNN, которая объединяет более простые функции в постепенно более сложные функции, может успешно использоваться для распознавания рукописных символов.

В частности, LeCun et al. обучил CNN, используя базу данных рукописных цифр MNIST (MNIST произносится как EM-nisst). MNIST - это теперь известный набор данных, который включает изображения рукописных цифр в паре с их истинной меткой 0, 1, 2, 3, 4, 5, 6, 7, 8 или 9. Модель CNN обучается на MNIST путем предоставления это пример изображения, с просьбой предсказать, какая цифра отображается на изображении, а затем обновить настройки модели в зависимости от того, правильно ли она предсказала идентичность цифры или нет. Современные модели CNN сегодня могут достигать почти идеальной точности классификации цифр MNIST.

Пример рукописных цифр из набора данных MNIST.

Одним из прямых последствий этой работы является то, что ваша почта теперь сортируется машинами, используя методы автоматического распознавания рукописного ввода для чтения адреса.

Сверточные нейронные сети, чтобы увидеть все

На протяжении 1990-х и начала 2000-х годов исследователи продолжали работать над моделью CNN. Примерно в 2012 году CNN пользовались огромным всплеском популярности (который продолжается и сегодня) после того, как CNN под названием AlexNet достигла современного уровня производительности маркировки изображений в задаче ImageNet. Алекс Крижевский и др. опубликовал статью Классификация ImageNet с глубокими сверточными нейронными сетями, описывающую победившую модель AlexNet; с тех пор эта статья была процитирована 38 007 раз.

Подобно MNIST, ImageNet представляет собой общедоступный, свободно доступный набор данных изображений и соответствующих им истинных меток. Вместо того, чтобы сосредотачиваться на рукописных цифрах, обозначенных 0–9, ImageNet сосредотачивается на естественных изображениях или изображениях мира, помеченных различными дескрипторами, включая амфибия, мебель и человек. Этикетки были получены благодаря огромным человеческим усилиям (т. Е. Нанесение этикеток вручную - просьба записать что это за изображение для каждого изображения). ImageNet в настоящее время включает 14 197 122 изображений.

Примеры изображений из набора данных ImageNet.

За последние несколько лет CNN достигли отличных результатов в описании естественных изображений (включая ImageNet, CIFAR-10, CIFAR-100 и VisualGenome), распознавании лиц (включая CelebA) и анализе медицинских изображений (включая Рентген грудной клетки, фотографии поражений кожи и слайды гистопатологии). На этом веб-сайте Наборы данных CV в Интернете есть обширный список из более чем пятидесяти помеченных наборов данных изображений, которые исследователи могут использовать для обучения и оценки CNN и других типов моделей компьютерного зрения. Компании разрабатывают множество интересных приложений, в том числе Seeing AI, приложение для смартфонов, которое может устно описывать окружение слепым людям.

CNN и человеческое зрение?

В популярной прессе часто говорится о том, что модели нейронных сетей «напрямую вдохновлены человеческим мозгом». В некотором смысле это правда, поскольку и CNN, и человеческая зрительная система следуют иерархической структуре «от простого к сложному». Однако реальная реализация совершенно другая; мозг строится с использованием клеток, а нейронные сети строятся с использованием математических операций.

Это видео, Инструменты глубокой визуализации Джейсона Йосински », определенно стоит посмотреть, чтобы лучше понять, как CNN берут простые функции и используют их для обнаружения сложных функций, таких как лица или книги.

Заключение

Компьютерное зрение прошло долгий путь за последние несколько десятилетий. Интересно представить, какие новые разработки преобразят эту область в будущем и будут способствовать развитию таких технологий, как автоматическая интерпретация рентгенологических изображений и автомобили с автономным управлением.

Об избранном изображении

На изображении показан западный жаворонок. Существуют различные наборы данных о птицах, доступные для обучения CNN автоматическому распознаванию видов птиц, в том числе Набор данных Caltech-UCSD Birds 200, который включает 6033 изображения, показывающие 200 видов птиц. Аналогичным образом iNaturalist строит краудсорсинговую автоматизированную систему идентификации видов, которая включает птиц и многие другие виды. Такие системы могут когда-нибудь оказаться очень полезными в биологии сохранения.

Первоначально опубликовано на http://glassboxmedicine.com 13 апреля 2019 г.