Группа исследователей Google во главе с Куоком Ле - экспертом в области искусственного интеллекта, стоящим за нейронным машинным переводом Google и AutoML - опубликовала документ, в котором предлагается увеличение внимания. По результатам экспериментов, новый двумерный механизм относительного самовнимания для классификации изображений обеспечивает «последовательное улучшение классификации изображений».

В 2014 году аспирант MILA Дмитрий Богданов и другие исследователи, включая Йошуа Бенжио, предложили объединить внимание в качестве вычислительного модуля с рекуррентной нейронной сетью (RNN) для согласования в машинном переводе. Расширение исследований внимания позже позволило архитектуре Transformer с самовниманием достичь самых современных результатов в машинном переводе. Теперь модуль стал стандартным приложением из-за его способности фиксировать взаимодействия с длинной последовательностью.

Хотя сверточные нейронные сети (CNN) широко используются во многих приложениях компьютерного зрения, их работа ограничена локальным окружением, и поэтому в них отсутствует глобальная информация.

Чтобы добиться лучших результатов при классификации изображений, исследователи решили комбинировать свертки с самовниманием. Они предложили дополнить сверточные операторы механизмом самовнимания, «объединив сверточные карты характеристик с набором карт характеристик, созданных с помощью самовнимания». Чтобы сделать этот двумерный механизм относительного самовнимания подходящим для изображений, они поддерживали эквивалентность перевода, в то же время добавляя в механизм информацию об относительном положении. Наилучшие результаты исследователи получили при совмещении самовнимания и извилин.

После обширных экспериментов исследователям удалось сохранить одинаковое количество параметров, и они пришли к выводу, что увеличение внимания привело к последовательным улучшениям в классификации изображений в ImageNet, достигнув 1,3% повышения точности первой категории по классификации по сравнению с базовым уровнем ResNet50 и превзойдя другие механизмы внимания. для таких изображений, как "Сжатие и возбуждение". Этот метод также улучшил обнаружение объектов COCO на базовом уровне RetinaNet на среднюю точность 1,4.

Исследователи предполагают, что создание увеличения внимания может вдохновить на будущие исследования в области автоматизированных процедур поиска архитектуры, чтобы найти лучшие модели для классификации изображений, обнаружения объектов, сегментации изображений и других задач.

Статья Внимание Расширенные сверточные сети находится на ArXiv.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Подпишитесь на нас в Twitter @Synced_Global, чтобы получать ежедневные новости об ИИ!

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.