Введение

Генеративно-состязательные сети (GAN) — это тип архитектуры нейронной сети, который в последние годы привлек большое внимание. GAN — это тип модели глубокого обучения, которая может создавать новые и оригинальные данные. Они принципиально различны по своей цели. и методы CNN для классификации, сегментации или обнаружения объектов. Первоначально GAN не предназначались для анализа изображений, а для создания естественно выглядящих изображений. По мере развития технологий становится все более важным учитывать потенциальные последствия использования GAN. В этом сообщении блога мы обсудим, что такое GAN, как они работают, некоторые из их приложений, ограничения, этические соображения и влияние GAN на общество.

Как работают GAN

GAN состоят из двух нейронных сетей, которые работают вместе в игровой обстановке, называемой минимаксной игрой. В такой игре оба игрока имеют доступ к одним и тем же переменным, но имеют противоположные цели, так что они будут манипулировать переменными в разных направлениях. Первая сеть является генератором, который генерирует новые выборки данных. Вторая сеть — дискриминатор, который оценивает сгенерированные выборки и определяет, настоящие они или поддельные. Генератор пытается создать реалистичные образцы, которые могут обмануть дискриминатор, в то время как дискриминатор пытается правильно отличить настоящие образцы от поддельных. Этот процесс продолжается итеративно, при этом генератор улучшает свою способность создавать реалистичные образцы, а дискриминатор становится лучше в идентификации поддельных образцов. Хотя на первый взгляд это не сильно отличается от любой функции потерь, которая, в свою очередь, сравнивает сгенерированный вывод модели с фактическим выводом де-факто, существует фундаментальное различие. Функция потерь является «статической», но часть сети «судья» или «дискриминатор» поддается обучению.

На рисунке 2 мы можем видеть генеративную часть, выделенную оранжевым цветом, где случайные числа извлекаются из скрытого пространства и преобразуются в набор поддельных изображений с помощью генераторной сети. Параллельно с этим из базы данных реальных изображений, источника правды, случайным образом выбирается соответствующее количество примеров. В дискриминатор подаются как сгенерированные фальшивые изображения, так и настоящие изображения. Дискриминатор CNN берет набор реальных и поддельных изображений и решает для каждого, является ли оно реальным (получая значение, близкое к «1») или поддельным («0»).

Затем вычисляется ошибка по количеству правильных назначений, которые дискриминатор может выполнить для пакета сгенерированных и реальных изображений. Оба типа сетей могут обновлять свои соответствующие параметры на основе сигнала ошибки.

Приложения GAN

Сети GAN использовались в различных приложениях, включая создание изображений и видео, дополнение данных и передачу стилей. Одним из наиболее впечатляющих применений GAN является генерация изображений, где генератор может создавать реалистичные изображения, которые трудно отличить от реальных изображений. Это может иметь потенциальное применение в индустрии развлечений, например, для создания реалистичных спецэффектов в фильмах и видеоиграх. GAN также можно использовать для увеличения данных в машинном обучении, где они могут генерировать новые выборки данных для увеличения размера обучающей выборки. Еще одним применением GAN является перенос стиля, когда стиль одного изображения может быть перенесен на другое изображение. Это можно использовать в художественных целях, например, для создания новых версий картин в стиле известных художников. Для генератора конечной целью является максимизация ошибки, поскольку это свидетельствует о том, что он успешно обманул дискриминатор, заставив его принять поддельные изображения за настоящие. С другой стороны, цель дискриминатора – минимизировать ошибку, указывая на то, что он успешно различает истинные и ложные примеры.

Примеры применения GAN следующие:

Создание примеров для наборов данных изображений

Создание новых правдоподобных выборок было приложением, описанным в оригинальной статье Яна Гудфеллоу и др. в статье 2014 года [«Generative Adversarial Networks»] (https://arxiv.org/pdf/1406.2661), где GAN использовались для создания новых правдоподобных примеров для набора данных рукописных цифр MNIST, набора данных фотографий малых объектов CIFAR-10 и База данных лиц Торонто.

Создание фотографий человеческих лиц

Теро Каррас и др. в своей статье 2017 года под названием [«Прогрессивный рост GAN для повышения качества, стабильности и разнообразия»] (https://arxiv.org/abs/1710.10196) демонстрируют создание правдоподобных реалистичных фотографий человеческих лиц. На самом деле они выглядят настолько реалистично, что справедливо назвать результат выдающимся. Таким образом, результаты привлекли большое внимание средств массовой информации. Поколения лиц были обучены на примерах знаменитостей, а это означает, что в сгенерированных лицах есть элементы существующих знаменитостей, что делает их знакомыми, но не совсем.

Создавайте реалистичные фотографии

Эндрю Брок и др. в своей статье 2018 года под названием «Крупномасштабное обучение GAN для синтеза естественных изображений с высокой точностью»] (https://arxiv.org/abs/1809.11096) демонстрируют создание синтетических фотографий с помощью их техники BigGAN, которые практически неотличимы от реальных фотографий.

Ограничения GAN

Хотя GAN показали впечатляющие результаты в создании реалистичных данных, они также имеют некоторые ограничения. Одним из основных ограничений является сложность их обучения. Для эффективного обучения GAN требуется большой объем данных и вычислительных ресурсов. Кроме того, обучение GAN может быть нестабильным, когда генератор и дискриминатор часто заходят в тупик. Еще одним ограничением GAN является отсутствие контроля над генерируемыми данными. Хотя GAN могут генерировать реалистичные данные, они не позволяют точно контролировать сгенерированные выборки. Некоторые причины, по которым обучение GAN может не сработать:

- Mode Dropping – это явление прямой KL-дивергенции (Кульбака-Лейблера), вызванное областями распределения данных, не покрываемыми генераторным распределением. Это загоняет KL в бесконечность и наказывает генератор за то, что он не включил все распределение данных.

- Плохая конвергенция — возникает в случаях, когда сеть дискриминатора слишком рано учится различать настоящие и поддельные примеры — что, скорее всего, произойдет в течение всего времени обучения GAN.

Будущее GAN

Потенциальные области применения GAN огромны, и в этой области продолжаются исследования, направленные на повышение производительности и возможностей GAN. Одной из областей исследований является повышение стабильности обучения GAN, что может быть затруднено из-за игровой настройки генератора и дискриминатора. Еще одной областью исследований является разработка сетей GAN, которые могут генерировать более разнообразные и сложные данные, такие как трехмерные объекты и естественный язык. По мере продолжения исследований и разработок возможности GAN будут только расти.

Этические соображения

Как и в случае с любой технологией, GAN также требуют этических соображений. Одной из основных проблем является возможность использования GAN в злонамеренных целях, таких как создание поддельных изображений или видео для пропаганды или дезинформации. Кроме того, GAN можно использовать для создания дипфейков, которые представляют собой манипулируемые видео, которые трудно отличить от реальных видео. Еще одна этическая проблема заключается в том, что GAN могут сохранять предвзятость в данных, на которых они обучаются. Если обучающие данные содержат предвзятую информацию, GAN могут изучить и сохранить эти предубеждения в сгенерированных данных.

Разработчикам и исследователям важно осознавать этические последствия своей работы и учитывать потенциальные риски и преимущества своих технологий. Один из способов смягчить потенциальное негативное воздействие GAN — установить этические принципы и правила их использования.

Влияние GAN на общество

Использование GAN может влиять на общество разными способами, как положительными, так и отрицательными. Одним из потенциальных положительных результатов является индустрия развлечений, где GAN можно использовать для создания реалистичных спецэффектов в фильмах и видеоиграх. Кроме того, GAN можно использовать для создания произведений искусства и музыки, которые было бы трудно создать людям. Еще одно потенциальное положительное влияние — в здравоохранении, где GAN можно использовать для создания синтетических данных для медицинских исследований и разработки лекарств.

Однако использование GAN также может иметь негативные последствия для общества. Одной из проблем является возможность использования GAN для создания манипулируемых изображений и видео для пропаганды или дезинформации. Кроме того, использование GAN может привести к потере рабочих мест в таких отраслях, как графический дизайн и музыкальная композиция. Как и в случае с любой технологией, важно учитывать потенциальное влияние GAN на общество и работать над минимизацией любых негативных воздействий.

Заключение

Генеративно-состязательные сети — перспективная область исследований в области искусственного интеллекта с широким спектром приложений в различных отраслях. Хотя у GAN есть ограничения и этические соображения, постоянные исследования и разработки могут помочь смягчить эти опасения. Потенциал GAN для генерации новых и оригинальных данных впечатляет, и мы можем ожидать увидеть еще более впечатляющие приложения GAN в будущем. По мере развития технологий разработчикам и исследователям важно учитывать потенциальное воздействие GAN на общество и работать над тем, чтобы их использование было этичным и полезным для всех.