В июне лучшие и самые яркие умы в области компьютерного зрения собрались в Солт-Лейк-Сити на CVPR 2018, ведущую мировую конференцию по компьютерному зрению и распознаванию образов. С более чем 6500 участниками и 3300 представленными докладами на конференции (из которых 979 были приняты), эта конференция значительно выросла из года в год, поскольку потенциальные приложения в области ИИ и широкий спектр отраслей вызывают большую конкуренцию и развитие. Ключевые тенденции с захватывающим агрессивным ростом включали достижения в автономных технологиях, CGI (компьютерные изображения) для фильмов и анимации, реализующие движение персонажей, физику окружающей среды, расширенную трассировку лучей для лучшей имитации реальной жизни, использование глубокого обучения для обнаружения 3D-объектов, трассировка и генерация, а также появление GAN (подробнее об этом позже).

Награда за лучшую статью была присуждена совместной исследовательской группе из Стэнфордского университета и Калифорнийского университета в Беркли за статью под названием Taskonomy: Disentangling Task Transfer Learning. В статье предлагается полностью вычислительный подход к моделированию структуры пространства визуальные задачи, выполненные путем создания вычислительной таксономической карты для обучения переносу задач.

Победителем в номинации Лучшая студенческая работа стала работа Total Capture: 3D-модель деформации для отслеживания лиц, рук и тел исследовательской группы Университета Карнеги-Меллона. В статье представлена ​​унифицированная модель деформации для безмаркерного захвата различных масштабов движений человека, включая выражения лица, движения тела и жесты рук.

Другие статьи, представляющие интерес, касались трехмерной реконструкции лица, локализации камеры, оценки позы человеческого тела, обработки облака точек, оптического потока и обработки естественного языка.

DCGAN, SRGAN, iGAN, вездеходные GAN

Может ли 2018 год стать годом GAN? Ученый-исследователь Google AI Джорди Понт-Тюсет провел анализ ключевых слов принятых статей в VCRP и обнаружил, что генеративно-состязательные сети (GAN) являются восходящей звездой компьютерного интеллекта. Как подробно описано в его сообщении в блоге, 8% статей, принятых на CVPR 2018, содержали в своем названии GAN, что удвоило частоту по сравнению с CVPR 2017.

Так что же такое GAN и в чем их преимущество перед традиционными нейронными сетями? Короче говоря, традиционные сети оказались чрезвычайно эффективными при классификации контента (т. е. это кошка, собака, мышь), но не в состоянии создавать новый контент на основе полученных знаний. Представленные в 2014 году Яном Гудфеллоу и его коллегами, GAN облегчают эту возможность, прокладывая путь для творческих задач ИИ, начиная с создания реалистичных изображений и сцен и включая когнитивные задачи, основанные на концептуальном обучении без учителя, абстракции и интуиции. Вместо одной классифицирующей сети GAN состоят из двух конкурирующих сетей — сети дискриминатора и сети генератора. В то время как генератор пытается обмануть дискриминатор, чтобы он ложно классифицировал созданное изображение как реальное изображение, дискриминатор пытается уличить генератор в отправке поддельных изображений. Обучение обеих сетей — это место, где глубокое обучение встречается с теорией игр. Со временем генератор и дискриминатор учатся друг у друга, и пока генератор создает все более и более реалистичные изображения, дискриминатор учится лучше распознавать сгенерированные изображения. Обучение завершается, когда дискриминатор не может определить, является ли сгенерированное изображение реальным или поддельным.

Потенциал GAN интригует. Нейронные сети теперь могут активно рисовать изображения кошек и собак, а не просто классифицировать их. Алгоритмы заполняют отсутствующий контент в изображениях для создания сверхвысокого разрешения, даже позволяя пользователю заменить нежелательного человека на изображении фотореалистичным сгенерированным фоном. Обычные пользователи могут легко создавать изображения в Photoshop, которые выглядят невероятно реалистично.

https://buzzkeys.com/20-of-the-most-shocking-and-ugliest-male-haircuts

В то время как GAN привносят захватывающие новые возможности в глубокое обучение, и мы только царапаем поверхность, вопрос заключается в том, какая вычислительная установка лучше всего подходит для обучения таких типов сетей.

Рекомендации по вычислительным ресурсам для обучения GAN

GAN и нейронные сети более глубокого уровня требуют интенсивных вычислительных ресурсов. Платформы с графическими процессорами NVIDIA, особенно NVIDIA Tesla V100, являются предпочтительным выбором вычислительной мощности для обучения GAN из-за

  • A. Самая высокая вычислительная мощность графического процессора, доступная благодаря 5376 ядрам CUDA.
  • B. 32 ГБ сверхвысокоскоростной памяти HBM2 на графическом процессоре на карту
  • C. Дополнительное аппаратное ускорение через 672 тензорных ядра.

Поскольку системы с высокопроизводительными графическими процессорами NVIDIA, такими как V100, могут потребовать крупных инвестиций, компании, желающие использовать GAN для своей разработки, часто выбирают между разработкой в ​​облаке и покупкой локального оборудования.

В облако или не в облако?

Одной из основных тем на выставке для стартапов, предприятий и исследователей/разработчиков в университетах, посвященных ИИ, было то, когда использовать вычисления для глубокого обучения, предлагаемые публичными облачными сервисами, такими как AWS и Google Cloud, и когда инвестировать в локальные решения. Хотя ответ в конечном итоге зависит от того, насколько компания привержена своей инициативе в области искусственного интеллекта/глубокого обучения и сколько она тратит или планирует провести в месяц в облаке, AMAX опубликовала информационный документ, в котором количественно оцениваются производительность и затраты между экземплярами AWS, а также AMAX. платформы глубокого обучения. В приведенных ниже таблицах сравнивается выборка сопоставимых инстансов AWS с сервером AMAX с 8-кратным графическим процессором (DL-E280) с точки зрения стоимости оборудования, предполагаемых накладных расходов на оборудование и предполагаемых затрат на аренду, а также расчетной точки безубыточности между облачной и локальной средами. чтобы дать нашим читателям контрольный показатель того, когда расходы на облако могут превысить потенциальные расходы на аппаратное обеспечение графического процессора на предприятии.

Кроме того, для дополнительных вычислений начального уровня AMAX также предлагает рабочие станции для разработки ИИ с интегрированным графическим процессором, включающие от 1 до 4 графических процессоров стоимостью от 4000 долларов США и выше, которые можно арендовать за 200–400 долларов США в месяц в зависимости от конфигурации, что делает локальную установку хорошим вариантом для компаний. тратить $ 200+ в месяц в облаке. Чтобы прочитать весь технический документ, его можно запросить здесь.

Что нового от AMAX?
Тем временем AMAX продемонстрировала свои отмеченные наградами вычислительные платформы Machine and Deep Learning на стенде № 304. У нас были отличные беседы как с посетителями, так и с экспонентами, и горячие темы включали ускорение графического процессора для разработки и обучения автономных транспортных средств, анализ лица или видео, особенно для операций видеонаблюдения, и разработку GAN. Особый интерес вызвал DL-E48A, наш последний и лучший стоечный сервер 4U с 8xGPU. Один известный посетитель, г-н Дженсен Хуанг, сам генеральный директор NVIDIA, проверил это и заявил: «Это прекрасная система!»

Что делает эту платформу ошеломляющей, так это не только тот факт, что это сверхмощный сервер, ориентированный на производительность, разработанный для кластеров машинного обучения / глубокого обучения и интеграции в крупномасштабные развертывания центров обработки данных. Наиболее уникальной функцией является возможность переконфигурировать архитектуру PCIe между комплексом с одним корнем и комплексом с двумя корнями с помощью программного обеспечения, чтобы организации могли тестировать обе конфигурации, чтобы определить оптимальную производительность для различных приложений машинного обучения и глубокого обучения, а также удаленно переключать корневой комплекс. и на лету. Это означает, что занятым ИТ-специалистам никогда не придется входить в центр обработки данных, чтобы переконфигурировать систему.

DL-E48A — единственное в отрасли решение для ускоренных вычислений на графическом процессоре с программно реконфигурируемой комплексной архитектурой PCIe с одним или двумя корнями.

Как правило, комплекс с одним корнем оптимален для рабочих нагрузок глубокого обучения с интенсивным использованием графического процессора для уменьшения задержки копирования памяти между графическим процессором и увеличения пропускной способности. Двойной корневой комплекс идеально подходит для приложений с интенсивным использованием ЦП и параллельных вычислений для оптимизации связи ЦП/памяти с графическим процессором. Более подробную информацию о DL-E48A можно найти здесь.

Для исследователей и разработчиков DL-E400 стала самой популярной рабочей станцией с графическим процессором на выставке. Этот отмеченный наградами DevBox для глубокого обучения оснащен четырьмя картами NVIDIA Titan V или 1080Ti с двумя встроенными сетями 1G/10G и материнской платой корпоративного уровня для обеспечения высокой производительности в компактном и бесшумном корпусе.

Если вас заинтересовала какая-либо из наших рабочих станций для глубокого обучения или серверных продуктов для глубокого обучения, свяжитесь с нами здесь. Если вы не уверены, какая система вам подходит, мы также предлагаем бесплатную начальную консультацию с нашими архитекторами решений ИИ, чтобы определить лучшее решение, соответствующее вашим потребностям.

Какие темы или тенденции действительно привлекли ваше внимание на CVPR 2018? Дайте нам знать!