Я решил прочитать все отрывки из NIPS / NeurIPS 2018. Но это оказалось неправдоподобным, как физически, так и морально, в те сроки, которые я хотел. На конференцию этого года принято 1011 докладов, в том числе 30 устных, 168 прожекторов и 813 постеров из 4856 докладов с уровнем принятия 20,8% (источник).

Я хотел прочитать все тезисы за 24 часа бодрствования до начала конференции. У меня было 1440 минут, чтобы прочитать 1011 рефератов, в среднем 1,42 минуты. Совершенно глупо, я хотел резюмировать аннотацию, чтобы сделать мини-аннотацию, чтобы было легко следовать краткой аннотации, когда я вернусь к ней позже или поделюсь ею.

Я начал читать тезисы, взяв набор из 20 (первых 20) из первой стендовой сессии конференции «Вторник, стендовая сессия A» (на ней 168 статей). Мне потребовалось чуть более 210 минут, чтобы прочитать и подвести итоги (извлекающая манера, взяв несколько отрывков из аннотации), в среднем 10,5 минут на статью. Я немного увеличил темп, не слишком заботясь о подведении итогов, я закончил следующие 20 минут примерно за 150 минут, в среднем за 7,5 минут. Следующие 20 минут примерно через 90 минут. Следующие 20 минут примерно через 70–80 минут. И следующие 20 через 60–70 мин. После 140 работ я отказался от ограничения по времени и сделал перерыв.

Тем не менее, когда я заканчиваю группу из 20 человек и иду в другую, произошло чудесное событие. Это действительно пугающе и ошеломляюще читать концентрированный отрывок из серьезного научного исследования, даже одного, и я должен прочитать 20 таких статей и продолжать читать. Чтение первых 20 статей, любые теории, которых я не знаю, или тема, в которой я не очень хорошо разбираюсь, помешали бы мне понять, что они решают, или ценность их решения.

Но, в конце концов, меня меньше пугали теории, которые они использовали, или их особая новизна, чтобы найти решение, и я видел в них своего рода вдохновение или идеи, позволяющие решить конкретное ограничение или расширить универсальность существующей работы, которую можно найти. И я почувствовал, как легко, читая аннотацию, обращать внимание на проблему, которую они решают, а также на новизну, обоснованность и влияние их решения на область.

В целом, я действительно счастлив, что заставил себя прочитать нерегулярное количество рефератов, хотя во многих смыслах это казалось фатальным !! Я все еще хочу прочитать все тезисы с конференции, но это может занять, может быть, неделю. Я сообщу вам.

Это обязательные к прочтению из статей, которые я просмотрел (18 статей, не считая «Tue Poster Session A»), и их аннотации. Сортировка тегов не так эффективна для представления этих бумаг, это всего лишь скрытые человеческие перцептивные накладные расходы, иногда воспринимаемые как чувства.

Обобщение точечных вложений с использованием пространства эллиптических распределений Вассерштейна

ОСНОВЫ

Новая структура для вложений, которые являются гибкими в числовом отношении и расширяют точечные вложения, эллиптические вложения в пространство Вессерштейна. Эллиптические вложения Вассерштейна более интуитивно понятны и дают инструменты, которые лучше ведут себя численно, чем альтернативный выбор гауссовских вложений с дивергенцией Кульбака-Лейблера. В статье демонстрируются преимущества эллиптических вложений при их использовании для визуализации, вычисления вложений слов и отражения следования или гипернимии.

Созданы ли GAN одинаково? Масштабное исследование

СИСТЕМАТИЧЕСКАЯ ОЦЕНКА, ДЕЙСТВИТЕЛЬНОЕ ЗНАНИЕ

Несмотря на очень обширную исследовательскую деятельность, которая привела к появлению множества интересных алгоритмов GAN, по-прежнему очень трудно оценить, какой алгоритм (ы) работает лучше других. Мы проводим нейтральное, разностороннее крупномасштабное эмпирическое исследование современных моделей и методов оценки. Мы обнаружили, что большинство моделей могут достичь аналогичных результатов при достаточной оптимизации гиперпараметров и случайных перезапусках. Это говорит о том, что улучшения могут быть результатом более высокого вычислительного бюджета и настройки, а не фундаментальных алгоритмических изменений. Чтобы преодолеть некоторые ограничения текущих показателей, мы также предлагаем несколько наборов данных, по которым можно вычислить точность и отзыв. Наши экспериментальные результаты показывают, что будущие исследования GAN должны основываться на более систематических и объективных процедурах оценки. Наконец, мы не нашли доказательств того, что какой-либо из протестированных алгоритмов постоянно превосходит ненасыщающую GAN, представленную в \ cite {goodfellow2014generative}.

FishNet: универсальная основа для прогнозирования уровня изображения, области и пикселей

ОСНОВЫ, В ОСНОВЕ

Основные принципы разработки структур сверточной нейронной сети (CNN) для прогнозирования объектов на разных уровнях, например, уровне изображения, уровне области и уровне пикселей, расходятся. Как правило, сетевые структуры, разработанные специально для классификации изображений, напрямую используются в качестве базовой структуры по умолчанию для других задач, включая обнаружение и сегментацию, но редко бывает магистральная структура, разработанная с учетом объединения преимуществ сетей, предназначенных для прогнозирования на уровне пикселей или на уровне области. задачи, которые могут потребовать очень глубоких функций с высоким разрешением. Для достижения этой цели мы создаем сеть, похожую на рыбу, под названием FishNet. В FishNet информация всех разрешений сохраняется и уточняется для конечной задачи. Кроме того, мы наблюдаем, что существующие работы по-прежнему не могут \ emph {напрямую} распространять информацию о градиенте от глубоких слоев к мелким слоям. Наш дизайн лучше справляется с этой проблемой. Были проведены обширные эксперименты, чтобы продемонстрировать замечательную производительность FishNet. В частности, на ImageNet-1k точность FishNet может превосходить производительность DenseNet и ResNet с меньшим количеством параметров. FishNet был использован в качестве одного из модулей в победившем конкурсе COCO Detection 2018. Код доступен по адресу https://github.com/kevin-ssy/FishNet.

Свечение: Генеративный поток с обратимыми свертками 1x1

ПРАКТИЧЕСКАЯ МАГИЯ, ЭЛЕГАНТНАЯ

Генеративная модель на основе потока с обратимыми свертками 1x1, которые демонстрируют значительное улучшение логарифма правдоподобия и количественного качества выборки. Возможно, наиболее поразительно то, что это демонстрирует, что генеративная модель, оптимизированная для достижения простой цели логарифмической вероятности, способна эффективно синтезировать большие и субъективно реалистичные изображения.

Интригующий провал сверточных нейронных сетей и решения CoordConv

ИНТЕРЕСНО, О ВРЕМЕНИ

Мы показали любопытную неспособность CNN моделировать задачу преобразования координат, показали простое исправление в виде слоя CoordConv и дали результаты, которые предполагают, что включение этих слоев может повысить производительность в широком диапазоне приложений. Использование CoordConv в GAN привело к меньшему коллапсу режима, поскольку преобразование между пространственными латентами высокого уровня и пикселями становится проще для изучения. Модель обнаружения Faster R-CNN, обученная на обнаружении MNIST, показала, что IOU на 24% выше при использовании CoordConv, а в домене Reinforcement Learning (RL) агенты, играющие в игры Atari, значительно выигрывают от использования слоев CoordConv.

Какие архитектуры нейронных сетей способствуют появлению растущих и исчезающих градиентов?

ОСНОВЫ, ПОНИМАНИЕ

Мы даем строгий анализ статистического поведения градиентов в случайно инициализированной полносвязной сети N с активациями ReLU. Наши результаты показывают, что эмпирическая дисперсия квадратов записей в якобиане ввода-вывода N экспоненциальна в простой архитектурно-зависимой постоянной бета, заданной суммой обратных величин ширины скрытого слоя. Когда бета большая, градиенты, вычисленные N при инициализации, сильно различаются. Наш подход дополняет анализ случайных сетей в рамках теории среднего поля. С этой точки зрения мы строго вычисляем поправки конечной ширины к статистике градиентов на краю хаоса.

Анализ линейного ускорения распределенного глубокого обучения с разреженной и квантованной коммуникацией

ПРАКТИЧЕСКИЙ

Большие накладные расходы на связь создают узкое место для производительности распределенного стохастического градиентного спуска (SGD) для обучения глубоких нейронных сетей. Предыдущие работы продемонстрировали потенциал использования градиентного разбиения и квантования для снижения стоимости связи. Однако до сих пор отсутствует понимание того, как разреженная и квантованная связь влияет на скорость сходимости алгоритма обучения. В этой статье мы изучаем скорость сходимости распределенного SGD для невыпуклой оптимизации с двумя стратегиями уменьшения связи: усреднение разреженных параметров и градиентное квантование. Мы показываем, что скорость сходимости O (1 / √ MK) может быть достигнута, если гиперпараметры разрежения и квантования настроены правильно. Мы также предлагаем стратегию, называемую периодическим квантованным усреднением (PQASGD), которая дополнительно снижает затраты на связь при сохранении скорости сходимости O (1 / √ MK). Наша оценка подтверждает наши теоретические результаты и показывает, что наш PQASGD может сойтись так же быстро, как и SGD с полной связью, с объемом передаваемых данных всего 3% –5%.

Регуляризация дисперсией выборочных вариаций активаций

ОСНОВЫ, НОРМАЛИЗАЦИЯ

Методы нормализации играют важную роль в поддержке эффективного и часто более эффективного обучения глубоких нейронных сетей. Хотя обычные методы явно нормализуют активацию, мы предлагаем вместо этого добавить термин потерь. Этот новый термин потерь способствует тому, чтобы дисперсия активаций была стабильной и не изменялась от одной случайной мини-партии к другой. Наконец, мы можем связать новый термин регуляризации с методом батчнорма, что дает ему перспективу регуляризации. Наши эксперименты демонстрируют повышение точности по сравнению с методом пакетной обработки как для CNN, так и для полносвязных сетей.

Синаптическая сила для сверточной нейронной сети

СИНАПТИЧЕСКАЯ ОБРЕЗКА, НЕЙРОНАУКА

Сверточные нейронные сети (CNN) интенсивно используют как вычисления, так и память, что препятствует их развертыванию на мобильных устройствах. Вдохновленные соответствующей концепцией в литературе по нейронике, мы предлагаем Synaptic Pruning: управляемый данными метод для сокращения связей между входными и выходными картами функций с помощью недавно предложенного класса параметров, называемого Synaptic Strength. Synaptic Strength спроектирован так, чтобы фиксировать важность соединения в зависимости от количества передаваемой информации. Результаты экспериментов показывают эффективность нашего подхода. В CIFAR-10 мы сокращаем соединения для различных моделей CNN до 96%, что приводит к значительному уменьшению размера и экономии вычислений.

DropMax: адаптивный вариационный Softmax

ЧИСТЫЙ

Мы предлагаем DropMax, стохастическую версию классификатора softmax, который на каждой итерации отбрасывает нецелевые классы в соответствии с вероятностями выпадения, адаптивно определяемыми для каждого экземпляра. В частности, мы накладываем бинарные маскирующие переменные на вероятности выходных данных классов, которые изучаются адаптивно к входу с помощью вариационного вывода. Эта стохастическая регуляризация дает эффект построения ансамблевого классификатора из экспоненциально большого числа классификаторов с разными границами принятия решений. Более того, изучение показателей отсева для нецелевых классов в каждом экземпляре позволяет классификатору больше сосредоточиться на классификации по наиболее запутанным классам. Мы проверяем нашу модель на нескольких общедоступных наборах данных для классификации, на которой она получает значительно более высокую точность по сравнению с обычным классификатором softmax и другими базовыми показателями. Дальнейший анализ изученных вероятностей отсева показывает, что наша модель действительно чаще выбирает непонятные классы при выполнении классификации.

Реляционные рекуррентные нейронные сети

РЕВОЛЮЦИОННЫЙ

Нейронные сети на основе памяти моделируют временные данные, используя способность запоминать информацию в течение длительного времени. Однако неясно, обладают ли они также способностью выполнять сложные реляционные рассуждения с информацией, которую они запоминают. Здесь мы сначала подтверждаем нашу интуицию о том, что стандартные архитектуры памяти могут бороться с задачами, которые в значительной степени связаны с пониманием способов, которыми связаны сущности, то есть задач, связанных с реляционными рассуждениями. Затем мы устраняем эти недостатки, используя новый модуль памяти - Ядро реляционной памяти (RMC), в котором используется внимание с множеством точек скалярного произведения, позволяющее воспоминаниям взаимодействовать. Наконец, мы тестируем RMC на наборе задач, которые могут извлечь выгоду из более эффективных реляционных рассуждений на основе последовательной информации, и демонстрируем значительный выигрыш в RL-доменах (BoxWorld и Mini PacMan), оценке программ и языковом моделировании, достигая современного состояния. -art на наборах данных WikiText-103, Project Gutenberg и GigaWord.

Встраивание логических запросов в графы знаний

ПОДХОД МЕНЬШИНСТВ

Изучение низкоразмерных встраиваний графов знаний - мощный подход, используемый для прогнозирования ненаблюдаемых или отсутствующих ребер между объектами. Однако открытой проблемой в этой области является разработка методов, которые могут выйти за рамки простого предсказания границ и обрабатывать более сложные логические запросы, которые могут включать несколько ненаблюдаемых границ, сущностей и переменных. Например, имея неполный график биологических знаний, мы можем захотеть предсказать, «какие лекарства могут воздействовать на белки, вызывающие оба заболевания X и Y?» - запрос, который требует рассуждений обо всех возможных белках, которые могут взаимодействовать с болезнями X и Y. Здесь мы представляем структуру для эффективного прогнозирования конъюнктивных логических запросов - гибкого, но управляемого подмножества логики первого порядка - на неполных графах знаний. В нашем подходе мы встраиваем узлы графа в низкоразмерное пространство и представляем логические операторы как изученные геометрические операции (например, перенос, поворот) в этом пространстве вложения. Выполняя логические операции в пространстве встраивания малой размерности, наш подход достигает временной сложности, которая является линейной по количеству переменных запроса, по сравнению с экспоненциальной сложностью, необходимой для наивного подхода, основанного на перечислении. Мы демонстрируем полезность этой структуры в двух исследованиях приложений на реальных наборах данных с миллионами отношений: прогнозирование логических взаимосвязей в сети взаимодействий лекарство-ген-болезнь и графическое представление социальных взаимодействий, полученное на популярном веб-форуме. .

Многозадачное обучение как многоцелевая оптимизация

БОЛЬШИЕ ПРОБЛЕМЫ

В многозадачном обучении несколько задач решаются совместно, разделяя между собой индуктивный уклон. Многозадачное обучение по своей сути является многоцелевой проблемой, потому что разные задачи могут конфликтовать, что требует компромисса. Распространенным компромиссом является оптимизация цели прокси, которая сводит к минимуму взвешенную линейную комбинацию потерь для каждой задачи. Однако этот обходной путь действителен только в том случае, если задачи не конкурируют, что случается редко. В этой статье мы явно рассматриваем многозадачное обучение как многокритериальную оптимизацию с общей целью поиска оптимального по Парето решения. Для этого мы используем алгоритмы, разработанные в литературе по многоцелевой оптимизации на основе градиентов. Эти алгоритмы не применимы напрямую к крупномасштабным задачам обучения, поскольку они плохо масштабируются с учетом размерности градиентов и количества задач. Поэтому мы предлагаем верхнюю границу многокритериальных потерь и показываем, что их можно эффективно оптимизировать. Далее мы доказываем, что оптимизация этой верхней границы дает оптимальное по Парето решение при реалистичных предположениях. Мы применяем наш метод к множеству многозадачных задач глубокого обучения, включая классификацию цифр, понимание сцены (совместную семантическую сегментацию, сегментацию экземпляров и оценку глубины) и классификацию с несколькими метками. Наш метод позволяет создавать более эффективные модели, чем недавние многозадачные обучающие программы или индивидуальное обучение.

Mesh-TensorFlow: глубокое обучение для суперкомпьютеров

РЕШЕНИЕ

Пакетное разделение (параллелизм данных) является доминирующей стратегией обучения распределенной глубокой нейронной сети (DNN) из-за его универсальной применимости и возможности программирования с использованием одной программы с несколькими данными (SPMD). Однако разделение пакетов страдает от проблем, включая невозможность обучения очень больших моделей (из-за ограничений памяти), высокую задержку и неэффективность при небольших размерах пакетов. Все это можно решить с помощью более общих стратегий распределения (параллелизм моделей). К сожалению, эффективные параллельные модели алгоритмы, как правило, сложны для обнаружения, описания и реализации, особенно на больших кластерах. Мы представляем Mesh-TensorFlow, язык для определения общего класса распределенных тензорных вычислений. Если параллелизм данных можно рассматривать как разделение тензоров и операций по пакетному измерению, в Mesh-TensorFlow пользователь может указать любые тензорные измерения, которые будут разделены по любым измерениям многомерной сетки процессоров. Граф Mesh-TensorFlow компилируется в программу SPMD, состоящую из параллельных операций в сочетании с примитивами коллективного взаимодействия, такими как Allreduce. Мы используем Mesh-TensorFlow, чтобы реализовать эффективную параллельную с данными и параллельную модель версию модели Transformer от последовательности к последовательности. Используя сетки TPU с количеством ядер до 512, мы обучаем модели Transformer с 5 миллиардами параметров, превосходя результаты SOTA по задаче перевода с английского на французский WMT’14 и тесту моделирования языков с объемом в один миллиард слов. Mesh-Tensorflow доступен по адресу https://github.com/tensorflow/mesh.

Я не мог перестать думать о NeurIPS !! Об этом тоже писать.

Изменить: я опубликовал подборку статей из первых двух стендовых докладов (более 330 статей)