Введение в вероятностное глубокое обучение, объясненное простыми словами

Глубокое обучение - это не что иное, как вероятность. В нем задействованы два принципа: один - максимальная вероятность, а другой - байесовский. Все дело в максимизации функции правдоподобия, чтобы найти распределение вероятности и параметры, которые лучше всего объясняют данные, с которыми мы работаем. Байесовские методы вступают в игру, когда наша сеть должна сказать: «Я не уверен». Он находится на стыке архитектуры глубокого обучения и байесовской теории вероятностей.

В целом глубокое обучение можно описать как метод машинного обучения, основанный на искусственных нейронных сетях. Чтобы дать вам представление о том, как выглядит искусственная нейронная сеть, см. Рисунок 1.

На рисунке 1 вы можете увидеть искусственную сеть с тремя скрытыми слоями и несколькими нейронами на каждом слое. Каждый нейрон связан с каждым нейроном следующего слоя. Сеть имитирует способ анализа и обработки информации человеческим мозгом. Хотя человеческий мозг довольно сложен, нейрон в искусственной нейронной сети является упрощением своего биологического аналога.

Чтобы лучше понять, представьте нейрон как контейнер для числа. Нейроны во входном слое хранят числа. Такими входными данными могут быть историческая волатильность и подразумеваемая волатильность индекса S&P 500. Нейроны в следующих слоях получают взвешенную сумму значений от связанных нейронов. Связи не одинаково важны, веса определяют влияние значения входящего нейрона на значение нейрона в следующем слое. Используя данные обучения, вы настраиваете веса, чтобы они оптимально соответствовали данным. Только после этого шага модель можно использовать для прогнозов.

Работа с системой глубокого обучения состоит из двух шагов.

Выбор архитектуры для вашей задачи
Настройте веса модели

Классификация

Классификация предполагает прогнозирование того, к какому классу принадлежит предмет. Большинство классификационных моделей являются параметрическими моделями, что означает, что у модели есть параметры, которые определяют ход границ. Модель может выполнять классификацию после замены параметров на определенные числа. Настройка весов - это то, как найти эти числа. Рабочий процесс можно разделить на три этапа:

Извлечение функций из необработанных данных
Выбор модели
Подгонка модели классификации к необработанным данным путем настройки параметра

Используя данные проверки, вы оцениваете производительность модели. Это похоже на предварительный анализ, когда вы используете набор данных, который не использовался во время оптимизации ваших параметров.

Мы различаем вероятностные и не вероятностные модели классификации.

Вероятностная классификация

Это относится к сценарию, в котором модель предсказывает распределение вероятностей по классам. В качестве примера из фондового рынка вероятностный классификатор будет брать финансовые новости и затем выводить определенную вероятность роста или падения фондового рынка. Обе вероятности в сумме составляют единицу. Вы бы выбрали сделку с наибольшей вероятностью.

Однако, если вы предоставите классификатору входные данные, не относящиеся к безопасности, у классификатора нет другого выбора, кроме присвоения вероятностей классам. Вы надеетесь, что классификатор покажет свою неопределенность, присвоив более или менее равные вероятности другим возможным, но неправильным классам. В вероятностных моделях нейронных сетей этого часто не происходит. Эта проблема может быть решена, если мы расширим вероятностные модели, используя байесовский подход.

Байесовская вероятностная классификация

Байесовская классификация - это естественно вероятностный метод, который выполняет задачи классификации на основе предсказанных вероятностей принадлежности к классу. Следовательно, байесовские модели могут выражать неопределенность в своих прогнозах. В нашем примере выше наша модель предсказывает распределение результатов, которое состоит из вероятности восходящего или нисходящего дня. Вероятности в сумме составляют 1.

Итак, насколько уверена модель в присвоенных вероятностях? Байесовские модели дают нам ответ на этот вопрос. Преимущество этой модели в том, что она может указывать на ненадежный прогноз по большому разбросу различных наборов прогнозов.

Вероятностное глубокое обучение с подходом максимального правдоподобия

Чтобы лучше понять этот принцип, мы начнем с простого примера, далекого от глубокого обучения. Рассмотрим кубик, на одной стороне которого изображен знак джокера, а на других - + / - /: / x / no sign /.

Теперь, какова вероятность появления знака джокера, если вы бросите кубик? В среднем шутник подписывает одно из шести случаев. Вероятность p = 1/6. Вероятность того, что этого не произойдет - 1-п или 5/6. Какова вероятность, если вы бросите кубик шесть раз? Если мы предположим, что знак джокера появляется в первом броске, и мы видим все остальные знаки в следующих пяти бросках, мы могли бы записать это в строке как:

J*****

Вероятность для этой последовательности составляет 1/6 x 5/6 x 5/6 x 5/6 x 5/6 = 1/6 x (5/6) 5 = 0,067 или с p = 1/6 как p 1x (1 -p) 6–1.

Если нам нужна вероятность того, что один знак джокера и 5 других знаков появятся в 6 бросках независимо от позиции, мы должны принять во внимание все следующие 6 результатов:

J*****

*J****

**J***

***J**

****J*

*****J

Каждая из этих последовательностей имеет одинаковую вероятность p x (1-p) 5. Вероятность того, что один знак джокера и любой другой знак встречается пять раз, составляет 0,067 или 6,7%. Рассчитав вероятность появления двух знаков джокера за 6 бросков, мы имеем 15 возможных способов. Число 15 получено из всех перестановок 6! делится на количество неразличимых перестановок. Это 6! / (2! X 4!) = 15. Полная вероятность выпадения двух знаков джокера и пяти * равна 15 x (1/6) 2x (5/6) 4 = 0,20.

Приведенный выше пример называется биномиальным экспериментом. Эксперимент обладает следующими свойствами:

Эксперимент состоит из n повторных испытаний.
Каждое испытание может привести только к двум возможным исходам.
Вероятность успеха, обозначенная p, одинакова во всех испытаниях.
Испытания независимы, результат одного испытания не влияет на результат другого испытания.

В библиотеке SciPy у нас есть функция binom.pmf для вычисления этого с аргументами k, равными количеству успешных попыток, n равным количеству попыток, и p равным вероятности успеха в одной попытке. Ниже представлены результаты этого эксперимента.

Ниже приведен код эксперимента. Вы можете запустить его на google colab.

Теперь рассмотрим следующий пример: вы находитесь в казино и играете в игру, в которой вы выигрываете, если появляется знак доллара. Вы знаете, что существует определенное количество лиц (0–6), но не знаете, сколько. Вы наблюдаете за 10 бросками игральной кости, при которых выпадают два знака доллара. Как вы думаете, сколько знаков доллара на кубике? Используя приведенный выше код, мы можем предположить, что на этот раз у нашего кубика две грани со знаком доллара. Наши наблюдаемые данные фиксируются с десятью бросками и двумя знаками доллара, но наша модель изменяет данные, полученные от кубика с гранями нулевого доллара на кубик с гранями 1,2,3… 6 долларов. Вероятность появления знака доллара - наш параметр. Параметр принимает значения p = 1/6, 2/6…, 6/6 для наших различных моделей. Вероятность может быть определена для каждой из моделей. Вы можете использовать приведенный ниже код, чтобы рассчитать вероятности для каждой из моделей.

В нашем примере параметрическая модель - это биномиальное распределение с двумя параметрами. Один параметр - это вероятность, а второй - количество попыток. Для нашей модели мы выбрали значение p с максимальной вероятностью, p = 1/6. Вероятности, показанные на графике выше, ненормализованы в том смысле, что они не составляют в сумме 1. В самом строгом смысле они не являются вероятностями, поэтому мы говорим о вероятностях. Вероятности можно использовать для ранжирования и выбора модели с наибольшим правдоподобием.

Подводя итог, для нашего подхода максимального правдоподобия нам необходимо сделать следующее:

Нам нужна модель распределения вероятностей данных, которая имеет один или несколько параметров. В нашем примере параметром является вероятность p.
Мы используем модель для определения вероятности получения наблюдаемых данных при принятии различных значений параметров.
Выбирается значение параметра, при котором вероятность максимальна. Это называется оценкой Max-Like. В нашей модели оценка ML состоит в том, что одна сторона кубика имеет знак $.

Функции потерь для классификации

Далее мы обсудим использование принципа максимума для вывода функции потерь. В машинном обучении функции потерь для классификации - это вычислимые функции потерь, представляющие цену, уплаченную за неточность прогнозов в задачах классификации.

Функция потерь полезна, когда истинный параметр неизвестен. Обычно мы стремимся минимизировать ошибку. В этом контексте целевая функция часто упоминается как функция потерь, а значение, вычисленное этой функцией, называется потерями. Чтобы вычислить ошибку модели во время оптимизации, необходимо выбрать функцию потерь.

Согласно принципу максимального правдоподобия функция потерь оценивает, насколько близко распределение прогнозов, сделанных моделью, соответствует распределению целевых переменных в обучающих данных. Используя кросс-энтропию, мы измеряем ошибку между двумя распределениями вероятностей. С помощью оценки максимального правдоподобия мы ищем набор весов модели, который минимизирует разницу между прогнозируемым распределением вероятностей модели с учетом данных временного ряда и распределением вероятностей в обучающем наборе. Мы называем это кросс-энтропией. Нейронные сети глубокого обучения обучаются с использованием кросс-энтропии в качестве функции потерь в рамках максимального правдоподобия.

Какую функцию потерь использовать в рамках максимальной вероятности?

Выбор функции потерь связан с функцией активации, используемой в выходном слое нашей нейронной сети. Функция активации - это функция, которая добавляется в искусственную нейронную сеть, чтобы помочь сети изучить сложные закономерности в данных. При сравнении с нейронной моделью, которая присутствует в нашем мозгу, функция активации в конце решает, что должно быть запущено в следующий нейрон.

Ниже приводится краткое изложение лучших практик для каждого типа проблем в отношении функции потерь.

Проблема двоичной классификации:

Это простейшая проблема машинного обучения. Цель двоичной классификации - разделить точки данных на одну из двух групп: 0 или 1, истина или ложь.

Конфигурация выходного уровня - один узел с блоком активации сигмовидной формы.
Функция потерь - кросс-энтропия

Проблема регрессии:

Это используется для прогнозирования исхода события на основе взаимосвязи между переменными, полученными из набора данных.

Конфигурация выходного уровня - один узел с линейным блоком активации.
Функция потерь - среднеквадратичная ошибка (MSE)

Проблема классификации нескольких классов:

Классификация означает категоризацию данных и формирование групп на основе сходства. В наборе данных независимые переменные играют жизненно важную роль в классификации наших данных. Мы говорим о мультиклассовой классификации, когда у нас есть более двух классов в нашей целевой переменной. Мы прогнозируем вероятность принадлежности примера к каждому классу.

Конфигурация выходного уровня - по одному узлу для каждого класса.
Функция потерь - кросс-энтропия

Резюме:

Подход MaxLike настраивает параметр модели с целью получения данных с большей вероятностью, чем все другие модели с другими значениями параметров.

С помощью maxlike вы можете настроить параметры моделей. Это основа для получения функций потерь.

Чтобы использовать подход maxlike, необходимо определить параметрическое распределение вероятностей для данных.

Maxlike включает в себя:

определение параметрической модели для распределения вероятностей данных, с которыми мы работаем
максимизация вероятности наблюдаемых данных

Глубокое обучение с вероятностью тензорного потока

В этом разделе мы сфокусируемся на вероятности тензорного потока, который является расширением тензорного потока. Эта структура позволяет легко подобрать вероятностную модель глубокого обучения, не требуя определения соответствующей функции потерь. Модель позволяет легко объединить свои полевые знания, позволяя выбрать распределение результатов. Мы также покажем вам, как разрабатывать высокопроизводительные вероятностные модели глубокого обучения. Модель улучшается за счет выбора правильного распределения для результата.

Сравнение моделей вероятностного прогнозирования

Цель состоит в том, чтобы давать точные прогнозы на основе новых данных. Модель оценивается на новых данных, не используемых при обучении. Обычно вы настраиваете свои модели и оцениваете производительность на основе данных проверки. Выбирается модель с наивысшей производительностью прогнозирования.

Чтобы избежать переобучения вашей модели, вы работаете с тремя наборами данных:

Данные обучения
Данные валидации
Тестовые данные (полностью новые данные)

Вероятность тензорного потока

TensorFlow Probability - это библиотека для вероятностных рассуждений и статистического анализа в TensorFlow. Это делает устаревшими функции потери вручную. TFP позволяет вам подключить распределение и вычислить вероятность наблюдаемых данных. Нет необходимости настраивать какие-либо функции. Это позволяет вам сосредоточиться на части модели и измерить производительность вероятностных моделей, используя совокупную вероятность данных, с которыми вы работаете.

Воспользуйтесь записной книжкой ниже, чтобы лучше понять структуру TFP.

Цель: из этой записной книжки вы узнаете, как работать с Tensor Flow Probability. Вы создадите модели линейной регрессии. Модели могут выводить гауссовское условное распределение вероятностей. Затем вы определяете различные модели с помощью Keras и вероятностной структуры Tensorflow. Вы будете моделировать условное распределение вероятностей как нормальное распределение с постоянным и гибким стандартным отклонением. Среднее значение CPD линейно зависит от входа. Вы сравниваете 3 модели, основанные на NLL, на проверочном наборе и используете модель с наименьшим NLL для прогнозирования набора тестов. Наконец, вы также проведете эксперимент по экстраполяции и посмотрите, как ведет себя предсказанная CPD.

Использование: повторно запустите код и измените его, чтобы лучше понять тему.

Набор данных: вы работаете с смоделированным набором данных, который выглядит как рыба при отображении на диаграмме рассеяния. Данные разделены на данные для обучения, проверки и тестирования.

Запустите код в google colab.

Затем мы моделируем данные x, y, где y увеличивается в среднем линейно с x. Первый случайный распределенный шум моделируется с непостоянной дисперсией. После этого мы моделируем равномерно распределенные значения x между -1 и 6 и, наконец, вычисляем соответствующие значения y с y = 2,7 * x + шум. Разброс шума изменится. График иллюстрирует поведение дисперсии.

#Define variance structure of the simulation x1=np.arange(1,12,0.1) x1=x1[::-1] x2=np.repeat(1,30) x3=np.arange(1,15,0.1) x4=np.repeat(15,50) x5=x3[::-1] x6=np.repeat(1,20) x=np.concatenate([x1,x2,x3,x4,x5,x6]) plt.plot(x) plt.xlabel("index",size=16) plt.ylabel("sigma",size=16)#pred plt.show()

Затем мы выбираем равномерно распределенные значения x в диапазоне от -1 до 6. Наконец, мы сортируем значения x.

#Generate the x values for the simulated data np.random.seed(4710) noise=np.random.normal(0,x,len(x)) np.random.seed(99) first_part=len(x1) x11=np.random.uniform(-1,1,first_part) np.random.seed(97) x12=np.random.uniform(1,6,len(noise)-first_part) x=np.concatenate([x11,x12]) x=np.sort(x)

Мы вычисляем y из значений x и шума с линейной функцией y = 2,7 * x + шум.

#Generate the y values for simulated noise and the x values y=2.7*x+noise y=y.reshape((len(y),1)) x=x.reshape((len(x),1)) #Visualize the data plt.scatter(x,y,color="steelblue") plt.xlabel("x",size=16) plt.ylabel("y",size=16)#pred plt.show()

Данные разделены на данные проверки и тестирования. Мы случайным образом выбираем 25% значений x и y, а остальное - набор обучающих данных. Набор данных для обучения снова делится на набор данных для обучения (80%) и набор данных для проверки (20%). Чтобы отобразить данные, нам нужно убедиться, что все значения x находятся в порядке возрастания.

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=47) x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.2, random_state=22) print("nr of traning samples = ",len(x_train)) print("nr of validation samples = ",len(x_val)) print("nr of test samples = ",len(x_test))

количество обучающих образцов = 293

количество проверочных образцов = 74

количество тестовых образцов = 123

Tensor Flow Probability - это основной инструмент для определения неопределенностей при работе с вероятностными моделями. TFP можно использовать для решения различных проблем. Ниже приводится краткое изложение важных методов, которые можно применить к дистрибутивам TFP.

Байесовский подход к моделированию

Байесовский подход является наиболее важным методом подбора параметров вероятностной модели и оценки неопределенности параметров. Байесовский подход полезен, когда у нас мало обучающих данных для работы. Байесовские модели глубокого обучения способны выражать неопределенность. Это дает нам необходимые инструменты для обновления наших представлений о неопределенных событиях.

Модели глубокого обучения надежны при применении к тем же данным, которые используются при обучении. Однако эти модели могут убаюкивать вас ложным чувством безопасности. Байесовский подход к моделированию помогает информировать нас о потенциально неверных прогнозах.

Проблема с традиционной моделью глубокого обучения заключается в том, что при представлении ситуации, невидимой на этапе обучения, она не работает. Когда тестовые данные не поступают из того же распределения, что и данные обучения, наша модель машинного обучения попадает в затруднительное положение. На фондовом рынке это может произойти очень быстро, поскольку распределения постоянно меняются по мере поступления новых данных. Зависимость от предположения об отсутствии разницы между тестовыми и обучающими данными является слабым местом подходов к глубокому обучению.

Нам нужна модель, которая говорит нам, что мы чувствуем неуверенность. Решение этой проблемы - ввести новый вид неопределенности. Мы называем это эпистемической неопределенностью. Она также известна как систематическая неопределенность и возникает из-за вещей, которые можно в принципе знать, но не знают на практике. Это может быть связано с тем, что модель не учитывает некоторые эффекты. Байесовские рассуждения позволяют нам моделировать такую систематическую неопределенность.

Идея создания моделей, учитывающих неопределенность значений параметров с помощью распределения вероятностей, была первоначально разработана в 18 веке преподобным Томасом Байесом. Этот подход представляет собой четкий способ подобрать вероятностные модели, учитывающие различные неопределенности. Это альтернатива основной статистике - частотная статистика. В следующей таблице описаны различия между этими двумя ветвями статистики.

*** Пример подбрасывания монеты - вероятность выпадения орла из-за нечестной монеты ***

Байесовская интерпретация

Вероятность увидеть голову - это долгосрочная относительная частота появления головы при повторных подбрасывании монеты. Мы выполняем больше подбрасываний монеты, количество выпавших орлов, полученное как пропорция от общего числа подбрасываний, стремится к «истинной» вероятности того, что монета выпадет орлом. Эксперимент не включает данные о честности других монет.

Частое толкование

После нескольких подбрасываний монета постоянно выпадает орлом. Таким образом изменяется предыдущее мнение о честности монеты. Мы вычисляем апостериорные вероятности для всех значений от 0 до 1. Затем мы снова подбрасываем монету и повторяем вычисления, но на этот раз с апостериорным распределением в качестве следующего априорного распределения. По мере того, как мы собираем больше данных, наша оценка систематической ошибки будет становиться все лучше и лучше, и мы сможем сколь угодно приблизиться к реальному значению.

Вероятность частичной статистики анализирует частые измерения. Он определяется как теоретический предел относительной частоты при бесконечном количестве повторений.

Байесовская статистика определяет вероятность с точки зрения степени уверенности. Чем больше вероятность исхода, тем выше степень веры. В этом контексте одной из самых известных формул байесовской статистики является теорема Байеса. Он связывает вместе четыре вероятности:

Условная вероятность A для данного B - P (A | B)
Вероятность B при A - P (B | A)
Безусловная вероятность A - P (A)
Безусловная вероятность B - P (B)

В основе подгонки байесовской модели лежит теорема Байеса, поскольку она позволяет обновлять прогнозируемые вероятности события путем включения новой информации. Для лучшего понимания рассмотрим следующий пример. Вы управляете фондом и вам нужно спрогнозировать будущую стоимость индекса S&P 500, поэтому вам нужно p (y | x index). У вас в команде несколько квантов. Каждый из членов вашей команды дает вам разные вероятностные прогнозы. Лучше всего усреднить предсказанные вероятности и присвоить каждому p (y | x index, θ i) соответствующий вес. Этот вес должен быть пропорционален производительности каждой модели на прошлых данных. Это вероятность, определяемая как p (D | θ i). Вдобавок к этому вы добавляете свое суждение, основанное на моделях, исходящих от членов вашей команды - до p (θ i). Если вы не хотите судить своих экспертов, вы можете вместо этого дать каждому из них такое же субъективное априорное суждение. Это дает ненормализованное апостериорное распределение. После нормализации он говорит вам использовать заднюю часть в качестве веса:

При объяснении простыми словами, мы используем мудрость толпы, но оцениваем вклад отдельных экспертов. Величина называется апостериорной, потому что мы определяем ее после просмотра данных.

Чтобы определить P (θ | D), нам нужно определить вероятность наблюдаемых данных P (D | θ) с параметром θ. Нам также понадобится априор P (θ) и доказательство P (D). Поскольку наши обучающие данные D фиксированы, P (D) постоянно. Если P (D) является постоянным, это приводит нас к тому, что апостериорное распределение пропорционально вероятности, умноженной на априорное: P (θ | D) α P (D | θ) * P (θ).

Понимание байесовских моделей на примере подбрасывания монеты

Давайте начнем согласовывать нашу первую байесовскую модель с примера с подбрасыванием монеты. Возможны два исхода: y = 1 (решка) или y = 0 (решка). Мы хотим определить прогнозное распределение p (y) для двух исходов. Обычно мы используем входные значения для нашей модели, но в этом случае у нас нет входных переменных. Мы всегда подбрасываем одну и ту же монету. Единственное, что нам нужно оценить, - это безусловное распределение вероятностей результата. Для справедливой монеты прогнозирующее распределение присваивает вероятность 0,5 для орла и 0,5 для решки. С другой стороны, эпистемическая неопределенность равна нулю.

А теперь предположим, что у нас есть монета, и мы не знаем, честная это монета или нет. Мы также не можем сказать точное значение θ. Следовательно, нам необходимо оценить вероятность выпадения орлов - θ = P (y = 1). Мы генерируем обучающие данные, бросая монету три раза и наблюдая орел во всех трех случаях. Первое впечатление - это несправедливая монета. Но как мы можем быть уверены, если у нас мало данных? Здесь мы используем байесовский подход.

Мы предполагаем, что нам нужно учесть некоторую неопределенность относительно параметра θ. Вместо оценки оптимального значения параметра мы стремимся определить апостериорное распределение параметра. Наша формула Байеса:

p (θ | D) - апостериорная
p (D | θ) - вероятность
p (θ) - априорная
p (D) - предельное правдоподобие

Нам нужно определить совместное правдоподобие p (D | θ) путем умножения всех трех наблюдений:

P(D|θ) = P(y=1) * P(y=1) * P(y=1) = θ*θ*θ=θ 3

Мы знаем, что наш параметр θ должен быть числом от 0 до 1, потому что это наша вероятность выпадения орла при каждом подбрасывании монеты. Если все значения θ одинаково вероятны, мы имеем равномерное распределение. Поскольку θ может принимать любое значение от 0 до 1, p (θ) является непрерывным распределением вероятностей.

Мы решаем наш пример с подбрасыванием монеты с помощью приближения грубой силы. В следующем коде показано, как подогнать распределение Бернулли байесовским способом, используя метод грубой силы.

Вы можете запустить код в Google Colab.

Цель: вычислить апостериорное распределение для параметра θ, а также прогнозирующее распределение для результата эксперимента Бернулли. Используйте метод грубой силы и выберите различные априорные распределения для параметра θ. Мы используем дискретные значения для априорных и апостериорных значений θ. Мы работаем с суммами для приближения интегралов.

Попытайтесь понять предоставленный код, запустив его, проверив вывод и поиграв с ним.

Набор данных: вы работаете с наблюдаемыми значениями подбрасываний монеты.

Шаги:

Определим равномерную априорность для θ
Оцените объединенное правдоподобие и ненормализованное апостериорное значение при одном конкретном θ.
Вычислить объединенное правдоподобие, ненормализованное апостериорное и нормированное апостериорное значение для диапазона θ.
Вычислить и построить предварительное прогнозирующее распределение и апостериорное прогнозирующее распределение

Сначала нам нужно определить априорное распределение для параметра θ распределения Бернулли. Мы оцениваем распределения в дискретных точках в диапазоне от 0,05 до 0,95. Мы используем равномерный априор, где каждая тэта имеет одинаковую вероятность.

Задний и приор для головы

Прогнозирующее распространение:

Для вероятности выпадения головы мы сначала используем апостериорное распределение:

При таком подходе мы делаем выборку априорной (θ) в 19 точках сетки (θ 1 = 0,05, θ 2 = 0,1,… .θ 19 =). С вероятностями голов и апостериорных данных мы получаем:

p(y=1|D)=0.78

p(y=0|D)=1-p(y=1|D)=0.22

Наше прогнозирующее распределение, основанное на апостериорной оценке, говорит нам, что мы можем ожидать орла с вероятностью 78% и решки с вероятностью 22%.

Резюме:

Апостериорный дает большую вероятность значениям параметров, которые приводят к более высокому правдоподобию наблюдаемых данных.
Подход Байеса усредняет все предсказанные распределения, взвешенные с апостериорными вероятностями соответствующих значений параметров.
Чем больше тренировочных данных, тем меньше разброс апостериорного.
Чем больше обучающих данных, тем меньше влияние предшествующего.
Апостериор - это узкое распределение Гаусса для больших наборов обучающих данных.
Метод грубой силы не может использоваться для сложных задач, таких как NN.
Байесовские вероятностные модели также отражают эпистемическую неопределенность.
Эпистемическая неопределенность вызвана неопределенностью параметра модели.
Байесовские модели заменяют каждый параметр распределением.
Байесовская модель показывает лучший прогноз по сравнению с небайесовскими моделями, когда обучающие данные ограничены.

Ссылка

Оливер Дюрр, Беате Больной и Элвис Мурина. (2020). Вероятностное глубокое обучение. Публикации Мэннинга.

Евгений Чарняк (2019). Введение в глубокое обучение. MIT Press.