Недавно я прочитал довольно много статей о взаимосвязи между MLE, MAP и байесовским обучением. Однако я считаю, что большинство из них не объясняет, чем MLE и MAP отличаются от оценки Байеса.

Разница между MLE и MAP вполне очевидна. MLE максимизирует функцию правдоподобия. MAP максимизирует апостериорную вероятность. Когда предварительное распределение является однородным, MAP и MLE дают одинаковый результат.

Предположим, нам дан набор данных в качестве обучающего набора, и нас просят сделать прогнозы для нескольких новых точек данных. В рамках MLE/MAP мы строим модель с некоторыми параметрами и оцениваем параметры из обучающего набора. Затем мы применяем нашу подобранную модель к новым точкам данных. Почему ответ, полученный таким образом, может быть не оптимальным? Потому что мы ограничены определенным набором параметров, которые мы получили. В байесовской системе обучения нам нужно построить все возможные модели и усреднить взвешенные прогнозы всех моделей.

Хороший пример здесь.

Мы хотим знать вероятность наблюдения новой точки данных,

Для MLE мы просто сохраняем модель с наибольшей вероятностью,

Может быть много других моделей с немного меньшей вероятностью, но для MLE мы отбрасываем модели, кроме модели с самой высокой вероятностью. По этой причине MLE иногда не дает оптимального результата. Конечно, преимущество MLE заключается в том, что его легко вычислить, поскольку нас интересует только одна модель.