Ансамблевое моделирование: почему несколько моделей лучше, чем одна?

Простое введение в ансамблевое моделирование

Введение

Иногда алгоритм контролируемого обучения плохо работает с данными. Причин и причин может быть много. Данные недостаточно хороши. Тенденции нет. Модель может быть слишком сложной. Если модель слишком сложна и данных недостаточно, модель может слишком хорошо соответствовать данным. Ждать! Слишком хорошо? Это означает, что данные изучают даже шум и выбросы. Это не то, чего мы хотим! Производительность алгоритма зависит от того, насколько хорошо он обобщает. Если один сложный алгоритм работает плохо, мы можем объединить результаты в группу моделей.

Обзор

В этой статье мы затронем следующие темы:

Что такое ансамблевое моделирование?
Агрегация начальной загрузки
Повышение
Укладка

Что такое ансамблевое моделирование?

До сих пор мы использовали только одну гипотезу, чтобы делать прогнозы. В ансамблевом моделировании мы используем множество гипотез. Мы объединяем предсказания этих гипотез.

Цель состоит в том, чтобы объединить разные классификаторы в метаклассификатор с голосованием.

Существует три различных типа методов ансамблевого моделирования:

Агрегация начальной загрузки,
Повышение и
Укладка.

Агрегация начальной загрузки

Лео Брейман предлагает эту технику в техническом отчете 1994 года. Другое название Bootstrap Aggregation — Bagging.

Бэггинг — это метод, используемый для переоснащения моделей. Поскольку модели переобучения имеют высокую дисперсию, бэггинг помогает уменьшить дисперсию. Но бэггинг неэффективен для уменьшения предвзятости модели. Не используется для дооснащения моделей.

Как работает пакетирование

Бэггинг относится к случайной выборке с заменой (повторной выборкой). Процесс выглядит следующим образом:

Шаг 1.

Он берет подгруппу функций и точек данных случайным образом. Другими словами, он извлекает множество выборок из набора данных. В каждом образце может быть перекрытие. Каждая точка данных имеет равную вероятность попасть в выборку.

Шаг 2.

Он обучает каждую модель в подгруппе. Он генерирует множество версий предиктора при каждой повторной выборке.

Шаг 3.

Он объединяет результаты всех моделей. Этот шаг агрегации дает нам мета-предсказание. Мета-прогнозирование включает в себя усреднение моделей при прогнозировании числового значения. Он включает в себя большинство голосов при прогнозировании класса для задач классификации.

Преимущества агрегации Bootstrap

Различные характеристики из набора данных, включенного в каждую повторную выборку
Более надежные алгоритмы с лучшей производительностью на невидимых данных (без переобучения)
Можно проверить стабильность прогноза
Ускорение процесса обучения за счет параллельного обучения базовых моделей

Повышение

Повышение — это метод, используемый для недообучения моделей. Модели недообучения имеют высокий уклон. Повышение направлено на уменьшение предвзятости.

Как работает загрузка

Процесс Boosting заключается в обучении новых моделей итерации за итерацией:

Шаг 1.

Он использует случайные подмножества, взятые из обучающего набора данных без замены. Он тренирует слабых учеников.

В усиленном алгоритме обучение каждой базовой оценки зависит от предыдущей.

Каждая выборка данных имеет вес. Наборы данных с более высокими ошибками прогнозирования получают более высокий вес. Более полезные функции получают больший вес.

Алгоритм выполняет больше итераций по наборам данных с более высокими ошибками прогнозирования.

Шаг 2.

Он рисует второй случайный обучающий подмножество без замены из обучающего набора данных.

На каждой итерации алгоритм увеличивает веса ошибочно классифицированных точек данных. Таким образом, следующая модель с большей вероятностью правильно их классифицирует.

Он добавляет 50% неправильно классифицированных примеров предыдущей итерации к следующей итерации.

Шаг 3.

Он снова находит обучающие примеры в обучающем наборе данных для обучения третьего слабого ученика.

Шаг 4.

Алгоритм объединяет результаты всех повышающих базовых оценок путем голосования по большинству. Точность увеличивается с количеством базовых оценок в усиленном ансамбле.

Недостаток повышения:

Легко поддается влиянию зашумленных точек данных и выбросов (адаптивное повышение)
Тенденция к завышению данных, если количество оценщиков велико

Укладка

Целью Stacking является увеличение прогностической способности классификатора. Процесс заключается в обучении множества моделей и использовании алгоритма объединения для получения окончательного прогноза. Он использует прогнозы из дополнительных входных данных всех этих моделей.

Заключение

Почему несколько моделей лучше одной? Ансамблевое моделирование приводит к более надежной модели. Он также может лучше обобщать по сравнению с отдельным алгоритмом.

Если вам понравилась эта статья, пожалуйста, похлопайте в ладоши. Если вы хотите читать подобные статьи от меня, подпишитесь на меня, чтобы получать электронные письма всякий раз, когда я публикую новую статью.

Использованная литература:

Брейман, Л. (1994) Предикторы бэгинга, доступно по адресу: https://www.stat.berkeley.edu/~breiman/bagging.pdf [Доступ: 25 февраля 2023 г.]

Джонстон, Б. и Матур, И. (2019) Прикладное контролируемое обучение с помощью Python. 1-е изд. Издательство Пакет. Доступно по адресу: https://www.perlego.com/book/962337/applied-supervised-learning-with-python-use-scikitlearn-to-build-predictive-models-from-realworld-datasets-and-prepare- себе-для-будущего-машинного обучения-pdf (дата обращения: 25 февраля 2023 г.).

Рашка С. и Мирджалили В. (2019) Машинное обучение Python. 3-е изд. Издательство Пакет. Доступно по адресу: https://www.perlego.com/book/1323528/python-machine-learning-machine-learning-and-deep-learning-with-python-scikitlearn-and-tensorflow-2-3rd-edition- pdf (дата обращения: 25 февраля 2023 г.).

Рассел, С.Дж., и Норвиг, П. (2010) Искусственный интеллект: современный подход, Аппер-Сэдл-Ривер, Нью-Джерси: Прентис-Холл.