В этой статье вы поймете, почему вы должны разделить свой набор данных на обучающий, тестовый и проверочный наборы.

Введение

В начале любого инженера по машинному обучению вы думали только о том, чтобы разделить свой набор данных на две части. Традиционно вы разбиваете набор данных на следующие наборы;

1. Тренировочный набор

2. Тестовый набор

Обучающий набор — это основной набор данных, который используется для обучения модели; набор данных, что сеть в глубоком обучении изучит свое нелинейное преобразование, в то время как набор тестов будет использоваться для оценки производительности модели.

Хотя это, особенно на самых ранних этапах развития машинного обучения, может быть приемлемым, однако с последними достижениями в области машинного обучения и случаев использования глубоких нейронных сетей как в промышленности, так и в академических исследованиях; достижение определенной степени точности, особенно в отношении ранее невиданных данных, стало главной оценкой успеха моделей глубокого обучения.

Разделение наборов данных на обучающие и тестовые наборы, хотя это и не является ошибкой, теперь стало недопустимым в машинном и глубоком обучении.

Почему нужно разделить набор данных на три набора

В любом проекте машинного обучения или глубокого обучения цель состоит не только в том, чтобы построить модель, которая хорошо работает на тренировочном наборе, модель не будет оцениваться на тренировочном наборе; цель состоит в том, чтобы получить модель, которая хорошо работает с невиданными ранее данными, модель, которая хорошо обобщает совершенно новый набор данных.

Поэтому в следующий раз, когда вы будете работать над проектом машинного обучения, настоятельно рекомендуется разделить ваши данные на следующие наборы;

1. Тренировочный набор

2. Набор для проверки

3. Тестовый набор

Достижение модели, которая хорошо обобщает невиданныеранее данные, включает в себя несколько итераций, настройку и настройку сети, конфигурации, которые могут включать увеличение размера сети с точки зрения уровней, итерацию по различным эпохи и размеры партии.

Все это делается с помощью сигнала обратной связи, такого как функции потерь; пошаговое вовлечение называется обучением, и во время этого процесса части информации просачиваются обратно в модель, и если это вверх и вниз по настройке модели, поиск лучших гиперпараметров выполняется на тестовый набор, и вместо отдельных данных для проверки модели «Проверочный набор» модель обманет, изучив всю необходимую информацию о тестовом наборе, таким образом, переобучит его.

Помните, что цель модели состоит в том, чтобы хорошо обобщить новый набор данных, с нашим набором тестов, который уже переоснащен, достижение этого станет невозможным.