Истории о машинном обучении

Обзор:

В машинном обучении цель модели состоит в том, чтобы изучить шаблоны из обучающих данных, а затем использовать эти изученные шаблоны для обобщения и прогнозирования новых точек данных. Два распространенных случая, которые могут помешать модели хорошо обобщать, — это переоснащение и недообучение. Переобучение — это когда модель узнает об обучающих данных настолько конкретно, что не обобщает и не делает хороших прогнозов на новых данных. Недообучение — это наоборот, когда модель не распознает какие-либо закономерности в данных и, следовательно, не может делать хорошие прогнозы на новых данных.

Сказка:

Жили-были два друга, Олли и Урсула. Они вместе изучали математику 189 в местном колледже. У класса был большой экзамен, и это был последний урок перед экзаменом. Профессор раздал учебное пособие, содержащее 15 практических задач. Она объяснила, что тест будет «подобным этим вопросам, но не совсем таким же».

Уши Олли навострились, когда он услышал «вот такие вопросы». В своем уме он подумал, что было бы неплохо не утруждать себя изучением других вещей и сосредоточиться исключительно на этих практических вопросах. Именно это он и сделал. Он часами запоминал эти задачи и их решения. Настолько, что вы можете спросить у него номер задачи, и он сможет назвать точную проблему и ее решение.

У Урсулы был совершенно противоположный подход. Когда она услышала «не совсем то же самое», она подумала, что информация, на которой они будут проверяться, едва ли сможет сравниться с этими практическими задачами. Она решила, что потратит свое время на изучение других вещей, которым учат в классе, и не будет заниматься чем-либо, связанным с практическими задачами.

Когда появился тест, он, как и предупредил профессор, был «похож на практические вопросы, но не совсем то же самое». Это были вопросы того же типа, что и на практике, но с другими переменными и значениями. Чтобы преуспеть, вы должны были понимать методы и основы ответов на практические вопросы. Поскольку Олли просто запомнил вопросы и ответы на них, он не знал, как решать эти новые задачи. Поскольку Урсула не тратила время на изучение ключевых аспектов решения практических задач, она также не знала, как отвечать на эти вопросы теста.

Резюме:

Как вы можете догадаться, ни Олли, ни Урсула не сдали экзамен хорошо.

Олли «переобучает» свое изучение практических задач. Он мог легко получить 100%, проходя практику, но так и не научился находить правильное решение. Урсула «недоучила» свое обучение, так как она ничего не знала о практических задачах и поэтому не могла работать с вопросами на экзамене.

Алгоритм машинного обучения в идеале будет обучаться где-то между переоснащением и недообучением. Вы хотите, чтобы ваша модель научилась на наборе данных достаточно, чтобы различать закономерности внутри, но не до уровня детализации, который помешал бы ей сделать обобщенный прогноз для нового экземпляра.