Машинное обучение против. Статистическое обучение

Большую часть времени мне как специалисту по данным задают вопрос, в чем разница между машинным обучением и статистическим обучением? Даже если вы думаете, что ответ очевиден, многие начинающие специалисты по данным все еще не понимают эти два подхода.

Как начинающему специалисту по данным, вам трудно увидеть разницу между ними, и, вероятно, это связано с тем, как мы изучаем науку о данных. Чтобы стать специалистом по данным, вам необходимо приобрести знания по нескольким предметам, таким как статистика, программирование, SQL, линейная алгебра, и иметь опыт работы в предметной области. Надеюсь, вы начнете свое путешествие со статистики, и большинство специалистов по данным считают, что это основа науки о данных, и я не могу с ними не согласиться.

После, когда вы освоитесь со статистикой, то, в конце концов, расширите свой кругозор в науке о данных, уплывая от слишком знакомых небольших наборов данных, таких как «Титаник», «Ирис», «Автомобили», «Бриллианты» и т. д., к более неизведанным территориям, к новым мир больших данных. Тем не менее, с вашей уверенностью в статистическом обучении вы, вероятно, примете вызов больших данных и надеетесь получить представление о ваших данных, применяя методы статистического обучения. Не хочу вас разочаровывать, но этот метод не создаст большой ценности. Это потому, что вы неправильно подошли к ситуации, вы применили решение статистического обучения к задаче машинного обучения. Я не могу не подчеркнуть важность понимания различий между этими двумя понятиями.

Чтобы уберечь начинающих специалистов по данным от будущих разочарований, я составил список различий между статистическим обучением и машинным обучением, чтобы помочь вам на пути к успеху.

Вот некоторые различия:

  1. Оба метода зависят от данных. Однако статистическое обучение опирается на программирование на основе правил; он формализован в виде отношений между переменными, где машинное обучение учится на данных без явно запрограммированных инструкций.
  2. Статистическое обучение основано на меньшем наборе данных с несколькими атрибутами по сравнению с машинным обучением, где оно может учиться на миллиардах наблюдений и атрибутов.
  3. Статистическое обучение работает на предположениях, таких как нормальность, отсутствие мультиколлинеарности, гомоскедастичность и т. д., когда машинное обучение не зависит от предположений и в большинстве случаев игнорирует их.
  4. Статистическое обучение в основном связано с выводами, большая часть идей генерируется на основе выборки, совокупности и гипотез, по сравнению с машинным обучением, которое делает упор на прогнозы, обучение с учителем, обучение без учителя и обучение с частичным наблюдением.
  5. Статистическое обучение требует интенсивной математики, основанной на оценочном коэффициенте, и требует хорошего понимания ваших данных. С другой стороны, машинное обучение идентифицирует шаблоны из вашего набора данных с помощью итераций, которые требуют гораздо меньше человеческих усилий.

Хотя большинство будет утверждать, что машинное обучение лучше, и в какой-то степени я соглашусь. Напротив, с применением статистического обучения вы лучше знакомитесь со своими данными, что помогает вам обрести необходимую уверенность в моделировании.