Термин "Машинное обучение" звучит фантастически и все время витает в воздухе. Здесь мы будем изучать машинное обучение (ML).

Прежде чем перейти к машинному обучению, необходимо изучить словарь:

Данные — факты и статистические данные, собранные вместе для справки или анализа, или вещи, известные или предполагаемые как факты, составляющие основу рассуждений или расчетов.

Анализ данных. Анализ данных – это метод, при котором данные собираются и систематизируются таким образом, чтобы из них можно было извлечь полезную информацию. Другими словами, основная цель анализа данных – выяснить, что данные пытаются нам сообщить.

Например, из базы данных можно извлечь только те данные, которые присутствуют в базе данных, если нужно извлечь какое-либо другое значение, появится сообщение об ошибке.

Аналитика данных. На основе записанных данных (прошлых) можно сделать прогноз на будущее, или метод в основном рассматривает будущие результаты с использованием исторических данных. Это называется аналитикой.

Что такое машинное обучение?

С самого рождения мы, люди, начинаем видеть, слушать, ощущать вкус и обоняние (через органы чувств) и многократно просматривать каждый объект, чтобы запомнить его.

Так мы учимся с самого начала и до сегодняшнего дня.

Например, с детства вы неоднократно замечали мобильные телефоны, что создает в мозгу образ, что мобильный телефон выглядит вот так, и кто-то спрашивает: «Это мобильный телефон?», и тогда можно легко ответить.

У машины нет органов чувств, поэтому она не может видеть объект или чувствовать его, поэтому она полагается на данные. Да, данные — это все для обработки, как еда — это все для нас.

Машинное обучение – это метод, при котором машина учится на записанных данных, чтобы предсказывать будущее или то, что произойдет в будущем. Например, сезон (погода, а не Netflix), который мы знаем (приблизительно), когда сезон дождей, весна и осень проходят через наш опыт (с детства до наших дней), то же самое может быть сделано машиной/программой, просто вводя данные за последние 10 ( варьироваться) год, и он будет предсказывать.

Почему машинное обучение?

Единственная причина заключается в том, что «машины намного быстрее людей, и все это знают». (Если вы знаете какие-либо, пожалуйста, дайте мне знать).

ПРИМЕЧАНИЕ. — Машина означает не полную систему или компьютер, ноутбук. Здесь под машиной понимается программа, написанная человеком на каком-либо языке программирования и называемая кодированием.

Главное заключается в том, что вы хотите от своей программы, какой тип данных вы хотите, будь то целочисленный тип или логический тип. Здесь в игру вступают два типа прогнозов:

Регрессия.Регрессия – это статистический метод для вычисления взаимосвязи между одной зависимой переменной и одной или несколькими независимыми переменными, или, говоря простым языком, означает непрерывную прогрессию.

y=ax+b

Где x=независимая переменная

y=зависимая переменная

a=вес/коэффициент

b=константа/смещение

(Не путайте, все будет ясно)

Существуют различные типы регрессии, здесь мы собираемся обсудить два типа

Линейная регрессия: — линейная означает прямую или переход от одной стадии к другой за один ряд шагов, а регрессия — это непрерывная прогрессия.

Непрерывное прямолинейное развитие называется линейной регрессией.

Подробнее: – https://machinelearningmastery.com/linear-regression-for-machine-learning/

В линейной регрессии есть только одна независимая переменная и одна зависимая переменная (в общем случае x является независимым, что означает, что его значение не зависит от другого, а Y является зависимой переменной, поскольку зависит от «x» и «b»).

y= топор+b; Формула линейной регрессии. Ммм, дайте мне подумать только об одном x и y, что означает, что я могу построить график.

Здесь на графике нанесена прямая линия (о синей точке мы поговорим позже).

Многолинейная регрессия. — "Мульти" означает более одной, то есть когда имеется более одной независимой переменной. А в реальном мире наши данные в основном многолинейны.

Y=a1x1+a2x2+…………. +anxn+b

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — -

Классификация. классификация – это процесс классификации данного набора данных по классам или группам.

Как узнать, когда использовать регрессию, а когда классификацию?

Если данные, которые вам нужны, являются непрерывными, используйте регрессию, и если вы хотите получить ответ в форме «верно или неверно», «да или нет», размещено или не размещено» и т. д.

Например, то, какую зарплату вы получите после того, как вас устроят, определяется регрессией, а то, получили вы место или нет, определяется классификацией.

На этом теоретическая часть заканчивается. Большое облегчение.

Немного практической работы, для этого я использую Python (версия 3.6)

Почему питон?

У Python есть множество библиотек, которые упрощают нашу работу.

Линейная регрессия:

Y=aX+b

А теперь еще раз: зачем нам машинное обучение?

В приведенном выше уравнении есть 4 переменные, значение которых неизвестно, но X и Y задаются пользователем (в приведенном выше прямоугольнике), что означает, что еще остались две переменные. Если есть только одно значение для X и Y, то человек также может вычислить значение, но что, если есть тысячи X и тысячи Y. Здесь человеку требуется много времени для вычисления, но машина может сделать это в течение 2 секунд ( ! вау) и может помочь предсказать Y в соответствии со значением X.

Теперь идут основные 3 линии, которые будут:

(i) Приведите формулу

(ii) Рассчитать массу (a) и постоянную (b)

(iii) Предсказать Y в соответствии с X

Точность прогнозируемого значения зависит от количества данных. Чем больше данных, тем выше точность.

Например, у меня есть 2 зависимые переменные (полилинейные, но вы можете связать) продолжительность и внутренние и внешние в качестве зависимой переменной. Теперь моя программа считывает данные и сопоставляет их в соответствии с весом и константой, и когда я даю новый x для прогнозирования, она дает прогнозируемое значение для того же самого.

На рисунке (i) красная линия называется линией регрессии или линией наилучшего соответствия или линией, нарисованной вашей программой, а синие точки — фактическим значением X. Разница между синей точкой и красной линией для конкретное значение называется ошибкой или потерей.

В следующем посте мы узнаем всю концепцию полилинейной регрессии, ошибки, как разделить набор данных на обучающий и тестовый наборы и многое другое.