Термин "Машинное обучение" звучит фантастически и все время витает в воздухе. Здесь мы будем изучать машинное обучение (ML).
Прежде чем перейти к машинному обучению, необходимо изучить словарь:
Данные — факты и статистические данные, собранные вместе для справки или анализа, или вещи, известные или предполагаемые как факты, составляющие основу рассуждений или расчетов.
Анализ данных. Анализ данных – это метод, при котором данные собираются и систематизируются таким образом, чтобы из них можно было извлечь полезную информацию. Другими словами, основная цель анализа данных – выяснить, что данные пытаются нам сообщить.
Например, из базы данных можно извлечь только те данные, которые присутствуют в базе данных, если нужно извлечь какое-либо другое значение, появится сообщение об ошибке.
Аналитика данных. На основе записанных данных (прошлых) можно сделать прогноз на будущее, или метод в основном рассматривает будущие результаты с использованием исторических данных. Это называется аналитикой.
Что такое машинное обучение?
С самого рождения мы, люди, начинаем видеть, слушать, ощущать вкус и обоняние (через органы чувств) и многократно просматривать каждый объект, чтобы запомнить его.
Так мы учимся с самого начала и до сегодняшнего дня.
Например, с детства вы неоднократно замечали мобильные телефоны, что создает в мозгу образ, что мобильный телефон выглядит вот так, и кто-то спрашивает: «Это мобильный телефон?», и тогда можно легко ответить.
У машины нет органов чувств, поэтому она не может видеть объект или чувствовать его, поэтому она полагается на данные. Да, данные — это все для обработки, как еда — это все для нас.
Машинное обучение – это метод, при котором машина учится на записанных данных, чтобы предсказывать будущее или то, что произойдет в будущем. Например, сезон (погода, а не Netflix), который мы знаем (приблизительно), когда сезон дождей, весна и осень проходят через наш опыт (с детства до наших дней), то же самое может быть сделано машиной/программой, просто вводя данные за последние 10 ( варьироваться) год, и он будет предсказывать.
Почему машинное обучение?
Единственная причина заключается в том, что «машины намного быстрее людей, и все это знают». (Если вы знаете какие-либо, пожалуйста, дайте мне знать).
ПРИМЕЧАНИЕ. — Машина означает не полную систему или компьютер, ноутбук. Здесь под машиной понимается программа, написанная человеком на каком-либо языке программирования и называемая кодированием.
Главное заключается в том, что вы хотите от своей программы, какой тип данных вы хотите, будь то целочисленный тип или логический тип. Здесь в игру вступают два типа прогнозов:
Регрессия.Регрессия – это статистический метод для вычисления взаимосвязи между одной зависимой переменной и одной или несколькими независимыми переменными, или, говоря простым языком, означает непрерывную прогрессию.
y=ax+b
Где x=независимая переменная
y=зависимая переменная
a=вес/коэффициент
b=константа/смещение
(Не путайте, все будет ясно)
Существуют различные типы регрессии, здесь мы собираемся обсудить два типа
Линейная регрессия: — линейная означает прямую или переход от одной стадии к другой за один ряд шагов, а регрессия — это непрерывная прогрессия.
Непрерывное прямолинейное развитие называется линейной регрессией.
Подробнее: – https://machinelearningmastery.com/linear-regression-for-machine-learning/
В линейной регрессии есть только одна независимая переменная и одна зависимая переменная (в общем случае x является независимым, что означает, что его значение не зависит от другого, а Y является зависимой переменной, поскольку зависит от «x» и «b»).
y= топор+b; Формула линейной регрессии. Ммм, дайте мне подумать только об одном x и y, что означает, что я могу построить график.
Здесь на графике нанесена прямая линия (о синей точке мы поговорим позже).
Многолинейная регрессия. — "Мульти" означает более одной, то есть когда имеется более одной независимой переменной. А в реальном мире наши данные в основном многолинейны.
Y=a1x1+a2x2+…………. +anxn+b
— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — -
Классификация. классификация – это процесс классификации данного набора данных по классам или группам.
Как узнать, когда использовать регрессию, а когда классификацию?
Если данные, которые вам нужны, являются непрерывными, используйте регрессию, и если вы хотите получить ответ в форме «верно или неверно», «да или нет», размещено или не размещено» и т. д.
Например, то, какую зарплату вы получите после того, как вас устроят, определяется регрессией, а то, получили вы место или нет, определяется классификацией.
На этом теоретическая часть заканчивается. Большое облегчение.
Немного практической работы, для этого я использую Python (версия 3.6)
Почему питон?
У Python есть множество библиотек, которые упрощают нашу работу.
Линейная регрессия:
Y=aX+b
А теперь еще раз: зачем нам машинное обучение?
В приведенном выше уравнении есть 4 переменные, значение которых неизвестно, но X и Y задаются пользователем (в приведенном выше прямоугольнике), что означает, что еще остались две переменные. Если есть только одно значение для X и Y, то человек также может вычислить значение, но что, если есть тысячи X и тысячи Y. Здесь человеку требуется много времени для вычисления, но машина может сделать это в течение 2 секунд ( ! вау) и может помочь предсказать Y в соответствии со значением X.
Теперь идут основные 3 линии, которые будут:
(i) Приведите формулу
(ii) Рассчитать массу (a) и постоянную (b)
(iii) Предсказать Y в соответствии с X
Точность прогнозируемого значения зависит от количества данных. Чем больше данных, тем выше точность.
Например, у меня есть 2 зависимые переменные (полилинейные, но вы можете связать) продолжительность и внутренние и внешние в качестве зависимой переменной. Теперь моя программа считывает данные и сопоставляет их в соответствии с весом и константой, и когда я даю новый x для прогнозирования, она дает прогнозируемое значение для того же самого.
На рисунке (i) красная линия называется линией регрессии или линией наилучшего соответствия или линией, нарисованной вашей программой, а синие точки — фактическим значением X. Разница между синей точкой и красной линией для конкретное значение называется ошибкой или потерей.
В следующем посте мы узнаем всю концепцию полилинейной регрессии, ошибки, как разделить набор данных на обучающий и тестовый наборы и многое другое.