Машинное обучение

полное машинное обучение

Машинное обучение дает предложения по решению сложных задач.

в Ml мы прогнозируем значение на основе предыдущих данных

Тип задач машинного обучения

контролируемый
неконтролируемый

Под наблюдением:-

в контролируемом алгоритме у нас есть входное и выходное значение
мы прогнозируем результат на основе заданных данных, мы разделяем данные на две части: одна — данные обучения, а другая — тестовые данные.
в контролируемом алгоритме у нас есть два типа проблем
1. классификация
2. Регрессия

Без присмотра: -

в неконтролируемом алгоритме у нас нет выходного значения, есть только ввод.
в неконтролируемом алгоритме мы используем кластеризацию

Запустить контролируемый алгоритм

основная информация о типах
Регрессия:
Это предсказывает числовое значение, и выходные данные являются непрерывными значениями или дискретными значениями.
в регрессии мы проходим линию Strat, которая проходит через функции
Бывший. Прогнозирование цены автомобиля — предоставление данных об автомобиле и прогнозирование стоимости нового автомобиля на основе характеристик.
Классификация:
Входы делятся на два или более классов
предсказать, принадлежит ли что-то к определенным классам
в классификации мы разделили данные на две или более части
Два типа:
1. Двоичная классификация — вывод один-два, например. да или нет, 0 или 1
2. Мультиклассовая классификация — более двух классов

Различные формы данных: -

Числовой: - Эти данные измеряются в числах.
Категориальный: - Фиксированное количество возможных значений.
Порядковый номер: упорядоченный список-экс. Размер ткани маленький, средний, большой.

В основном используемые библиотеки: -

Numpy — численный расчет
Scipy — научные вычисления и технические вычисления.
Scikit-learn-для различных используемых алгоритмов классификации, регрессии и кластеризации
Панды
Матплотлиб
ТензорФлоу
Керас
ПиТорч

ЭДА

Исследовательский анализ данных

Два типа данных: одномерные и двумерные

Одномерный — анализ одной переменной.

Двумерный — две или более переменных.

Диаграмма

Категориальные данные

Одномерный анализ данных:

График подсчета. В основном задайте уникальное категориальное значение, например, 0,1 бар.

Круговой чат – 👆 то же значение отображается в процентах.

Числовые данные

Одномерный анализ данных:

Гистограмма — использование в данных Continus Data E.x Age.

Distplot – отображение вероятностей

Коробчатая диаграмма — используйте, чтобы найти выброс, дать 5 сводных чисел — минимальная медиана Максимум — медиана (50%), минимум (Q1–1,5 IQR), максимум (Q3 + 1,5 IQR) — IQR — Inter Quintile Диапазон

Двумерный анализ данных

График рассеяния — если оба данных были числовыми — многомерный. Используйте параметр «Оттенок, стиль, размер».

Гистограмма — если одно категориальное или второе числовое значение

Distplot - криволинейная диаграмма

HeatMap — вид корреляции

ClusterMap-дополнительно к 👆

Парный график - дайте график всех числовых данных

Линейный график — отображение данных по времени и дате — используйте Группировать по

Анализ автоматики -

Pandas_Profiling

Разработка функций: -

Процесс извлечения признаков из данных строки

Преобразование функции

Отсутствует значение
Обработать категориальное значение
Обнаружение выбросов
Масштабирование функций

2. Построение признаков - создание нового столбца

3. Выбор функций

4. Извлечение признаков

Масштабирование функций

Масштабирование признаков — это метод стандартизации независимого признака, присутствующего в данных в фиксированном диапазоне.

Преобразование большого значения в минимальное значение
если мы не масштабируемся, то некоторые алгоритмы работают плохо.-knn
Два типа — стандартизация и нормализация
Стандартизация:-
также называемая нормализацией Z-оценки
mean =0 , std=1 исправление после стандартизации
Первый train_test_split — — — (Лучший)
он дает NumPy массив, поэтому конвертируйте DataFrame

выброс не обрабатывается
почему масштабирование важно?

— помогает нормализовать, а также помогает ускорить вычисления в алгоритме

При использовании

Нормализация

мин-макс масштабирование — Мужественное использование
max absolute — использовать в разреженных данных (более 0)
Надежное масштабирование - обрабатывает выбросы

Когда использовать нормализацию стандартизировать?

Кодирование категориальной переменной: -

порядковое значение — следуйте порядку, например, 1>2, 5star 4star

Номинальное значение — использовать One Hot Encoding

Два метода порядкового кодирования и кодирования меток

Одно горячее кодирование:

если больше значений, то создайте новую категорию
Бывший. марка автомобиля 40 марок, поэтому мы не используем 40 функций, мы используем некоторые наиболее часто используемые функции, а другие переключаемся на «другую марку».

Колонка Трансформатор:-

если у нас есть более категоричные данные, поэтому для некоторых данных требуется однократное кодирование, кодирование меток и т. д.
мы получаем список всего списка и добавляем его недостаточный
поэтому используйте ColumnTransormer

Конвейер обучения Scikit: -

Конвейер упрощает применение той же предварительной обработки для обучения и тестирования
очень полезно

Трансформация:

преобразование функции
математическое преобразование
журнал Преобразование
Рецидиальная трансформация
сила Преобразование
Бокс-Кокс
Целью All End является преобразование значения в нормализованное значение.
Дерево решений, RandomForact не требуется для нормализации значения - оно работает без нормализации
Но требуется некоторый алгоритм
Трансформация SkLearn

Использование графика QQ для визуализации значения распределения

Преобразование журнала

не использовать отрицательное значение
правильное распределение отрядов Преобразовать в нормальное распределение
Повышение производительности линейного алгоритма
np.log ИЛИ np.log1p Другой
если нулевое значение, используйте log1p

Квадрат (x2) x квадрат

Распределение левого отряда Преобразовать в нормальное распределение

Преобразование Бокса-Кокса:

значение лямбда от -5 до 5
работать только с n›0 — если отрицательное или нулевое значение, используйте преобразование Йео-Йохансона

Обработка отсутствующих данных: -

Simple Imputer — одномерное значение

2. knn Imputer — многомерное значение

3. Итерация импьютера - многомерное значение

больше в будущем….