полное машинное обучение

Машинное обучение дает предложения по решению сложных задач.

в Ml мы прогнозируем значение на основе предыдущих данных

  • Тип задач машинного обучения
  1. контролируемый
  2. неконтролируемый

Под наблюдением:-

  • в контролируемом алгоритме у нас есть входное и выходное значение
  • мы прогнозируем результат на основе заданных данных, мы разделяем данные на две части: одна — данные обучения, а другая — тестовые данные.
  • в контролируемом алгоритме у нас есть два типа проблем
  • 1. классификация
  • 2. Регрессия

Без присмотра: -

  • в неконтролируемом алгоритме у нас нет выходного значения, есть только ввод.
  • в неконтролируемом алгоритме мы используем кластеризацию

Запустить контролируемый алгоритм

  • основная информация о типах
  • Регрессия:
  • Это предсказывает числовое значение, и выходные данные являются непрерывными значениями или дискретными значениями.
  • в регрессии мы проходим линию Strat, которая проходит через функции
  • Бывший. Прогнозирование цены автомобиля — предоставление данных об автомобиле и прогнозирование стоимости нового автомобиля на основе характеристик.
  • Классификация:
  • Входы делятся на два или более классов
  • предсказать, принадлежит ли что-то к определенным классам
  • в классификации мы разделили данные на две или более части
  • Два типа:
  • 1. Двоичная классификация — вывод один-два, например. да или нет, 0 или 1
  • 2. Мультиклассовая классификация — более двух классов

Различные формы данных: -

  • Числовой: - Эти данные измеряются в числах.
  • Категориальный: - Фиксированное количество возможных значений.
  • Порядковый номер: упорядоченный список-экс. Размер ткани маленький, средний, большой.

В основном используемые библиотеки: -

  • Numpy — численный расчет
  • Scipy — научные вычисления и технические вычисления.
  • Scikit-learn-для различных используемых алгоритмов классификации, регрессии и кластеризации
  • Панды
  • Матплотлиб
  • ТензорФлоу
  • Керас
  • ПиТорч

ЭДА

Исследовательский анализ данных

Два типа данных: одномерные и двумерные

Одномерный — анализ одной переменной.

Двумерный — две или более переменных.

Диаграмма

Категориальные данные

Одномерный анализ данных:

График подсчета. В основном задайте уникальное категориальное значение, например, 0,1 бар.

Круговой чат – 👆 то же значение отображается в процентах.

Числовые данные

Одномерный анализ данных:

Гистограмма — использование в данных Continus Data E.x Age.

Distplot – отображение вероятностей

Коробчатая диаграмма — используйте, чтобы найти выброс, дать 5 сводных чисел — минимальная медиана Максимум — медиана (50%), минимум (Q1–1,5 IQR), максимум (Q3 + 1,5 IQR) — IQR — Inter Quintile Диапазон

Двумерный анализ данных

График рассеяния — если оба данных были числовыми — многомерный. Используйте параметр «Оттенок, стиль, размер».

Гистограмма — если одно категориальное или второе числовое значение

Distplot - криволинейная диаграмма

HeatMap — вид корреляции

ClusterMap-дополнительно к 👆

Парный график - дайте график всех числовых данных

Линейный график — отображение данных по времени и дате — используйте Группировать по

Анализ автоматики -

Pandas_Profiling

Разработка функций: -

  • Процесс извлечения признаков из данных строки
  1. Преобразование функции
  • Отсутствует значение
  • Обработать категориальное значение
  • Обнаружение выбросов
  • Масштабирование функций

2. Построение признаков - создание нового столбца

3. Выбор функций

4. Извлечение признаков

Масштабирование функций

Масштабирование признаков — это метод стандартизации независимого признака, присутствующего в данных в фиксированном диапазоне.

  • Преобразование большого значения в минимальное значение
  • если мы не масштабируемся, то некоторые алгоритмы работают плохо.-knn
  • Два типа — стандартизация и нормализация
  • Стандартизация:-
  • также называемая нормализацией Z-оценки
  • mean =0 , std=1 исправление после стандартизации
  • Первый train_test_split — — — (Лучший)
  • он дает NumPy массив, поэтому конвертируйте DataFrame

  • выброс не обрабатывается
  • почему масштабирование важно?

— помогает нормализовать, а также помогает ускорить вычисления в алгоритме

  • При использовании

Нормализация

  • мин-макс масштабирование — Мужественное использование
  • max absolute — использовать в разреженных данных (более 0)
  • Надежное масштабирование - обрабатывает выбросы

Когда использовать нормализацию стандартизировать?

Кодирование категориальной переменной: -

порядковое значение — следуйте порядку, например, 1>2, 5star 4star

Номинальное значение — использовать One Hot Encoding

Два метода порядкового кодирования и кодирования меток

Одно горячее кодирование:

  • если больше значений, то создайте новую категорию
  • Бывший. марка автомобиля 40 марок, поэтому мы не используем 40 функций, мы используем некоторые наиболее часто используемые функции, а другие переключаемся на «другую марку».

Колонка Трансформатор:-

  • если у нас есть более категоричные данные, поэтому для некоторых данных требуется однократное кодирование, кодирование меток и т. д.
  • мы получаем список всего списка и добавляем его недостаточный
  • поэтому используйте ColumnTransormer

Конвейер обучения Scikit: -

  • Конвейер упрощает применение той же предварительной обработки для обучения и тестирования
  • очень полезно

Трансформация:

  • преобразование функции
  • математическое преобразование
  • журнал Преобразование
  • Рецидиальная трансформация
  • сила Преобразование
  • Бокс-Кокс
  • Целью All End является преобразование значения в нормализованное значение.
  • Дерево решений, RandomForact не требуется для нормализации значения - оно работает без нормализации
  • Но требуется некоторый алгоритм
  • Трансформация SkLearn

  • Использование графика QQ для визуализации значения распределения

Преобразование журнала

  • не использовать отрицательное значение
  • правильное распределение отрядов Преобразовать в нормальное распределение
  • Повышение производительности линейного алгоритма
  • np.log ИЛИ np.log1p Другой
  • если нулевое значение, используйте log1p

Квадрат (x2) x квадрат

  • Распределение левого отряда Преобразовать в нормальное распределение

Преобразование Бокса-Кокса:

  • значение лямбда от -5 до 5
  • работать только с n›0 — если отрицательное или нулевое значение, используйте преобразование Йео-Йохансона

Обработка отсутствующих данных: -

  1. Simple Imputer — одномерное значение

2. knn Imputer — многомерное значение

3. Итерация импьютера - многомерное значение

больше в будущем….