полное машинное обучение
Машинное обучение дает предложения по решению сложных задач.
в Ml мы прогнозируем значение на основе предыдущих данных
- Тип задач машинного обучения
- контролируемый
- неконтролируемый
Под наблюдением:-
- в контролируемом алгоритме у нас есть входное и выходное значение
- мы прогнозируем результат на основе заданных данных, мы разделяем данные на две части: одна — данные обучения, а другая — тестовые данные.
- в контролируемом алгоритме у нас есть два типа проблем
- 1. классификация
- 2. Регрессия
Без присмотра: -
- в неконтролируемом алгоритме у нас нет выходного значения, есть только ввод.
- в неконтролируемом алгоритме мы используем кластеризацию
Запустить контролируемый алгоритм
- основная информация о типах
- Регрессия:
- Это предсказывает числовое значение, и выходные данные являются непрерывными значениями или дискретными значениями.
- в регрессии мы проходим линию Strat, которая проходит через функции
- Бывший. Прогнозирование цены автомобиля — предоставление данных об автомобиле и прогнозирование стоимости нового автомобиля на основе характеристик.
- Классификация:
- Входы делятся на два или более классов
- предсказать, принадлежит ли что-то к определенным классам
- в классификации мы разделили данные на две или более части
- Два типа:
- 1. Двоичная классификация — вывод один-два, например. да или нет, 0 или 1
- 2. Мультиклассовая классификация — более двух классов
Различные формы данных: -
- Числовой: - Эти данные измеряются в числах.
- Категориальный: - Фиксированное количество возможных значений.
- Порядковый номер: упорядоченный список-экс. Размер ткани маленький, средний, большой.
В основном используемые библиотеки: -
- Numpy — численный расчет
- Scipy — научные вычисления и технические вычисления.
- Scikit-learn-для различных используемых алгоритмов классификации, регрессии и кластеризации
- Панды
- Матплотлиб
- ТензорФлоу
- Керас
- ПиТорч
ЭДА
Исследовательский анализ данных
Два типа данных: одномерные и двумерные
Одномерный — анализ одной переменной.
Двумерный — две или более переменных.
Диаграмма
Категориальные данные
Одномерный анализ данных:
График подсчета. В основном задайте уникальное категориальное значение, например, 0,1 бар.
Круговой чат – 👆 то же значение отображается в процентах.
Числовые данные
Одномерный анализ данных:
Гистограмма — использование в данных Continus Data E.x Age.
Distplot – отображение вероятностей
Коробчатая диаграмма — используйте, чтобы найти выброс, дать 5 сводных чисел — минимальная медиана Максимум — медиана (50%), минимум (Q1–1,5 IQR), максимум (Q3 + 1,5 IQR) — IQR — Inter Quintile Диапазон
Двумерный анализ данных
График рассеяния — если оба данных были числовыми — многомерный. Используйте параметр «Оттенок, стиль, размер».
Гистограмма — если одно категориальное или второе числовое значение
Distplot - криволинейная диаграмма
HeatMap — вид корреляции
ClusterMap-дополнительно к 👆
Парный график - дайте график всех числовых данных
Линейный график — отображение данных по времени и дате — используйте Группировать по
Анализ автоматики -
Pandas_Profiling
Разработка функций: -
- Процесс извлечения признаков из данных строки
- Преобразование функции
- Отсутствует значение
- Обработать категориальное значение
- Обнаружение выбросов
- Масштабирование функций
2. Построение признаков - создание нового столбца
3. Выбор функций
4. Извлечение признаков
Масштабирование функций
Масштабирование признаков — это метод стандартизации независимого признака, присутствующего в данных в фиксированном диапазоне.
- Преобразование большого значения в минимальное значение
- если мы не масштабируемся, то некоторые алгоритмы работают плохо.-knn
- Два типа — стандартизация и нормализация
- Стандартизация:-
- также называемая нормализацией Z-оценки
- mean =0 , std=1 исправление после стандартизации
- Первый train_test_split — — — (Лучший)
- он дает NumPy массив, поэтому конвертируйте DataFrame
- выброс не обрабатывается
- почему масштабирование важно?
— помогает нормализовать, а также помогает ускорить вычисления в алгоритме
- При использовании
Нормализация
- мин-макс масштабирование — Мужественное использование
- max absolute — использовать в разреженных данных (более 0)
- Надежное масштабирование - обрабатывает выбросы
Когда использовать нормализацию стандартизировать?
Кодирование категориальной переменной: -
порядковое значение — следуйте порядку, например, 1>2, 5star 4star
Номинальное значение — использовать One Hot Encoding
Два метода порядкового кодирования и кодирования меток
Одно горячее кодирование:
- если больше значений, то создайте новую категорию
- Бывший. марка автомобиля 40 марок, поэтому мы не используем 40 функций, мы используем некоторые наиболее часто используемые функции, а другие переключаемся на «другую марку».
Колонка Трансформатор:-
- если у нас есть более категоричные данные, поэтому для некоторых данных требуется однократное кодирование, кодирование меток и т. д.
- мы получаем список всего списка и добавляем его недостаточный
- поэтому используйте ColumnTransormer
Конвейер обучения Scikit: -
- Конвейер упрощает применение той же предварительной обработки для обучения и тестирования
- очень полезно
Трансформация:
- преобразование функции
- математическое преобразование
- журнал Преобразование
- Рецидиальная трансформация
- сила Преобразование
- Бокс-Кокс
- Целью All End является преобразование значения в нормализованное значение.
- Дерево решений, RandomForact не требуется для нормализации значения - оно работает без нормализации
- Но требуется некоторый алгоритм
- Трансформация SkLearn
- Использование графика QQ для визуализации значения распределения
Преобразование журнала
- не использовать отрицательное значение
- правильное распределение отрядов Преобразовать в нормальное распределение
- Повышение производительности линейного алгоритма
- np.log ИЛИ np.log1p Другой
- если нулевое значение, используйте log1p
Квадрат (x2) x квадрат
- Распределение левого отряда Преобразовать в нормальное распределение
Преобразование Бокса-Кокса:
- значение лямбда от -5 до 5
- работать только с n›0 — если отрицательное или нулевое значение, используйте преобразование Йео-Йохансона
Обработка отсутствующих данных: -
- Simple Imputer — одномерное значение
2. knn Imputer — многомерное значение
3. Итерация импьютера - многомерное значение
больше в будущем….