«Отсутствующие значения» — это значения, которые не зафиксированы ни для одного объекта или наблюдения в наборе данных. Поскольку большинство алгоритмов машинного обучения не принимают пропущенные значения, обработка пропущенных значений имеет решающее значение.
Термин «вменение» относится к многочисленным методам, используемым для заполнения пропущенных значений.
Вменение направлено на получение полный набор данных.
Ниже приводится краткое обсуждение каждого метода вменения.

Механизм отсутствующих данных
Крайне важно понять механизм, вызывающий отсутствующие данные, прежде чем мы начнем заполнять значения, а именно:

  1. Полное случайное отсутствие данных (MCAR)
    Вероятность отсутствия данных в этом случае постоянна для всех наблюдений. Никакая характеристика в наборе данных не связана с причиной отсутствия значения. Например, привычки курения некоторых людей не регистрируются, потому что они не признают этого. В этом случае отсутствующие данные являются полностью произвольными и не связаны с какими-либо другими функциями в наборе данных.
  2. Отсутствует случайно (MAR)
    Значение, отсутствующее в этом экземпляре, является случайным, хотя оно зависит от других функций в наборе данных. Например, в наборе данных отсутствует информация о статусе курильщицы. Поскольку в этом случае неизвестно, является ли статус курения положительным или отрицательным, отсутствующее значение по-прежнему зависит от пола наблюдения.
  3. Отсутствует неслучайно (MNAR)
    В этом случае отсутствующее значение зависит от других функций набора данных и не является случайным. Например, меньше учеников, страдающих депрессией, посещают спортивные занятия, чем учащиеся, не страдающие депрессией.
    Отсутствующие значения данных демонстрируют закономерность, которую можно увидеть.
    ПРИМЕЧАНИЕ. Анализ вероятности того, что данные являются MNAR, довольно сложен.

Методы вменения
Будут рассмотрены восемь методов вменения, которые классифицируются в зависимости от того, имеем ли мы дело с категориальными или числовыми признаками.
Ниже перечислены методы:

  1. Числовая характеристика
    Импутация среднего и медианы
    Импутация произвольного значения
    Импутация конца хвоста
  2. Категориальный признак
    Добавление отсутствующей категории
    Частое вменение категории
  3. Методы, общие для обеих функций
    Полный анализ случая
    Включение отсутствующего индикатора
    Импутация с использованием случайной выборки

Рассмотрим каждую стратегию более подробно.

1. Вменение среднего значения медианы
Среднее значение или медиана объекта используется для заполнения пробелов, оставленных отсутствующими данными. Среднее значение и медиана были бы почти равны, если бы данные были распределены нормально, но если бы данные были искажены , мы будем рассматривать медиану, потому что на среднее значение влияет хвост.
Когда мы используем вменение среднего или медианы, мы предполагаем, что данные отсутствуют случайным образом.
Во избежание переобучения среднее или Медианное значение из обучающего набора данных должно быть определено и использовано для заполнения пропущенных значений как в наборе обучающих данных, так и в тестовом наборе данных.
Преимущество использования этого метода:
Простота использования и быстрая реализация
Недостатки следующие:

а) Искажает исходное распределение переменной.

б) Это уменьшает дисперсию и, следовательно, увеличивает выбросы.

в) Линейные модели чувствительны, так как уменьшают дисперсию.

2. Вменение произвольного значения
Он включает замену произвольного целого числа для каждого отсутствующего значения. Значение произвольного целого числа не должно находиться между минимальным и максимальным значениями признака и должно отличаться от среднего, медианы и моды признака.
Наиболее типичными значениями являются 0,999, -1,999.
Преимущества
а) Определяет, сколько значений в наборе данных отсутствует.
б) Эффективная и быстрая реализация.

Недостатки

а) Если значение выбрано случайно и близко к хвосту распределения, оно может маскировать или создавать дополнительные выбросы.
б) Изменяет дисперсию и распределение данных.

3. Импутация конца хвоста
Поскольку значение, которое необходимо импутировать, должно присутствовать в конце распределения переменных, оно очень похоже на произвольное импутирование.
Как в обучающем, так и в тестовом наборах данных значение должно быть выбрано из обучающего набора и заменено.
Преимущества и недостатки идентичны таковым у произвольного вменения.

4. Частое импутирование категории
Наиболее частое значение признака используется для замены отсутствующего значения.
Чтобы применить эту стратегию, мы предполагаем, что данные отсутствуют случайным образом.
Ограничение: а) Это может привести к чрезмерному представлению наиболее часто встречающегося значения в функции.

5. Создание новой категории
С помощью этого метода мы рассматриваем отсутствие данных как отдельную категорию. Этот метод категориального вменения используется чаще всего.
Преимущества a) Нет предположений о данных b) Измеряется размер пропущенных значений
Недостатки a) Его можно использовать только при наличии большего количества отсутствующих точек данных, поскольку меньше пропущенных значений, мы в конечном итоге разрабатываем Rare Labels.

6. Полный пример
Проще говоря, этот метод влечет за собой удаление строк или столбцов, содержащих данные о пропущенных значениях. Когда значения полностью отсутствуют случайным образом, он используется.
Преимущества
A) Простота реализации B) Отсутствие манипулирования данными
Недостатки
a) Упущенная информация может быть полезно.
б) Может привести к потере важных данных

7. Добавление отсутствующего индикатора
Этот метод всегда сочетается с другим методом импутации, который добавляет функцию с двоичными значениями, чтобы сигнализировать о наличии отсутствующих данных для наблюдения, присваивая ему 1 или нет, присваивая ему 0 , соответственно.
Ограничения
Импутация по-прежнему необходима, несмотря на увеличение пространства признаков.
может привести к сильной связи с отсутствующими значениями.

8. Вменение случайной выборки

Используя случайное значение, выбранное из доступных наблюдений функции, отсутствующее значение заменяется с помощью этой процедуры.
Цель состоит в том, чтобы заменить совокупность значений с тем же распределением на совокупность отсутствующих значений.
Преимущество: Дисперсия и распределение данных сохраняются.

Реализация этих методов может быть изучена с использованием библиотеки feature engine.

Я благодарен.