Обработка отсутствующих данных — одна из важных задач, в которой специалист по данным должен быть экспертом. При работе над реальными проектами часто встречаются отсутствующие данные, и для их обработки требуется тщательное планирование, чтобы избежать предвзятости и обеспечить точный анализ. и эффективное обучение модели.

Отсутствующие данные можно разделить на три типа:

1. MCAR – полностью случайное отсутствие.
2. MAR – случайное отсутствие.
3. MNAR – Пропал без вести случайно.

В основном существует два способа обработки отсутствующих данных: либо удалить отсутствующие значения, либо вменить отсутствующие значения на основе некоторых вычислений.

Удалить отсутствующие значения:

Отсутствующие значения просто удаляются из набора данных. Мы используем этот метод, если отсутствующие данные относятся либо к MCAR, либо к MAR и составляют менее 5% от общего количества доступных данных.

Преимущества и недостатки:
1. Простота реализации.
2. Сохраняет распределение, если Data является MCAR.
3. Исключенные данные могут содержать важные данные и приводить к снижению производительности модели.
4. Невозможно обработать отсутствующие данные в рабочей среде.

  1. Посписочное удаление.
    Также известное как CCA (полный анализ случаев). Оно отбрасывает строки, в которых отсутствуют значения в любом из столбцов.
  2. Попарное удаление.
    Также известное как ACA (доступный анализ случаев). Оно сводит к минимуму потерю данных по сравнению с удалением по списку, игнорируя пропущенные значения на основе силы корреляции между двумя переменными.
  3. Удаление столбца:
    Если какой-либо из столбцов содержит большую долю пропущенных значений и не показывает корреляции с целевой переменной, то вместо удаления строк мы можем удалить весь столбец, чтобы упростить набор данных.

Ввод отсутствующих значений:

В этом методе мы прогнозируем наиболее подходящее значение для замены отсутствующих значений, используя различные статистические методы.

Одномерное вменение:

Отсутствующие значения прогнозируются на основе информации, доступной в этой конкретной переменной. Значения рассчитываются различными методами в зависимости от типа данных конкретной переменной.

Преимущества и недостатки:
1. Устранена проблема потери данных.
2. Это может изменить форму распределения данных.
3. Изменение ковариации и корреляции между данными.
4. Это может выявить ненужные выбросы.

Числовые импутации:

  1. Среднее значение:
    отсутствующие значения заменяются средним значением столбца. Лучше всего работает с нормально распределенными данными
  2. Медиана:
    отсутствующие значения заменяются медианой столбца. Лучше всего работает при асимметричном распределении.
  3. Конец распространения:
    отсутствующие значения заменяются значениями на дальнем конце или крайними значениями на дальнем конце. На основе распределений мы используем приведенные ниже формулы.
    Нормальный: (среднее — 3σ) или (среднее + 3σ)
    Перекос em>: (Q1–1,5IQR) или (Q3 + 1,5IQR)
  4. Случайно:
    Отсутствующие значения заменяются случайным значением, выбранным из доступных уникальных значений, представленных в этом столбце. Этот метод помогает сохранить вариативность и распределение данных, но во время развертывания может требовать большого объема памяти.

Категорийное вменение:

  1. Режим:
    здесь отсутствующие значения заменяются наиболее часто повторяющимся значением, которое является режимом этого конкретного столбца.
  2. Произвольно:
    Если отсутствующие значения являются MNAR или составляют более 5% от общего объема данных, мы можем заменить их настраиваемым текстом, например «ОТСУТСТВУЕТ».

Многомерное вменение:

В этом методе пропущенные значения прогнозируются на основе взаимосвязи между данными, представленными в другом столбце, с использованием различных концепций, таких как корреляция, ковариация и евклидово расстояние между двумя точками.

Преимущества и недостатки:
1. Дает наиболее точные прогнозы для отсутствующих данных.
2. Не требуется больше вычислений, что может замедлить процесс.
3. Большой объем памяти в случае развертывания на производстве.

  1. KNN Imputer:
    Отсутствующие значения прогнозируются с помощью алгоритма K-ближайшего соседа с использованием евклидова расстояния. где k – номер. ближайших соседей, которые будут взяты при расчете.
    Евклидово расстояние(x,y) = sqrt(вес * квадратное расстояние от текущих координат)
    где, вес = Общее количество координат / количество существующих координат
  2. Итеративное вменение.
    Этот метод, также известный как MICE (многомерное вменение с помощью цепных уравнений), помогает прогнозировать пропущенные значения с помощью модели машинного обучения (ML). Процесс включает в себя заполнение пропущенных значений с помощью SimpleImputer с любой выбранной стратегией. Отсутствующий столбец признаков обозначается как выходная переменная y, в то время как другие столбцы признаков рассматриваются как входные переменные X. Регрессор аппроксимируется по (X, y) для известных значений y. Впоследствии регрессор используется для прогнозирования отсутствующих значений y. Этот итеративный процесс выполняется для каждого признака и повторяется максимальное количество раундов вменения max_iter. Возвращаются результаты, полученные в ходе последнего раунда вменения.