Как быть с пропущенными значениями в наборе данных? (Пример кода Pandas и PyTorch)

Пропущенные значения неизбежны при решении реальных задач.

Есть два подхода к избавлению от этих значений «NaN».

Удаление
Вменение

Первый метод в основном игнорирует пропущенные значения. Однако второй вменяет новые значения вместо «NaN». Существует множество методов для расчета этого нового значения. Рассмотрим некоторые из них.

Методы вменения

а. Вменение числового значения

Замена значения «NaN» средним/медианным/режимным значением того же столбца.

Рассмотрев набор данных на рис. 1, мы можем разделить ввод и вывод с помощью iloc.

Среднее. Вменение среднего значения означает усреднение одних и тех же значений столбца.

Мод. Вменение значений режима означает использование наиболее часто встречающегося значения.

Медиана. Вменение по медиане.

Могут быть реализованы различные подходы, такие как вменение результатов K-NN. Однако это очень быстрые решения.

б. Вменение категориального значения

Кодирование является наиболее распространенным способом вменения дискретных значений.

В нашем примере у нас было только 2 значения для категориальных признаков «Pave» и «NaN». Мы видим, что pandas автоматически создает 2 столбца для этих значений: «Alley_pave» и «Alley_nan». И кодирует их как 0 и 1 в соответствии с типом переулка этого экземпляра данных.

Наконец, мы можем преобразовать наши числовые значения в тензоры факела.

Таким образом, мы можем сделать вывод, что существуют разные подходы для непрерывных и дискретных типов данных. Статистические методы, такие как вычисление среднего/медианы/моды, очень эффективны. Однако можно разработать прогностические модели для нахождения более реалистичных значений.

Спасибо.

LinkedIn: https://www.linkedin.com/in/beyza-%C3%A7evik-68765a134/

Ссылка

http://d2l.ai/chapter_preliminaries/pandas.html

Как быть с пропущенными значениями в наборе данных? (Пример кода Pandas и PyTorch)

Методы вменения

Похожие вопросы