Публикации по теме 'missing-data'
Обработка недостающих данных | Наука о данных | Машинное обучение
Обработка отсутствующих данных — одна из важных задач, в которой специалист по данным должен быть экспертом. При работе над реальными проектами часто встречаются отсутствующие данные, и для их обработки требуется тщательное планирование, чтобы избежать предвзятости и обеспечить точный анализ. и эффективное обучение модели.
Отсутствующие данные можно разделить на три типа:
1. MCAR – полностью случайное отсутствие. 2. MAR – случайное отсутствие. 3. MNAR – Пропал без вести..
Эффективные решения для работы с отсутствующими данными
Одной из очень распространенных проблем в моделях машинного обучения является отсутствие данных. Текущий набор данных, который у нас есть, иногда бывает неполным, неточным или бесполезным, а это означает, что он негативно влияет на создаваемую модель. Отсутствующие данные обычно группируются в три категории:
Пропущенные полностью случайно (MCAR) – это тип отсутствующих данных, при котором отсутствующая точка данных является чисто случайной, а отсутствующие точки данных не связаны с..
Руководство по проектированию функций для начинающих… (часть 1)
Привет, ребята, я суровый Джайн. В этом блоге я собираюсь обсудить все необходимые шаги (наиболее распространенные) для комплексной разработки функций в машинном обучении. Инжиниринг признаков — это важный этап в конвейере машинного обучения, однако этот этап редко рассматривается сам по себе. Здесь вы узнаете как теоретическую, так и практическую реализацию этапов разработки функций.
"Возможно, я не расскажу обо всех методах, но эти методы помогут вам понять, что такое..
Вопросы по теме 'missing-data'
MATLAB: использование интерполяции для замены пропущенных значений (NaN)
У меня есть массив ячеек, каждый из которых содержит последовательность значений в виде вектора-строки. Последовательности содержат некоторые пропущенные значения, представленные NaN .
Я хотел бы заменить все NaN, используя какой-то метод...
35341 просмотров
schedule
17.02.2023
изменение коэффициентов на числовые - как справиться с недоступными значениями
У меня есть большой набор данных из анкеты. Импорт его из SPSS в R (с использованием SPSS's Stata-Output) дал мне ответ на каждый вопрос как фактор.
Вопрос имеет ответы от 1 до 10. Однако есть много пропущенных значений. R тоже их узнает....
1162 просмотров
schedule
18.10.2023
Предсказание / вменение недостающих значений регрессии Пуассона GLM в R?
Я пытаюсь изучить способы вменения недостающих значений в набор данных. Мой набор данных содержит количество случаев (Неестественное, Естественное и Сумма Всего) для Года (2001-2009), Месяца (1-12), Пола (М / Ж) и Возрастной группы (4 группы)....
3359 просмотров
schedule
07.10.2022
Перекодировать отсутствующие данные Numpy
Я читаю данные переписи, используя функцию matplotlib cvs2rec - отлично работает, дает мне хороший ndarray.
Но есть несколько столбцов, в которых все значения равны «none» с dtype | 04. Это вызывает проблемы, когда я ввожу в Atpy «TypeError: объект...
2112 просмотров
schedule
01.05.2022
Как я могу заполнить недостающие категориальные значения, используя географическую близость, используя R?
У меня есть данные, которые выглядят так:
ID lat long university date cat2 cat3 cat4 ...
00001 32.001 -64.001 MIT 2011-07-01 xyz foo NA ...
00002 45.783 67.672 Harvard 2011-07-01...
623 просмотров
schedule
04.07.2023
Корреляция маскированного массива отсутствующих значений (numpy.ma)
Я пытаюсь использовать numpy.ma.corrcoef для расчета корреляций при наличии отсутствующих данных.
Согласно документации: За исключением обработки отсутствующих данных, эта функция делает то же самое, что и numpy.corrcoef . Дополнительные сведения...
3359 просмотров
schedule
27.11.2022
Как обрабатывать пустые элементы при преобразовании дат в R
У меня есть CSV-загрузка данных из системы управленческой информации. Есть некоторые переменные, которые являются датами и записываются в CSV в виде строк в формате «2012/11/16 00:00:00».
После прочтения файла csv я конвертирую переменные даты в...
2397 просмотров
schedule
04.12.2022
Невозможно присвоить отсутствующие значения строковой переменной в SPSS с помощью графического интерфейса.
Я изо всех сил пытаюсь перекодировать недостающие значения в SPSS с помощью графического пользовательского интерфейса. Я могу легко перекодировать числовые переменные, используя графический интерфейс и диалоговое окно, показанное ниже:
Но...
12637 просмотров
schedule
16.06.2023
Как эффективно экстраполировать недостающие данные для нескольких переменных
У меня есть панельные данные, и многие переменные отсутствуют в наблюдениях до определенных лет. Годы варьируются в зависимости от переменных. Каков эффективный способ экстраполяции отсутствующих точек данных по нескольким столбцам? Я думаю о...
2700 просмотров
schedule
31.01.2023
Вменение наблюдений, чтобы сделать поперечное сечение временным рядом в R
Я надеюсь взять набор данных с перекрестными данными о заработной плате сотрудников и создать большой непрерывный временной ряд, попутно вводя значения. Предположим, у меня есть:
name <- c("carl","carl","bob","rick","rick","rick","rick")
sex...
839 просмотров
schedule
28.01.2023
Интерполировать отсутствующие значения в SQL Server 2012
Я хочу интерполировать отсутствующие значения и соответствующим образом обновить свою таблицу в SQL Server 2012.
Например, мои данные следующие:
Week_Number Var1 Output_Var
1 10 10
2 20 20
3...
2201 просмотров
schedule
04.12.2022
Укажите различные типы пропущенных значений (NAs)
Мне интересно указать типы пропущенных значений. У меня есть данные, которые имеют разные типы отсутствующих, и я пытаюсь закодировать эти значения как отсутствующие в R, но я ищу решение, при котором я все еще могу различать их.
Скажем, у меня...
8162 просмотров
schedule
06.10.2023
Как вернуть обратно вмененные значения в R
Есть ли какая-нибудь функция в R, которая может помочь вернуть вмененные значения, например:
x <- c(23,23,25,43,34,22,78,NA,98,23,30,NA,21,78,22,76,NA,77,33,98,22,NA,52,87,NA,23,
23)
с использованием метода единого линейного вменения,...
95 просмотров
schedule
19.11.2022
Модель многоуровневой регрессии на множестве вмененных данных в R (Amelia, zelig, lme4)
Я пытаюсь запустить многоуровневую модель на множественных вмененных данных (созданных с помощью Амелии); выборка основана на кластерной выборке с группой = 24, N = 150.
library("ZeligMultilevel")
ML.model.0 <- zelig(dv~1 + tag(1|group),...
2862 просмотров
schedule
12.10.2023
Как удалить NA из факторной переменной (и из диаграммы ggplot)?
У меня проблема с NA в переменной фактора, поскольку ggplot включает их в график, как если бы они были другой категорией/уровнем. Я хотел бы удалить недостающие данные. К сожалению, в данный момент у меня нет под рукой кода, я попытался удалить...
26387 просмотров
schedule
22.03.2022
панды - слияние с пропущенными значениями
Кажется, есть причуда с функцией слияния панд. Он считает значения NaN равными и объединяет NaN с другими NaN :
>>> foo = DataFrame([
['a',1,2],
['b',4,5],
['c',7,8],
[np.NaN,10,11]
], columns=['id','x','y'])...
26963 просмотров
schedule
29.07.2022
R Перенести последнее наблюдение вперед n раз
Я пытаюсь перенести неотмеченные наблюдения вперед и заполнить следующие два отсутствующих наблюдения (хотя я полагаю, что решение этой проблемы было бы широко применимо для переноса наблюдений вперед через n строк ...).
В приведенном ниже примере...
709 просмотров
schedule
07.03.2023
как TreeBagger обрабатывает отсутствующие значения
Мне было интересно, знает ли кто-нибудь, как TreeBagger (Matlab) обрабатывает отсутствующие значения. Похоже, что в литературе и Брейманом описаны два метода. Один из них (по-видимому, лучший) использует рекурсивный / итерационный метод для...
407 просмотров
schedule
02.03.2023
Как поместить парные значения в отсутствующие значения с помощью SAS?
Данные выглядят следующим образом: ID Year A B
1 1279 1996 0 0
2 1279 2003 0 1
3 1447 1993 1 0
4 1447 2001 1 1
5 1487 1967 0 0
6 1487 2008 1 .
7 1487 2008 1 .
8 1487 2009 0 1
9 1678 1979...
43 просмотров
schedule
03.04.2022
Ошибка связанного списка WPF при отображении 2 элементов
В моем окне есть список WPF. В событии загрузки окна я создаю список (объектов) и добавляю несколько элементов. При запуске или отладке приложения я вижу элементы. Если я добавляю 1 элемент в список, я правильно вижу только 1 элемент. Если я...
265 просмотров
schedule
03.05.2022