Публикации по теме 'outliers'


Найдите выбросы, используя два простых метода.
Выбросы могут негативно повлиять на производительность модели и привести к неправильному суждению во время анализа данных. Вот два простых способа уменьшить выбросы. Что такое выброс? Выброс — это точка данных, которая не соответствует общему шаблону своего окружения. Взглянем: Вот два разных способа уменьшить выбросы: Использование Z-оценки. Используя межквартильный диапазон (IQR). Использование Z-показателя: Теперь, чтобы использовать этот метод, мы..

Шаги линейной регрессии
Шаги линейной регрессии Линейная регрессия — это контролируемое машинное обучение, используемое для прогнозирования числовых данных. Ниже приведены ключевые шаги в типичной задаче прогнозирования, основанной на регрессии. Загрузить данные Понимание особенностей и цели, которые необходимо предсказать Очистка данных Убедитесь, что цель следует нормальному распределению Найдите корреляцию признаков с целью, которую нужно предсказать, построив двумерные диаграммы рассеяния. Самый..

Вопросы по теме 'outliers'

R: Как убрать выбросы из сглаживания в ggplot2?
У меня есть следующий набор данных, который я пытаюсь построить с помощью ggplot2, это временной ряд из трех экспериментов A1, B1 и C1, и каждый эксперимент имел три повтора. Я пытаюсь добавить статистику, которая обнаруживает и удаляет выбросы,...
7350 просмотров
schedule 05.07.2023

Как удалить выбросы из набора данных
У меня есть многомерные данные о красоте и возрастах. Возраст варьируется от 20 до 40 с интервалом 2 (20, 22, 24 .... 40), и для каждой записи данных им дается возраст и оценка красоты от 1 до 5. Когда я строю прямоугольные диаграммы этих данных...
359906 просмотров
schedule 21.05.2023

ggplot2 На цветовую шкалу влияют выбросы
У меня проблемы с несколькими выбросами, делающими цветовую шкалу бесполезной. Мои данные имеют переменную длины, которая основана на диапазоне, но обычно имеет несколько гораздо больших значений. В приведенном ниже примере данных 95 значений от...
5245 просмотров
schedule 13.01.2023

Извлечь строки с наибольшим и наименьшим значениями из фрейма данных
Я новичок в R, использую его в основном для визуализации статистики с использованием библиотеки ggplot2 . Теперь у меня возникла проблема с подготовкой данных. Мне нужно написать функцию, которая удалит несколько строк (2, 5 или 10) из фрейма...
3721 просмотров
schedule 23.09.2022

Доступ к идентификаторам выбросов на графике lme
Я строю объект lme fit в r и получаю идентификаторы выбросов (studyID), отображаемые на графике, но я хотел бы получить доступ к этим идентификаторам автоматически, просматривая их в объекте графика. Я не могу понять, как это сделать. Я провожу...
2333 просмотров
schedule 12.12.2022

Различные результаты реализации LOF в ELKI и RapidMiner
Я написал свою собственную реализацию LOF и пытаюсь сравнить результаты с реализациями в ELKI и RapidMiner, но все 3 дают разные результаты! Я пытаюсь понять, почему. Мой эталонный набор данных одномерный, 102 реальных значения с множеством...
1329 просмотров
schedule 11.03.2023

Замена значений выбросов в R
Мне нужен способ заменить выбросы значением -9999. По моим данным -9999 означает, что значение отсутствует. Это просто соглашение, обычно используемое для этого типа данных вместо NA. У меня есть фрейм данных под названием amf, состоящий из 43...
4555 просмотров
schedule 09.05.2023

Нейронная сеть репликатора для обнаружения выбросов, пошаговая функция, вызывающая такое же прогнозирование
В моем проекте одна из моих целей - найти выбросы в данных авиационного двигателя, и я решил использовать для этого нейронную сеть Replicator и прочитать следующий отчет об этом (...
3319 просмотров
schedule 31.05.2023

Winsorizing Panel Data (dataframe) по годам и обрезка по определенным условиям
Я пытаюсь выполнить winsorize (заменяя выбросы значениями, которые на 2 или 3 стандартных отклонения от среднего) для панельных данных и за каждый год. Я установил пакет robustHD, который включает в себя такую ​​функцию, однако я не могу реализовать...
2427 просмотров
schedule 13.08.2022

Удаление выбросов (команда outlierMAD в пакете pracma)
Я хотел бы удалить выбросы из каждого столбца моего набора данных... При поиске в Интернете кажется, что идентификатор Hampel должен быть хорошим решением моей проблемы, в которой есть метод обнаружения выбросов: [median – t * MAD, median + t * MAD]...
1300 просмотров
schedule 11.09.2022

Определите точки на остаточных графиках GLM в R
Как я могу идентифицировать точки на остаточных графиках, которые я получаю, запуская plot(glm.object) в R? Я понимаю, как работает identify() , но где я могу получить значения x и y, необходимые для этих графиков? Я также знаю о...
1338 просмотров
schedule 19.12.2022

Верхние n выбросов в ResultWriter
Я имею дело с многомерным и большим набором данных, поэтому мне нужно получить только первые N выбросов из вывода ResultWriter . Есть ли в elki возможность получить из этого вывода только первые N выбросов?
79 просмотров
schedule 12.09.2022

Запомните последнее правильное значение последовательности (для удаления выбросов)
У меня есть небольшая проблема в функции. Целью этого является удаление выбросов, которые я обнаружил в своем data.frame. Они обнаруживаются, когда есть слишком большая разница с предыдущим правильным значением (например, c(1,2,3,20,30,4,5,6) :...
79 просмотров
schedule 24.07.2022

как построить строку фильтра в datatable calculate() avg?
Я пытаюсь вычислить среднее значение столбца в RefdtClone с данными. Данные сильно различаются, и я хочу исключить слишком большие данные, например исключить значение > 9999. Кажется, я не могу найти информацию о том, как построить строку фильтра как...
1185 просмотров
schedule 22.06.2022

Преобразование выбросов в Pandas DataFrame с использованием .apply, .applymap, .groupby
Я пытаюсь преобразовать объект pandas DataFrame в новый объект, который содержит классификацию точек на основе некоторых простых порогов: Значение преобразуется в 0 , если точка NaN Значение преобразуется в 1 , если точка отрицательная или...
2168 просмотров
schedule 22.05.2022

ELKI, выход: ROCAUC, Precision@k, f1.maximum
Для чего используется Precision @ k в случае выброса? (при изменении k в одном и том же наборе данных я всегда получаю: Precision @ 3016 , и я не понимаю, откуда у ELKI это число, количество выбросов равно 1508) а также точность.средняя и...
211 просмотров
schedule 13.12.2022

Удалить несортированные/выпадающие элементы в почти отсортированном массиве
Учитывая массив типа [15, 14, 12, 3, 10, 4, 2, 1] . Как я могу определить, какие элементы вышли из строя, и удалить их (в данном случае это число 3). Я не хочу сортировать список, но обнаруживаю выбросы и удаляю их. Другой пример: [13, 12,...
896 просмотров
schedule 04.09.2023

ELKI Обнаружение выбросов на одномерных данных
Я пытался получить LOF для 1D-данных на основе евклидова расстояния. Но я продолжаю получать «Не удалось оценить результаты с выбросами, так как я не смог найти метку меньшинства». Ошибка. Пожалуйста, смотрите ниже. Данные выглядят так:...
479 просмотров
schedule 10.07.2023

Отделить посторонние остатки от набора данных R
Я создал линейную модель для своего набора данных, который состоит примерно из 12 миллионов строк. Используя остатки, я установил границы выбросов. Нижний забор и верхний забор. Теперь я хочу извлечь выбросы и поместить соответствующие данные в...
170 просмотров
schedule 16.01.2023

kmeans с разреженными векторами в elki
Когда я пробую этот метод с данными плотных векторов, он работает правильно, но с данными разреженных векторов выдает java.lang.ArrayIndexOutOfBoundsException . Какой источник данных я могу использовать для правильного чтения данных разреженных...
155 просмотров
schedule 04.07.2022