Публикации по теме 'outliers'
Найдите выбросы, используя два простых метода.
Выбросы могут негативно повлиять на производительность модели и привести к неправильному суждению во время анализа данных. Вот два простых способа уменьшить выбросы.
Что такое выброс?
Выброс — это точка данных, которая не соответствует общему шаблону своего окружения. Взглянем:
Вот два разных способа уменьшить выбросы:
Использование Z-оценки. Используя межквартильный диапазон (IQR).
Использование Z-показателя:
Теперь, чтобы использовать этот метод, мы..
Шаги линейной регрессии
Шаги линейной регрессии
Линейная регрессия — это контролируемое машинное обучение, используемое для прогнозирования числовых данных.
Ниже приведены ключевые шаги в типичной задаче прогнозирования, основанной на регрессии.
Загрузить данные Понимание особенностей и цели, которые необходимо предсказать Очистка данных Убедитесь, что цель следует нормальному распределению Найдите корреляцию признаков с целью, которую нужно предсказать, построив двумерные диаграммы рассеяния. Самый..
Вопросы по теме 'outliers'
R: Как убрать выбросы из сглаживания в ggplot2?
У меня есть следующий набор данных, который я пытаюсь построить с помощью ggplot2, это временной ряд из трех экспериментов A1, B1 и C1, и каждый эксперимент имел три повтора.
Я пытаюсь добавить статистику, которая обнаруживает и удаляет выбросы,...
7350 просмотров
schedule
05.07.2023
Как удалить выбросы из набора данных
У меня есть многомерные данные о красоте и возрастах. Возраст варьируется от 20 до 40 с интервалом 2 (20, 22, 24 .... 40), и для каждой записи данных им дается возраст и оценка красоты от 1 до 5. Когда я строю прямоугольные диаграммы этих данных...
359906 просмотров
schedule
21.05.2023
ggplot2 На цветовую шкалу влияют выбросы
У меня проблемы с несколькими выбросами, делающими цветовую шкалу бесполезной.
Мои данные имеют переменную длины, которая основана на диапазоне, но обычно имеет несколько гораздо больших значений. В приведенном ниже примере данных 95 значений от...
5245 просмотров
schedule
13.01.2023
Извлечь строки с наибольшим и наименьшим значениями из фрейма данных
Я новичок в R, использую его в основном для визуализации статистики с использованием библиотеки ggplot2 . Теперь у меня возникла проблема с подготовкой данных.
Мне нужно написать функцию, которая удалит несколько строк (2, 5 или 10) из фрейма...
3721 просмотров
schedule
23.09.2022
Доступ к идентификаторам выбросов на графике lme
Я строю объект lme fit в r и получаю идентификаторы выбросов (studyID), отображаемые на графике, но я хотел бы получить доступ к этим идентификаторам автоматически, просматривая их в объекте графика. Я не могу понять, как это сделать. Я провожу...
2333 просмотров
schedule
12.12.2022
Различные результаты реализации LOF в ELKI и RapidMiner
Я написал свою собственную реализацию LOF и пытаюсь сравнить результаты с реализациями в ELKI и RapidMiner, но все 3 дают разные результаты! Я пытаюсь понять, почему.
Мой эталонный набор данных одномерный, 102 реальных значения с множеством...
1329 просмотров
schedule
11.03.2023
Замена значений выбросов в R
Мне нужен способ заменить выбросы значением -9999. По моим данным -9999 означает, что значение отсутствует. Это просто соглашение, обычно используемое для этого типа данных вместо NA.
У меня есть фрейм данных под названием amf, состоящий из 43...
4555 просмотров
schedule
09.05.2023
Нейронная сеть репликатора для обнаружения выбросов, пошаговая функция, вызывающая такое же прогнозирование
В моем проекте одна из моих целей - найти выбросы в данных авиационного двигателя, и я решил использовать для этого нейронную сеть Replicator и прочитать следующий отчет об этом (...
3319 просмотров
schedule
31.05.2023
Winsorizing Panel Data (dataframe) по годам и обрезка по определенным условиям
Я пытаюсь выполнить winsorize (заменяя выбросы значениями, которые на 2 или 3 стандартных отклонения от среднего) для панельных данных и за каждый год. Я установил пакет robustHD, который включает в себя такую функцию, однако я не могу реализовать...
2427 просмотров
schedule
13.08.2022
Удаление выбросов (команда outlierMAD в пакете pracma)
Я хотел бы удалить выбросы из каждого столбца моего набора данных... При поиске в Интернете кажется, что идентификатор Hampel должен быть хорошим решением моей проблемы, в которой есть метод обнаружения выбросов: [median – t * MAD, median + t * MAD]...
1300 просмотров
schedule
11.09.2022
Определите точки на остаточных графиках GLM в R
Как я могу идентифицировать точки на остаточных графиках, которые я получаю, запуская plot(glm.object) в R?
Я понимаю, как работает identify() , но где я могу получить значения x и y, необходимые для этих графиков?
Я также знаю о...
1338 просмотров
schedule
19.12.2022
Верхние n выбросов в ResultWriter
Я имею дело с многомерным и большим набором данных, поэтому мне нужно получить только первые N выбросов из вывода ResultWriter . Есть ли в elki возможность получить из этого вывода только первые N выбросов?
79 просмотров
schedule
12.09.2022
Запомните последнее правильное значение последовательности (для удаления выбросов)
У меня есть небольшая проблема в функции. Целью этого является удаление выбросов, которые я обнаружил в своем data.frame. Они обнаруживаются, когда есть слишком большая разница с предыдущим правильным значением (например, c(1,2,3,20,30,4,5,6) :...
79 просмотров
schedule
24.07.2022
как построить строку фильтра в datatable calculate() avg?
Я пытаюсь вычислить среднее значение столбца в RefdtClone с данными. Данные сильно различаются, и я хочу исключить слишком большие данные, например исключить значение > 9999. Кажется, я не могу найти информацию о том, как построить строку фильтра как...
1185 просмотров
schedule
22.06.2022
Преобразование выбросов в Pandas DataFrame с использованием .apply, .applymap, .groupby
Я пытаюсь преобразовать объект pandas DataFrame в новый объект, который содержит классификацию точек на основе некоторых простых порогов:
Значение преобразуется в 0 , если точка NaN
Значение преобразуется в 1 , если точка отрицательная или...
2168 просмотров
schedule
22.05.2022
ELKI, выход: ROCAUC, Precision@k, f1.maximum
Для чего используется Precision @ k в случае выброса? (при изменении k в одном и том же наборе данных я всегда получаю: Precision @ 3016 , и я не понимаю, откуда у ELKI это число, количество выбросов равно 1508)
а также
точность.средняя и...
211 просмотров
schedule
13.12.2022
Удалить несортированные/выпадающие элементы в почти отсортированном массиве
Учитывая массив типа [15, 14, 12, 3, 10, 4, 2, 1] . Как я могу определить, какие элементы вышли из строя, и удалить их (в данном случае это число 3). Я не хочу сортировать список, но обнаруживаю выбросы и удаляю их.
Другой пример:
[13, 12,...
896 просмотров
schedule
04.09.2023
ELKI Обнаружение выбросов на одномерных данных
Я пытался получить LOF для 1D-данных на основе евклидова расстояния. Но я продолжаю получать «Не удалось оценить результаты с выбросами, так как я не смог найти метку меньшинства». Ошибка. Пожалуйста, смотрите ниже. Данные выглядят так:...
479 просмотров
schedule
10.07.2023
Отделить посторонние остатки от набора данных R
Я создал линейную модель для своего набора данных, который состоит примерно из 12 миллионов строк. Используя остатки, я установил границы выбросов. Нижний забор и верхний забор.
Теперь я хочу извлечь выбросы и поместить соответствующие данные в...
170 просмотров
schedule
16.01.2023
kmeans с разреженными векторами в elki
Когда я пробую этот метод с данными плотных векторов, он работает правильно, но с данными разреженных векторов выдает java.lang.ArrayIndexOutOfBoundsException . Какой источник данных я могу использовать для правильного чтения данных разреженных...
155 просмотров
schedule
04.07.2022