лучший способ статистически обнаружить аномалии в данных

наше веб-приложение собирает огромное количество данных о действиях пользователя, сетевом бизнесе, загрузке базы данных и т. д. и т. д.

Все данные хранятся на складах и у нас есть довольно много интересных просмотров этих данных.

если происходит что-то странное, скорее всего, оно обнаруживается где-то в данных.

Однако, чтобы вручную определить, происходит ли что-то необычное, нужно постоянно просматривать эти данные и искать странности.

Мой вопрос: как лучше всего обнаружить изменения в динамических данных, которые можно рассматривать как «необычные».

Являются ли байесовские фильтры (я видел, что они упоминались, когда читали об обнаружении спама) путь?

Любые указатели были бы замечательными!

РЕДАКТИРОВАТЬ: Для уточнения данных, например, показана ежедневная кривая загрузки базы данных. Эта кривая обычно похожа на кривую вчерашнего дня. Со временем эта кривая может меняться медленно.

Было бы неплохо, если бы кривая изо дня в день менялась, скажем, в пределах каких-то периметров, могло бы сработать предупреждение.

R


person Toad    schedule 20.08.2009    source источник


Ответы (4)


Байесовская классификация может помочь вам найти некоторые аномалии в ваших данных, в зависимости от типа данных и того, насколько хорошо вы обучаете свой байесовский фильтр.

Существует даже один веб-сервис @ uClassify.com.

person Alix Axel    schedule 20.08.2009

Взгляните на контрольные диаграммы. Они позволяют визуально отслеживать изменения в ваших данных и указывать, когда данные «вышли из-под контроля» или «аномальны». Они широко используются в производстве для обеспечения контроля качества.

person Carlos Rendon    schedule 25.08.2009

На этот вопрос невозможно ответить, не зная гораздо больше о конкретных данных, которые у вас есть. Обзор существующих подходов см. в разделе Обнаружение аномалий. : Обзор Чандолы, Банерджи и Кумара.

person Jouni K. Seppänen    schedule 04.09.2009

Это во многом зависит от того, какие данные. Запишитесь на курсы статистики и сначала изучите основы. Обычно это не простая проблема.

person aehlke    schedule 20.08.2009
comment
отличный ответ. Действительно полезно ;^) - person Toad; 20.08.2009
comment
Или даже хорошо поставленный вопрос. В любом случае, что именно вы подразумеваете под аномальным? - person Carlos Rendon; 26.08.2009