Баланс - ключ ко всему - Koi Fresco

После всестороннего рассмотрения некоторых ключевых задач предварительной обработки данных в наших предыдущих статьях, пришло время понять концепцию несбалансированных наборов данных, которые обычно возникают в реальных наборах данных. После мягкого введения мы продолжим в предыдущих статьях с методами, необходимыми для решения этой проблемы.

Наборы данных о дисбалансе: основы

Несбалансированные наборы данных обычно встречаются в наборах данных классификации, когда один из классов (большинство) имеет большое количество образцов / экземпляров, а другой класс (меньшинство) имеет несколько последующих примеров.

Распределение экземпляров в несбалансированных двоичных наборах данных измеряется несбалансированным соотношением.

По значению IR несбалансированные наборы данных делятся на три класса:

  • наборы данных с низким дисбалансом (IR от 1,5 до 3)
  • наборы данных со средним дисбалансом (IR от 3 до 9)
  • наборы данных с высоким дисбалансом (IR выше 9)]

Примеры несбалансированных наборов данных

Приведенные ниже приложения обсуждаются в контексте, где часто встречаются несбалансированные наборы данных.

Медицинские диагностические системы. Системы в сфере здравоохранения страдают от предоставления точных диагностических систем, поскольку образцов от различных заболеваний немного, и они создают серьезные проблемы из-за обмена данными и медицинской этики. Предположим, у нас есть набор данных из 1 миллиона пациентов, из которых несколько сотен - больные раком, и большинство из них здоровы. Выборки из класса большинства составляют около 95%, чем образцы из класса меньшинства. Здесь класс большинства - «Здоровый», а класс меньшинства - «Рак».

В наборе данных 15,77% относятся к классу злокачественный, а 84,23% - к классу не злокачественный.

Оценка риска кредитных карт:. Большинство выборок являются завышенными целевыми значениями, относящимися к классу защиты от мошенничества при классификации обнаружения мошенничества.

В этом наборе данных есть образцы, принадлежащие двум поддельным или подлинным этикеткам. Как мы видим, распределение образцов составляет 99,83% в классе, не связанном с мошенничеством, и только 0,17% в классе мошенничества.

Обнаружение аномалий в анализе сетевого трафика: из-за преобладания новых типов атак, генерируемых в больших масштабах, выборки для каждой атаки по-прежнему ограничены большинством выборок из анализа шаблонов трафика. снова принадлежащий ярлыку нормальный. Набор данных содержит набор данных обнаружения аномалий с двумя классами - атакующий и нормальный. 93,32% всех данных относятся к классу атак, тогда как только 16,44% относятся к классу обычных.

Спам-сообщения. Большинство электронных писем сегодня из-за надежных брандмауэров классифицируются как «нормальные» электронные письма, но некоторые из них ускользают или считаются подозрительными брандмауэрами. и поэтому классифицируется как «Спам».

В этом примере набор данных 79,6% всех данных относится к классу не-спам, в то время как только 20,4% всех данных относится к классу спама.

Работа с наборами данных о дисбалансе дает следующие преимущества:

  • Привести к надежной разработке алгоритмов обнаружения выбросов. Меньшинство выборок не может быть идентифицировано как возможные выбросы.
  • Лучшее понимание медицинских диагностических систем с тестами на чувствительность и специфичность
  • Развертывание надежных и непредвзятых систем ИИ

Выводы

Для создания надежных систем ИИ наборы данных должны быть сбалансированными и свободными от предвзятости. Статья позволяет пользователям изучить наборы данных, обсуждаемые в примерах приложений, чтобы понять несбалансированные наборы данных и предложить пользователям определить дополнительные варианты использования несбалансированных наборов данных.

У вас есть вопросы?

Пожалуйста, задавайте свои вопросы по электронной почте или в комментариях, и мы будем рады ответить.