Баланс - ключ ко всему - Koi Fresco
После всестороннего рассмотрения некоторых ключевых задач предварительной обработки данных в наших предыдущих статьях, пришло время понять концепцию несбалансированных наборов данных, которые обычно возникают в реальных наборах данных. После мягкого введения мы продолжим в предыдущих статьях с методами, необходимыми для решения этой проблемы.
Наборы данных о дисбалансе: основы
Несбалансированные наборы данных обычно встречаются в наборах данных классификации, когда один из классов (большинство) имеет большое количество образцов / экземпляров, а другой класс (меньшинство) имеет несколько последующих примеров.
Распределение экземпляров в несбалансированных двоичных наборах данных измеряется несбалансированным соотношением.
По значению IR несбалансированные наборы данных делятся на три класса:
- наборы данных с низким дисбалансом (IR от 1,5 до 3)
- наборы данных со средним дисбалансом (IR от 3 до 9)
- наборы данных с высоким дисбалансом (IR выше 9)]
Примеры несбалансированных наборов данных
Приведенные ниже приложения обсуждаются в контексте, где часто встречаются несбалансированные наборы данных.
Медицинские диагностические системы. Системы в сфере здравоохранения страдают от предоставления точных диагностических систем, поскольку образцов от различных заболеваний немного, и они создают серьезные проблемы из-за обмена данными и медицинской этики. Предположим, у нас есть набор данных из 1 миллиона пациентов, из которых несколько сотен - больные раком, и большинство из них здоровы. Выборки из класса большинства составляют около 95%, чем образцы из класса меньшинства. Здесь класс большинства - «Здоровый», а класс меньшинства - «Рак».
В наборе данных 15,77% относятся к классу злокачественный, а 84,23% - к классу не злокачественный.
Оценка риска кредитных карт:. Большинство выборок являются завышенными целевыми значениями, относящимися к классу защиты от мошенничества при классификации обнаружения мошенничества.
В этом наборе данных есть образцы, принадлежащие двум поддельным или подлинным этикеткам. Как мы видим, распределение образцов составляет 99,83% в классе, не связанном с мошенничеством, и только 0,17% в классе мошенничества.
Обнаружение аномалий в анализе сетевого трафика: из-за преобладания новых типов атак, генерируемых в больших масштабах, выборки для каждой атаки по-прежнему ограничены большинством выборок из анализа шаблонов трафика. снова принадлежащий ярлыку нормальный. Набор данных содержит набор данных обнаружения аномалий с двумя классами - атакующий и нормальный. 93,32% всех данных относятся к классу атак, тогда как только 16,44% относятся к классу обычных.
Спам-сообщения. Большинство электронных писем сегодня из-за надежных брандмауэров классифицируются как «нормальные» электронные письма, но некоторые из них ускользают или считаются подозрительными брандмауэрами. и поэтому классифицируется как «Спам».
В этом примере набор данных 79,6% всех данных относится к классу не-спам, в то время как только 20,4% всех данных относится к классу спама.
Работа с наборами данных о дисбалансе дает следующие преимущества:
- Привести к надежной разработке алгоритмов обнаружения выбросов. Меньшинство выборок не может быть идентифицировано как возможные выбросы.
- Лучшее понимание медицинских диагностических систем с тестами на чувствительность и специфичность
- Развертывание надежных и непредвзятых систем ИИ
Выводы
Для создания надежных систем ИИ наборы данных должны быть сбалансированными и свободными от предвзятости. Статья позволяет пользователям изучить наборы данных, обсуждаемые в примерах приложений, чтобы понять несбалансированные наборы данных и предложить пользователям определить дополнительные варианты использования несбалансированных наборов данных.
У вас есть вопросы?
Пожалуйста, задавайте свои вопросы по электронной почте или в комментариях, и мы будем рады ответить.