Выявление мошенничества с кредитными картами Риски и проблемы

Мошенничество с транзакциями по кредитным картам стоило британским пользователям и эмитентам кредитных карт более 610 миллионов фунтов стерлингов в 2022 году, что, по словам Ридли, в 2022 году сделало это одной из главных угроз национальной безопасности. Добавьте к этому, что человеку практически невозможно обнаружить мошеннические шаблоны в огромном количестве данных, генерируемых каждый день. Вот почему невозможно переоценить потребность в более сложных технологиях для обнаружения мошеннических транзакций.

Управление рисками является критическим процессом в управлении проектом. Чтобы проект по обнаружению мошенничества с кредитными картами был успешным, нам необходимо выявить и устранить непредвиденные действия, которые могут повлиять на результаты проекта. В этой статье будут указаны некоторые риски и проблемы, которые могут возникнуть при построении нашей модели:

1. Нехватка общедоступных наборов данных представляет значительный риск для обнаружения мошенничества с кредитными картами. Реальные наборы данных о транзакциях по кредитным картам не могут быть общедоступными, поскольку они содержат конфиденциальную информацию о клиентах.

2. Генерация набора признаков из необработанных данных для использования в запланированное время может быть трудной задачей, потому что, как правило, этот процесс занимает много времени, даже для эксперта, чтобы разработать различимый набор, что приведет к задержкам в предварительном анализе. стадии обработки и, в свою очередь, всего проекта. Имейте в виду, что данные транзакций имеют множество категориальных признаков, а алгоритмы машинного обучения с трудом справляются с категориальными признаками.

3. Предвзятость. Данные обучения могут содержать погрешности, которые приводят к неточным или несправедливым прогнозам. Это может поставить под угрозу точность модели.

4. Обучение модели будет затруднено из-за дисбаланса классов, который повлияет на производительность модели и затруднит построение модели классификации. Проблема работы с несбалансированными классами заключается в том, что алгоритмы рассматривают класс меньшинства как выбросы, что в конечном итоге приводит к снижению производительности.

5. Мошенники со временем меняют свое поведение и стратегии. Они постоянно ищут новые методы мошенничества. С другой стороны, клиенты также время от времени меняют свои покупательские привычки. В результате все усилия по построению модели обнаружения мошенничества окажутся бесплодными, а проект не достигнет своих целей. Эта ситуация называется дрейфом понятий.

6. Стандартные показатели измерения производительности для моделей классификации не подходят для обнаружения мошенничества с кредитными картами из-за несбалансированного класса.

7. Переобучение. Переобучение происходит, когда модель переоснащается обучающими данными и плохо работает на новых, ранее невиданных данных.

1.1 Как решить эти проблемы?

Основной стратегией снижения этих рисков, упомянутых выше, будет «принятие мер по снижению риска или поиск возможностей». К счастью, будет использовано несколько стратегий или действий, чтобы преодолеть риски и сделать их воздействие менее разрушительным. Некоторые из них:

1. Используйте набор данных, смоделированный из реального набора данных с аналогичными качествами, включая несбалансированность классов и включение числовых, категорийных и географических данных.

2. Анализ главных компонентов (АГК) — отличный способ получить относительные характеристики. Это повышает интерпретируемость за счет уменьшения потерь информации и определения наиболее важных функций в наборе данных. Категориальные признаки могут быть преобразованы в другую форму с использованием различных методов, таких как преобразование на основе графа или горячее кодирование.

3. Крайне важно гарантировать, что данные, используемые для обучения модели, репрезентативны для всего населения и не содержат систематических ошибок. Использование различных источников данных может решить эту проблему.

4. Лучшей практикой является балансировка данных и устранение асимметрии с помощью различных стратегий, таких как недостаточная выборка, избыточная выборка или метод SMOTE.

5. Для дрейфа понятий было бы полезно использовать такие методы обучения, как ансамблевое обучение, чтобы иметь дело с изменениями в поведении и фиксировать модели с течением времени.

6. Для оценки предложенной модели будет использоваться несколько показателей производительности, таких как AUC ROC, кривая Precision-Recall и средняя точность (AP).

7. Чтобы избежать переобучения. Чтобы модель эффективно работала с невидимыми данными, жизненно важно использовать большой и разнообразный набор данных для обучения, а также метод перекрестной проверки.

Предпринимая эти шаги, организации могут помочь обеспечить эффективность, точность и справедливость своих моделей обнаружения мошенничества, а также помочь защититься от мошеннических действий.