Представьте, что вы идете в банк для получения кредита, пока вы идете туда и читаете эту статью. В банке вы получаете плохие новости; ваша заявка на кредит отклонена. Менеджер банка объясняет, что при принятии решений они учитывают предложения алгоритма машинного обучения, который более объективно и эффективно оценивает вашу кредитоспособность. Однако оказывается, что алгоритм помечает чтение этой статьи как высокий риск дефолта. Другими словами, вам придется заплатить большую премию по кредиту из-за прочтения статьи о справедливости в алгоритмах машинного обучения. Это помешательство, не так ли?! Или это?

В этой статье объясняется, что понимание предвзятости жизненно важно для моделирования сценария из реальной жизни, а также для оценки достоверности алгоритмов, особенно в контексте отрасли, которую я исследую: финансовые услуги.

Принятие решений и конфликт
Этот сценарий кредита может показаться невероятным, но это не так. Алгоритмы все больше влияют на принятие решений; или, еще более строго говоря, решения принимаются алгоритмами. Этнические меньшинства, такие как латиноамериканцы и афроамериканцы, обращающиеся за кредитом, обычно платят на 0,08% больше процентов по своей ипотеке как в традиционных, так и в поддерживаемых машинным обучением кредиторах по сравнению с белыми (Ross, 2008; Bartlett, 2019). Но разве это не один из мотивов принятия алгоритмов для замены людей и устранения человеческих предубеждений?

Ну, практические преимущества использования алгоритмов очевидны; исторически кропотливый долгий процесс оформления кредита сводится к относительно незначительному периоду. Помимо повышения скорости обработки, трудозатраты сводятся к минимуму, а уровень удовлетворенности клиентов повышается. Однако если мотив состоит в том, чтобы заменить человека, то альтернативные алгоритмы должны функционировать как человек. Это означает, что вполне вероятно, что алгоритм машинного обучения принимает несправедливые решения, как это делают эти кредиторы. Это означает, что упомянутые преимущества, достигнутые при использовании алгоритма, также могут быть его падением. Повышение скорости обработки может быть достигнуто путем моделирования реальной ситуации и стандартизации обработки этой ситуации. Вы можете себе представить, что если эта стандартизированная обработка содержит структурно несправедливые решения, это может привести к плохой работе, резкому падению удовлетворенности клиентов и, как следствие, к увеличению трудозатрат на обработку недовольных клиентов.

Индустрия финансовых услуг — это отрасль, исчисляющая триллионы долларов, потенциальная прибыль, но также и потенциальный ущерб огромны. Неудивительно, что расходы на алгоритмы равны размеру отрасли (рис. 1). Ставки высоки, когда речь идет об огромных суммах денег, особенно в таких случаях важно учитывать этическую точку зрения.

«Справедливость может принести пользу всем вовлеченным сторонам»

Принимая этическую точку зрения, мы заинтересованы в том, что делать с моральной точки зрения правильно. Одно можно сказать наверняка: дискриминация определенных лиц или групп на основе врожденных характеристик, таких как раса, аморальна. Это приводит к понятию справедливости. Концепцию того, как справедливость может быть полезной, можно наблюдать в соответствии с финансовой отчетностью, что связано с моим собственным исследованием. Решение инвесторов и их алгоритмов, стоит ли инвестировать в компанию, зависит, в том числе, от финансового положения компании. Когда известно, что компании гибко интерпретируют правила, инвесторы ищут другие характеристики компании, чтобы решить, стоит ли инвестировать, что может привести к дискриминации. Соответствие, с другой стороны, относится к полной и точной финансовой отчетности, которая соответствует правилам. Ценность соблюдения и подотчетности все чаще признается компаниями в качестве актива, а не попытки гибко интерпретировать правила для экономии денег. Вместо этого, соблюдая требования, компании завоевывают доверие инвесторов, которые, в свою очередь, инвестируют в прозрачную и честную компанию.

Остается вопрос: если кредиторы и заемщики, компании и инвесторы могут выиграть от справедливого обращения, как мы узнаем, является ли алгоритм справедливым? Мы знаем, что предвзятость является основанием для дискриминации. Но если алгоритмы, используемые для устранения предвзятости, сами по себе предвзяты, как результат может быть справедливым? Чтобы понять этот вопрос, давайте исследуем, что такое предвзятость в контексте алгоритмов.

Предотвращение предвзятости с помощью предвзятого алгоритма
Ключом к пониманию предвзятости является понимание того, что все сводится к людям. Люди участвуют в генерации данных, которые вводятся в алгоритм машинного обучения, и люди являются создателями этих алгоритмов. Более конкретно:

Данные часто поступают от людей
Представление данных определяется людьми
Алгоритмы машинного обучения создаются людьми
Обработкой результатов занимаются люди

В предыдущем разделе мы установили, что люди могут быть предвзятыми, и поэтому мы можем сделать вывод, что алгоритмы также могут быть предвзятыми. Рис. 1 показывает, как обычно работает алгоритм машинного обучения и какие ошибки возникают. Алгоритм машинного обучения делает выводы из шаблонов данных, а затем выводит результаты для невидимых данных. Ярким примером, связанным с генерацией данных, является историческая предвзятость в КОМПАСе, алгоритме, предсказывающем рецидивизм. COMPAS в два раза чаще ошибочно классифицировал людей как лиц с высоким риском, если ответчик был чернокожим, по сравнению с белыми людьми (45 процентов против 23 процентов) (Larson et al., 2016). Известно, что в США арестовывают больше чернокожих, чем белых; поэтому неудивительно, что алгоритм улавливает это различие. Следующие два смещения — это смещение представления и смещение измерения. Они относятся к систематической ошибке, вносимой выборкой из совокупности, и к тому, как функция будет измеряться соответственно. На этапе построения модели смещение возникает из-за неадекватного сочетания данных и оценки показателей, которые благоприятствуют определенным данным, соответственно смещение агрегирования и смещение оценки. Подробнее о вопросах, которые следует задать себе при проверке на систематическую предвзятость в контексте финансовых услуг, читайте здесь.

Следующая остановка — справедливость
Предубеждения угрожают справедливости алгоритма машинного обучения. Следующим шагом является внедрение мер безопасности, которые предотвращают и отслеживают эти предубеждения. Эти методы можно структурировать, разделив их по фазам: фаза предварительной обработки, обработка по алгоритму или постобработка (Mehrabi et al., 2019). Это примерно соответствует смещениям, представленным на рис. 2; соответственно, это означает, что вы пытаетесь устранить дискриминацию путем преобразования исходных данных, наложения ограничений на алгоритм или последующего учета дискриминации. Лично мне нравится бороться с предвзятостью на этапе предварительной обработки. Мое исследование направлено на обнаружение внешних транзакций и авторизованных пользователей для определенного подмножества компаний. Существуют огромные различия в распространенности определенных атрибутов, которые учитываются на этапе предварительной обработки (предвзятость представления). Это мое дизайн-решение, но лучшее ли это решение — спорный вопрос.

Селбст и др. (2019) иллюстрируют обсуждение «правильного» решения, утверждая, что вмешательство на нескольких этапах жизненного цикла машинного обучения делает технические вмешательства неэффективными. Научный интерес к справедливости алгоритмов возник недавно (рис. 3), и не существует универсальной меры справедливости. Точно так же не существует единого решения для обеспечения справедливости в алгоритмах, поскольку справедливость сильно зависит от контекста. Вы можете себе представить, что удаление пола из данных может улучшить справедливость алгоритма подачи заявки на кредит. Однако если бы вы повторили этот шаг в алгоритме оценки риска рака простаты, это была бы совсем другая история. Итак, следующий рубеж – включить контекст в ваши алгоритмы!

«Отображение контекста в абстрактное представление способствует справедливости»

Спасибо, что прочитали. В этой статье вы обрисовали проблемы несправедливых алгоритмов, теперь я хотел бы предложить вам подумать о возможных решениях для включения контекста в машинное обучение. Кроме того, если вы планируете посетить свой банк, чтобы подать заявку на получение кредита, обязательно проверьте, не повлиял ли на вашу заявку тот факт, что вы прочитали эту статью!

использованная литература

Бартлетт Р., Морс А., Стэнтон Р. и Уоллес Н. (2019). Дискриминация потребительского кредитования в эпоху финансовых технологий (№ w25943). Национальное бюро экономических исследований.

Ларсон, Дж., Матту, С., Киршнер, Л., и Ангвин, Дж. (2016). Как мы анализировали алгоритм рецидивизма КОМПАС. ProPublica (5 2016 г.), 9.

Мехраби, Н., Морстаттер, Ф., Саксена, Н., Лерман, К., и Галстян, А. (2019). Опрос о предвзятости и справедливости в машинном обучении. препринт arXiv arXiv:1908.09635.

Росс, С.Л., Тернер, Массачусетс, Годфри, Э., и Смит, Р.Р. (2008). Ипотечное кредитование в Чикаго и Лос-Анджелесе: парное тестирование процесса подготовки заявки. Журнал городской экономики, 63(3), 902–919.

Селбст, А. Д., Бойд, Д., Фридлер, С. А., Венкатасубраманян, С., и Вертези, Дж. (2019, январь). Справедливость и абстракция в социотехнических системах. В Материалы конференции по справедливости, подотчетности и прозрачности (стр. 59–68).

Суреш, Х., и Гуттаг, Дж. В. (2019). Структура для понимания непреднамеренных последствий машинного обучения. препринт arXiv arXiv:1901.10002.