TL; DR: набор данных, архитектура, модели, показатели, алгоритмы и математика не могут быть предвзятыми. Люди, делающие выбор, предвзяты по самой природе акта выбора. И когда такой выбор ведет к плохим вещам, ответственность за это следует нести. У профессионалов есть стандарты.

Эпистемический статус: я начал писать через несколько минут после того, как закончил просмотр Основной доклад NeurIPS 2020:« Вы не можете избежать гиперпараметров и скрытых переменных: машинное обучение как предприятие по разработке программного обеспечения ». Так что я не особо об этом думал. Что я знаю, правда? Это как бы недостаточно квалифицировано и чрезмерно самоуверенно.

Предыстория: Янн ЛеКанн против Тимнит Гебру

Несколько месяцев назад я впервые услышал о выходе Тимнит Гебру из разногласий с Google. Я называю это выходом из Google, потому что так это называет Википедия. Это неизбежно приводит меня к рассказу о ее разговоре с Яном ЛеКуном о Депикселизаторе лица, который делает Обаму белым. Просто прочитав эту статью, я был полностью на стороне Яна ЛеКуна. Это простая проблема несбалансированного набора данных, и это конец истории. Честно говоря, в этой статье вообще не говорится об аргументах Гебру (что не является ошибкой статьи, она просто сообщает о противоречии).

А затем, несколько минут назад, я закончил смотреть доклад NeurIPS 2020: Вы не можете избежать гиперпараметров и скрытых переменных: машинное обучение как предприятие по разработке программного обеспечения Чарльза Исбелла. А теперь я на совершенно противоположной стороне. Теперь я понимаю, почему Гебру жалуется на фрейминг. Хотя я очень опаздываю на разговор, не то чтобы я был тем, чей голос в любом случае имеет достаточно веса, чтобы присоединиться к разговору - это был бы мой ответ на оригинальный твит Яна Лекуна.

Мой текущий ответ на твит Яна Лекуна

Системы машинного обучения предвзяты, когда данные предвзяты. Эта система передискретизации лица заставляет всех выглядеть белыми, потому что сеть была предварительно обучена на FlickFaceHQ, который в основном содержит фотографии белых людей. Обучите * точно * ту же систему на наборе данных из Сенегала, и все будут выглядеть африканцами

Личная история: несчастный случай из-за врачебной халатности

Время историй! Однажды мне стало очень плохо, поэтому родители отвезли меня в больницу. Врач сказал: «Это аппендицит, нужна операция». Мои родители сказали «конечно». Я сказал «конечно» - операция назначена. А потом пришел посетитель и сказал: «Он выглядит желтым». Мои родители сказали, что «он выглядит желтым». Я сказал «Блаарг», потому что меня буквально рвало. Врач сказал: «Давайте сделаем анализ крови», в анализе крови «гепатит А». Операция отменена.

Если операция пройдет, никто не знает, что будет дальше. Но, скорее всего, это будет нехорошо. В более академических терминах:

Исход пациентов с острым вирусным гепатитом, подвергающихся общей анестезии, никогда не исследовался проспективно (40). В одном ретроспективном исследовании 9,5% пациентов с острым вирусным гепатитом, перенесших лапаротомию, умерли, а у 12% развились значительные осложнения (40).

Lentschener, C., and Y. Ozier. «Что анестезиологам нужно знать о вирусном гепатите». Acta Anaesthesiologica Scandinavica, vol. 47, нет. 7, Blackwell Publishing, 2003 г., стр. 794–803, DOI: 10.1034 / j.1399–6576.2003.00154.x.

Но, допустим, посетитель не пришел, операция прошла, и произошло осложнение. А потом моя семья написала в Твиттере: «Неудачная операция плохим доктором». Ответ ЛеКуна сродни ответу на мой семейный твит: «Токсичность анестетика усиливается недостаточным метаболизмом печени, что приводит к заболеваемости». Это было бы на 100% правильным заявлением, в котором полностью упущен смысл. Вот почему Гебру жаловался на «фрейминг».

Вопрос о взаимодействии анестезии и гепатита - важный технический вопрос, который должен возникать (и происходит) в медицинском сообществе. Но это был бы не тот вопрос, который интересовал бы меня и мою семью. Большой вопрос будет: как это вообще могло произойти? Разве анализ крови не входит в стандартную процедуру? Как насчет того, чтобы просто посмотреть на белки глаз пациента? Это были недопустимые ошибки, которые можно было предотвратить.

Другой большой вопрос: «Кто должен нести ответственность?» Врач, заказавший операцию? Хирург? Медсестра, проводившая медицинский осмотр? Специалист-анестезиолог? Может все вышеперечисленное? Я не знаю, потому что не занимаюсь медициной. Но я уверен, что хотя бы один человек должен нести ответственность за эту предполагаемую халатность.

Если моя мама спросит: «Почему умер мой сын?», Ответив на это только «анестезиологическое действие», это будет не только бессердечием, но и отказом взять на себя ответственность.

Выбор набора данных

Back to Face Depixelizer. Раньше я думал, что это простая техническая проблема. Техническая проблема в том, что набор данных несбалансирован. Техническое решение состоит в том, чтобы получить более качественные наборы данных, или использовать избыточную / недостаточную выборку, или взвесить выборки, или множество других методов. Но главный вопрос заключается не в том, «как исправить эту ошибку?», А в том, «почему это вообще произошло?».

Да, все вышеперечисленное - важные технические проблемы, и они решаются прямо сейчас. Это хорошая вещь. Однако в общественных местах люди задают совершенно другой набор вопросов: «Почему CVPR опубликовала статью с несбалансированным набором данных, не обсуждая важные способы несбалансированности набора данных?» Другими словами, «почему ИИ расистский?»

(Конечно, нельзя предвзято относиться к набору данных, архитектуре, моделям, метрикам, алгоритмам и математике. Точно так же, как анестезия, химическое вещество не может вызвать злоупотребления служебным положением. Искусственный интеллект и машинное обучение прямо сейчас, к сожалению, неразборчивы для общественности. Мы не можем обвинять общественность в использовании неправильный жаргон и обрамление. Мы должны сделать это более разборчивым.)

Быстрый ответ - потому что получить сбалансированный набор данных сложно и дорого. Но это не настоящий ответ. Сделаны более сложные вещи, и больше денег было потрачено на более тривиальные вещи. Настоящий ответ заключается в том, что CVPR все равно. Их не волнует набор данных, сбалансированный по возрасту, этнической принадлежности, полу или типу кожи по Фитцпатрику. И в этом суть проблемы.

Помимо наборов данных

Выступление Исбелла также открыло мне глаза за пределами наборов данных. Предвзятость может проявляться не только в наборах данных. Еще один хороший пример - метрика: результаты F1 на микро- и макроуровне. Набор показателей должен выбирать человек. Этот выбор является отражением наших человеческих ценностей. О чем мы заботимся больше, а о чем меньше. Фактически, каждый выбор, который мы делаем, является необъективным, потому что такова природа выбора.

Вот где обитают предубеждения. Не в наборе данных, архитектуре, моделях, показателях, алгоритмах или математике. Но в нашем решении, когда мы выбираем один набор данных над другим, одну метрику над другой, одну архитектуру над другой.

Хороший пример: почему у нас много задач и наборов данных, связанных с лицами? Face Deepixelizer такой же, как и YOLO, и thispersondoesnotexist.com. Почему не локти или ногти на ногах? Потому что исследователи, спонсоры и люди в целом гораздо больше заботятся о том, чтобы искать, создавать и различать человеческие лица. Это просто факт, а не что-то плохое или хорошее. Предвзятость существует, и она может привести к плохим результатам.

Стать профессионалом

«Но что, если мне все равно? Я имею в виду, что я согласен с тем, что справедливость в искусственном интеллекте - важная проблема, и люди должны работать над этим, ведущие площадки должны больше заботиться об этом, и на это следует вкладывать больше средств. Но мне лично все равно. Это не та исследовательская проблема, которую я хочу решать. Это не моя чашка чая. Я думаю, что рак, черная дыра, изменение климата и бедность тоже важны. Тот факт, что я исследую что-то другое, а не что-либо из этого, не означает, что я принижаю значение какой-либо из этих тем. Просто у меня ограниченные ресурсы, и я хочу исследовать темы, которые меня интересуют. А на практике это просто означает подбор наиболее удобных наборов данных и показателей, архитектурных модулей и т. Д. »

(Это не только я делаю соломинку. Это в основном я. Сейчас я работаю над прогнозированием трафика. И я продолжаю думать про себя: Было бы неплохо работать с наборами данных, с которыми я знаком. Но я провел свое исследование, и доступные наборы данных смещены в сторону нескольких мест на земле. Раньше я думал просто это не весело, но ожидаемо. Но благодаря Исбеллу я понял значение. Я и большинство людей модели предвзято относятся к определенному типу трафика. Будет ли это распространено на другие географические регионы - это все еще огромный вопрос без ответа. И я не собираюсь обманывать себя. Совершенно ничтожно маловероятно, что я приложу какие-либо реальные усилия на то, чтобы сделать свой набор данных более разнообразным в ближайшем будущем. У меня есть более крупная рыба, которую нужно поджарить, например, выпускной. Вот и все.)

На личном уровне, я думаю, это нормально. Но как сообщество экспертов, кто-то должен нести ответственность. Речь идет не только о том, чтобы быть более осторожными при развертывании, но и об установлении профессиональных стандартов. В медицине, юриспруденции, бухгалтерском учете и авиалиниях установлены стандарты, определяющие, кто за что отвечает. Ошибки не допускаются. Ошибки являются свидетельством злоупотребления служебным положением, и нам нужно точно выяснить, кто упал, и нужно ли обновлять стандарты.

Эксперты по машинному обучению пока не являются профессионалами. Нет стандартов, нет этического кодекса. Неудача, какой бы катастрофической она ни была, - это техническая ошибка, а не злоупотребление служебным положением. Никто не несет ответственности, потому что ни на кого не возложена ответственность. Проблема в том, что общественность все меньше и меньше прощает ошибки машинного обучения и искусственного интеллекта. Либо мы должны сами себя регулировать, либо люди, не являющиеся экспертами, приходят с бессмысленными жесткими правилами, или, что еще хуже, ошибки будут продолжать совершаться, обременяя всех, особенно наиболее уязвимые слои общества.

Если я создаю модели, я не хочу, чтобы на меня подали в суд из-за того, что кто-то передал мне плохой набор данных. И когда я готовлю набор данных, я не хочу, чтобы на меня подали в суд из-за того, что кто-то выбрал неверную метрику. Или, может быть, я должен нести ответственность за оба, независимо от моей роли. Может быть, нужно соблюдать осторожность и проводить многократные проверки. Так же, как учитель должен в обязательном порядке сообщать, если подозревает, что кто-то издевается над ребенком. Или как фармацевт не может слепо передавать то, что прописали врачи. Может быть, инженерам машинного обучения перед развертыванием следует проверить модельную карточку, подписанную профессионалами машинного обучения, иначе возникнут юридические последствия. Я не знаю, как это должно работать, но я знаю, что это вопросы, которые мы должны задавать.

(И это только на стороне развертывания. Есть также вопросы об этике исследований машинного обучения. Действительно ли работает более широкое заявление о воздействии? Я не знаю.)

Больше, чем социальная справедливость

Для меня это больше, чем просто социальная справедливость. Когда предвзятость в обществе переросла в предвзятость в технологиях, как в исследованиях, так и в развертывании, что привело к дальнейшему ущербу для групп меньшинств, это стало трагедией. Но могло быть и хуже. Предвзятость в науке, ведущая к плохой науке, может навредить и причинить вред каждому.

Тем временем, пока мы добираемся туда, когда кто-то спрашивает: «Почему умер мой сын?» Правильный ответ - не «токсичность анестетика», а «извините. Имелась халатность. Для ответственных людей будут последствия. Вот некоторая компенсация, хотя некоторая травма не может быть устранена ».

использованная литература

  • Источники всех изображений указаны в подписи.