Мрачная реальность машинного обучения в медицине (и других областях)

Растущий объем данных, собираемых многочисленными интернет-сервисами, которые люди используют каждый день, открыл двери для множества нарушений и злоупотреблений. Последний скандал с Facebook может быть только началом.

Что касается частных сервисов, ситуация не лучше. Под частными я подразумеваю все те услуги, которые обычно предоставляются отдельным лицам правительствами, финансовыми учреждениями, страховщиками, учреждениями здравоохранения и всеми их комбинациями. Такие сервисы манипулируют данными, которые дают уникальную картину личности. Картина намного яснее, чем та, которую изображают личные данные платформ социальных сетей или интернет-магазинов. Не говоря уже о степени чувствительности и последствиях, которые могут вызвать такие данные, если они попадут в чужие руки.

Люди, похоже, достигли точки пересечения, когда их просят выбирать между функциональностью и конфиденциальностью. Но не то и другое вместе. Совсем не оба.
Нет данных - нет сервиса. Так говорят компании, создающие службы личных финансов. То же самое относится к маркетинговым компаниям, компаниям, занимающимся социальными сетями, компаниям поисковых систем, и этот список можно продолжить.

Не так давно разрыв между здравоохранением, медициной и машинным обучением был заполнен обнадеживающими результатами с помощью таких технологий, как глубокое обучение, благодаря которым рентгенологи были лучше, чем радиологи, более быстрые онкопатологи, чем патологоанатомы, более точные клинические врачи, чем врачи [1,2,3 , 4,5,12]

Люди, похоже, достигли точки пересечения, когда их просят выбирать между функциональностью и конфиденциальностью. Но не то и другое вместе.

Несмотря на обычный скептицизм, с которым сталкивается каждая технология в зачаточном состоянии, медицина, здравоохранение и машинное обучение начали (не очень) новую область исследований под названием прецизионная медицина.

Точная медицина предлагает индивидуальную настройку здравоохранения с помощью моделей машинного обучения и агрегированных данных, поступающих из разных областей. Такие данные описывают разные биологические процессы одного и того же организма. Они называют их разнородными данными, чтобы указать на разнообразие источников и сигналов, передаваемых каждым из них.

Итак, объединив данные, описывающие метаболиты (метаболомика), белки (протеомика), гены (геномика), генетические мутации (SNP - Single Nucleotide Polymorphisms), и, конечно же, демографические данные, семейный анамнез, факторы окружающей среды и традиционные медицинские лабораторные тесты, модели машинного обучения пытались решать сложные задачи, которые когда-то решались человеческими врачами.
Например, прогнозирование риска определенных заболеваний, выявление генов, ответственных за распад белка, или определение конкретных генетических путей как причины определенных фенотипов - это лишь некоторые из задач, которые принимает сообщество биоинформатиков и специалистов по данным.

Самое большое препятствие, с которым такое сообщество сталкивается с первых дней точной медицины, - это то, что математики обнаружили за сто лет до этого. Монстр, называемый детерминированными системами, то есть проблемами с меньшим количеством уравнений, чем с неизвестными. Такие системы не имеют решений либо имеют бесконечное количество решений.

Нет настоящего разумного решения, чтобы держаться подальше от определенных систем.
Проще говоря, если количества уравнений недостаточно, ученые могут выбирать только между

  1. уменьшение количества неизвестных
  2. увеличение количества уравнений

В случае проблемы игнорируйте некоторые данные

Первое решение состоит в игнорировании сигналов, предоставляемых множеством разнообразных наборов данных, собранных на данный момент.
Однако в точной медицине количество переменных (неизвестных) может быть на несколько порядков больше, чем наблюдений (количество людей).
Это, очевидно, делает такой разрыв слишком глубоким. Фактически, когорты с полным профилем во всех упомянутых выше источниках данных могут составлять тысячи человек, в то время как количество неизвестных (то есть всех независимых переменных) легко достигает миллиардов.

В случае проблем соберите больше данных

Второе решение оказалось более простым и полезным в машинном обучении. Увеличение количества наблюдений за счет сбора большего количества данных всегда поможет, независимо от того, насколько сложна или проста модель.
Как следствие этого неоспоримого факта, многие консорциумы были созданы с попыткой сократить разрыв между количеством выборок и независимыми переменными. Это явно создало новые проблемы и проблемы, затрагивающие - и во многих случаях ставящие под угрозу - конфиденциальность и безопасность людей.

Один наивный способ реализовать такую ​​стратегию состоит в объединении данных в централизованное хранилище с регулируемым доступом.
Хотя эта стратегия позволила создать суперпрофили людей с их демографической информацией, финансовым статусом, деталями страхования, генетическими соединениями, поездками пациента с наркотиками за последние десять лет и т. д., она также сконцентрировала огромную силу и ресурсы в руках нескольких администраторов.
Подобные планы сбора данных были приняты во всех областях, особенно для потребительских услуг, где стало очень привлекательно собирать данные, выходящие за рамки цели предоставляемой услуги. [6,7,8]

В точной медицине […] количество переменных может быть на несколько порядков больше, чем количество наблюдений.

Конфиденциальность и точная медицина

Когда дело доходит до генетики и биологических данных, идентификация человека с высокой точностью становится тривиальной задачей. В конце концов, ДНК уникальна для каждого человека. Даже в случае работы со сводной статистикой участника исследования можно идентифицировать по другим факторам, таким как возраст, пол или ее географическое положение.

Более того, типы данных, которыми манипулируют алгоритмы машинного обучения в здравоохранении и медицине, различаются по своей природе: невозможно отказаться от нашей собственной ДНК (по крайней мере, на момент написания), в той мере, в какой это было бы на социальная сеть (при условии, что их администраторы действительно удаляют данные по запросу пользователей).

Хотя централизация данных может решить проблему для алгоритмов машинного обучения, на самом деле она создает гораздо больше проблем для пациентов. Представим себе страховую компанию, которая может связать генетический профиль, несущий мутацию, которая увеличивает риск рака груди на 80% для определенной Алисы.
Может ли такой страховщик проигнорировать эту информацию и оформить подписку? Сделал бы ипотечный провайдер то же самое?

Анонимизация данных

Когда исследователи осознали, насколько рискованно связывать генетические данные с личными данными, они обнаружили, что анонимность является жизнеспособным способом снижения таких рисков.

Идея скрыть личные данные от генетического профиля человека, казалось, сработала. Пока не было [9]

Фактически, генеалогия позволяет идентифицировать людей, которые участвовали в семейных исследованиях. Редкие записи по определенным заболеваниям также настолько хорошо изолируют профиль человека, что идентификация становится тривиальной задачей.
Более того, модели машинного обучения, обученные на сочетании генетических и личных данных, не будут работать так же хорошо с урезанной версией данных.

Напротив, анонимизация генетических данных - явный оксюморон. Причина, по которой тесты на отцовство и судебно-медицинская экспертиза являются наиболее надежными, заключается в том, что ДНК однозначно идентифицирует человека, просто сравнивая несколько маркеров запрашиваемой ДНК с базой данных последовательностей ДНК (процесс проходит под названием выравнивание последовательностей ).

Идея скрыть личные данные от генетического профиля человека, казалось, сработала. Пока этого не произошло

Попытка скрыть маркеры в генетическом профиле человека постоянно изменяет сигнал, переносимый генетическим материалом, что делает его непригодным для любого другого анализа.

Шифрование данных

Один конкретный тип шифрования, который позволяет выполнять вычисления с зашифрованными данными, называется гомоморфным шифрованием [10].

Такие схемы известны криптографам и компьютерным специалистам как очень требовательные с точки зрения вычислений, особенно для нелинейных операций, таких как умножение и деление с другими зашифрованными числами (такие схемы называются полностью гомоморфными).

Если функция, выполняемая с зашифрованными данными, так же проста, как подсчет или суммирование, простые схемы шифрования оказались возможными. Но для выполнения произвольных вычислений с умножениями и другими нелинейными алгебраическими операциями требуются более сложные схемы.

Оказывается, вычислительная сложность внезапно становится непомерно высокой, особенно для больших задач машинного обучения.
Другие формы шифрования, такие как MPC - многостороннее вычисление, менее требовательны к схемам полностью гомоморфного шифрования. Но все же на порядки медленнее, чем аналогичные операции, выполняемые с незашифрованными данными.

Обфускация данных

Одна идея, лежащая в основе обфускации данных, носит название дифференциальной конфиденциальности. Он заключается в обфускации данных путем добавления шума [11].
Когда база данных запутана с помощью дифференциальной конфиденциальности, результаты запросов, выполняемых клиентами, будут максимально точными, чтобы не раскрывать идентичность возвращенных записей.

Этот подход дает согласованные результаты для большого количества записей. Так, например, если p - это истинная доля людей с определенным атрибутом, можно будет оценить такую ​​частоту без идентификации отдельных лиц с этим атрибутом.

Легко сделать вывод, что агрегирование личных и генетических данных в базе данных, запутанной с помощью дифференциальной конфиденциальности, будет работать. Это определенно подходит для сводной статистики, хотя и с некоторыми ограничениями.
Количество возможных запросов, которые клиенты могут выполнять в такой базе данных, весьма ограничено, и их следует проверять каждый раз перед обработкой. Фактически, конкретные запросы могут раскрыть информацию, которую труднее запутать.

Вероятно, самое большое ограничение связано с самой централизацией.

Когда данные централизованы (даже в зашифрованной или запутанной форме), их владельцы теряют контроль.

Это, в свою очередь, предотвращает стимулирование владельцев данных каждый раз, когда их данные используются в исследовании.

Несмотря на многочисленные попытки снизить риски нарушения конфиденциальности частных лиц при предоставлении услуг на основе данных, реального эффективного решения пока нет.

Эффективное решение позволяет реализовать три важных факта:

  1. защищает личность людей, участвующих в исследовании
  2. обеспечивает поддержку решений, основанных на данных (возвращает диагноз заболевания или выявляет генетические соединения, ответственные за заболевание, и т. д.) и, что более важно
  3. стимулирует людей, которые делятся своими данными

С появлением технологии блокчейн и более совершенного оборудования описанная здесь проблема кажется более доступной. Несмотря на улучшения схем шифрования и протоколов MPC, все еще наблюдается огромное замедление вычислений с незашифрованными данными.

В fitchain мы считаем, что сочетание таких технологий, как гомоморфное шифрование, многосторонние вычисления, криптоэкономика и блокчейн, являются отличным началом на пути к частному машинному обучению.

"Присоединяйтесь к нам!"

Ссылки

[1] Глубокое обучение: от химиоинформатики до точной медицины Ким, И.В. & Oh, J.M. Journal of Pharmaceutical Investigation (2017) 47: 317. https://doi.org/10.1007/s40005-017-0332-x

[2] Классификация рака кожи на уровне дерматологов с использованием глубоких нейронных сетей Эстева, Андре и Купрел, Бретт и Новоа, Роберто А. и Ко, Джастин и Светтер, Сьюзан М. и Блау, Хелен М. и Трун, Себастьян - Nature 2017, том 542, 25.01.2017 / онлайн

[3] Подход машинного обучения для интеграции больших данных в точную медицину при остром миелоидном лейкозе Су-Ин Ли, Сафие Челик и др. Nature Communications Vol 9, Номер статьи: 42 (2018) https://www.nature.com/articles/s41467-017-02465-5

[4] Глубокое обучение в радиологии: обзор концепций и обзор современного состояния Мацей А. Мазуровски, Матеуш Буда, Аширбани Саха, Мустафа Р. Башир https: // arxiv .org / abs / 1802.08717

[5] На пути к автоматическому управлению легочными узлами при скрининге рака легких с помощью глубокого обучения Francesco Ciompi et al. Https://www.nature.com/articles/srep46479

[6] Дюпортэйл, Джудит. Я попросил у Tinder свои данные. Он прислал мне 800 страниц моих самых глубоких и темных секретов . e Guardian. 26 сентября 2017 г. https://www.theguardian.com/technology/2017/sep/26/tinder-personal-data-dating-app-messages-hacked-sold.

[7] Дэвис, Крис. Вставьте строку Google Privacy Row, возобновляемую после взлома термостата. SlashGear. 24 июня 2014 г. http://www.slashgear.com/nest-google-privacy-row-resumes-as-thermostat-hacked-24334930/.

[8] Колер, Карсон. Мы слышали, что социальные сети могут влиять на ваш кредитный рейтинг. Вот. ЭПенни Хоардер. 30 августа 2017 г. «https://www.thepennyhoarder.com/smart-money/ what-a ects-your-credit-score /.

[9] Эрлих Ю. Основные недостатки в «Идентификации людей путем прогнозирования признаков с использованием всего генома». bioRxiv. 2017; стр. 185330.

[10] Лифанг Чжан, Ян Чжэн и Раймо Кантоа. 2016 Обзор гомоморфного шифрования и его приложений ICST, Брюссель, Бельгия, Бельгия, 97–106.

[11] Ниссим К., Стейнке Т., Вуд А., Альтман М., Бембенек А., Бун М. и др. Дифференциальная конфиденциальность: учебник для нетехнической аудитории; 2017 г.

[12] Сяосун Ван, Ифань Пэн, Ле Лу, Чжиюн Лу, Мохаммадхади Багери и Рональд М. Саммерс. Chestx-ray8: база данных рентгеновских снимков грудной клетки в масштабе госпиталя и контрольные показатели по классификации и локализации распространенных заболеваний грудной клетки под слабым контролем; 2017 г.