Модели машинного обучения, обученные на данных с торговых площадок на основе блокчейнов, могут создать самый мощный в мире искусственный интеллект. Они сочетают в себе два мощных примитива: частное машинное обучение, которое позволяет проводить обучение на конфиденциальных личных данных, не раскрывая их, и стимулы на основе блокчейнов, которые позволяют этим системам привлекать лучшие данные и модели, чтобы сделать их умнее. В результате появляются открытые торговые площадки, где каждый может продавать свои данные и конфиденциально, в то время как разработчики могут использовать стимулы для привлечения к ним лучших данных для своих алгоритмов.

Создание этих систем является сложной задачей, и необходимые строительные блоки все еще создаются, но простые начальные версии выглядят так, как будто они начинают становиться возможными. Я верю, что эти торговые площадки переведут нас из нынешней эры монополии данных Web 2.0 в эру открытой конкуренции за данные и алгоритмы Web 3.0, где оба они напрямую монетизируются.

Источник

В основу этой идеи легла беседа с Ричардом из Numerai в 2015 году. Numerai - это хедж-фонд, который отправляет зашифрованные рыночные данные любому специалисту по данным, который хочет участвовать в моделировании фондового рынка. Numerai объединяет лучшие представленные модели в метамодель, торгует этой метамоделью и платит специалистам по данным, чьи модели работают хорошо.

Соревнование специалистов по анализу данных казалось мощной идеей. Это заставило меня задуматься: можно ли создать полностью децентрализованную версию этой системы, которую можно было бы применить к любой проблеме? Я считаю, что да.

Строительство

В качестве примера давайте попробуем создать полностью децентрализованную систему для торговли криптовалютами на децентрализованных биржах. Это одна из многих возможных конструкций:

Данные Поставщики данных размещают данные и делают их доступными для разработчиков моделей.

Построение моделей Разработчики моделей выбирают, какие данные использовать, и создают модели. Обучение выполняется с использованием безопасного метода вычислений, который позволяет обучать модели без раскрытия базовых данных. Ставятся и модели.

Построение метамодели. Метамодель создается на основе алгоритма, который учитывает разбивку каждой модели.

Создание метамодели необязательно - вы можете представить модели, которые используются, без объединения в метамодель.

Использование метамодели. Смарт-контракт использует метамодель и торгует программно через децентрализованные механизмы обмена в цепочке.

Распределение прибылей / убытков По прошествии некоторого периода времени торговля приносит прибыль или убыток. Эта прибыль или убыток делятся между участниками метамодели в зависимости от того, насколько они ее сделали. Модели, которые внесли отрицательный вклад, забирают часть или все вложенные средства. Затем модели поворачиваются и выполняют аналогичные распределения / сокращения ставок для своих поставщиков данных.

Проверяемое вычисление. Вычисление для каждого шага либо выполняется централизованно, но поддается проверке и вызову с помощью проверочной игры, такой как Truebit, либо децентрализовано с использованием безопасных многосторонних вычислений.

Хостинг. Данные и модели размещаются либо в IPFS, либо на узлах в защищенной многосторонней вычислительной сети, поскольку хранение в цепочке было бы слишком дорого.

Что делает эту систему мощной?

Стимулы для привлечения лучших данных во всем мире Стимулы для привлечения данных - самая мощная часть системы, поскольку данные, как правило, являются ограничивающим фактором для большинства машинного обучения. Точно так же, как Биткойн создал возникающую систему с наибольшей вычислительной мощностью в мире за счет открытых стимулов, правильно спроектированная структура стимулов для данных заставит ваше приложение получать лучшие в мире данные для вашего приложения. И почти невозможно отключить систему, в которой данные поступают из тысяч или миллионов источников.

Конкуренция между алгоритмами Создает открытую конкуренцию между моделями / алгоритмами там, где раньше ее не было. Представьте себе децентрализованный Facebook с тысячами конкурирующих алгоритмов новостной ленты.

Прозрачность вознаграждений. Поставщики данных и моделей могут видеть, что они получают справедливую стоимость представленных ими данных, поскольку все вычисления поддаются проверке, что повышает их вероятность участия.

Автоматизация. Выполнение действий в цепочке и создание стоимости непосредственно в токенах создает автоматизированный и ненадежный замкнутый цикл.

Сетевые эффекты. Многосторонние сетевые эффекты от пользователей, поставщиков данных и специалистов по обработке данных делают систему самоподкрепляющей. Чем лучше она работает, тем больше капитала она привлекает, что означает больше потенциальных выплат, что привлекает больше поставщиков данных и специалистов по данным, которые делают систему умнее, что, в свою очередь, привлекает больше капитала, и обратно.

Конфиденциальность

Помимо вышеперечисленного, важной особенностью является конфиденциальность. Это позволяет: 1) людям отправлять данные, которые в противном случае были бы слишком частными, и 2) предотвращает утечку экономической ценности данных и моделей. Если оставить незашифрованные в открытом доступе, данные и модели будут бесплатно скопированы и использоваться другими лицами, которые не участвовали в какой-либо работе (проблема« безбилетника »).

Частичное решение проблемы безбилетника - продажа данных в частном порядке. Даже если покупатели решат перепродать или опубликовать данные, их ценность со временем снижается. Однако такой подход ограничивает нас краткосрочными вариантами использования и по-прежнему создает типичные проблемы с конфиденциальностью. В результате более сложный, но эффективный подход заключается в использовании формы безопасных вычислений.

Безопасное вычисление

Методы безопасных вычислений позволяют моделям обучаться на данных, не раскрывая сами данные. Сегодня используются и исследуются 3 основные формы безопасных вычислений: гомоморфное шифрование (HE), безопасное многостороннее вычисление (MPC) и доказательства с нулевым разглашением (ZKP). Многосторонние вычисления чаще всего используются для частного машинного обучения на данный момент, поскольку гомоморфное шифрование имеет тенденцию быть слишком медленным, и неясно, как применить ZKP к машинному обучению. Методы безопасных вычислений находятся на переднем крае исследований в области компьютерных наук. Они часто на порядки медленнее, чем обычные вычисления, и представляют собой основное узкое место в системе, но в последние годы они улучшаются.

Лучшая рекомендательная система

Чтобы проиллюстрировать потенциал частного машинного обучения, представьте себе приложение под названием «Ultimate Recommender System». Он отслеживает все, что вы делаете на своих устройствах: историю просмотров, все, что вы делаете в своих приложениях, изображения на телефоне, данные о местоположении, историю расходов, носимые датчики, текстовые сообщения, камеры в вашем доме, камеру на ваших будущих очках с дополненной реальностью. . Затем он дает вам рекомендации: следующий веб-сайт, который вы должны посетить, статья, которую нужно прочитать, песня, которую нужно послушать, или продукт, который нужно купить.

Эта рекомендательная система была бы чрезвычайно действенной. Больше, чем любой из существующих хранилищ данных Google, Facebook или других, потому что он имеет максимально долгосрочное представление о вас и может учиться на данных, которые в противном случае были бы слишком частными, чтобы рассмотрите возможность совместного использования. Подобно предыдущему примеру системы торговли криптовалютой, он будет работать, позволяя рынку моделей, ориентированных на разные области (например, рекомендации веб-сайтов, музыку), конкурировать за доступ к вашим зашифрованным данным и рекомендовать вам что-то и, возможно, даже платить вам. для предоставления ваших данных или вашего внимания к сгенерированным рекомендациям.

Федеративное обучение Google и дифференцированная конфиденциальность Apple - один из шагов в этом направлении частного машинного обучения, но по-прежнему требуют доверия, не позволяют пользователям напрямую проверять свою безопасность и хранить данные изолированными.

Текущие подходы

Очень рано. В немногих группах есть что-то работающее, и большинство пытается откусить по кусочку за раз.

Простая конструкция из Algorithmia Research назначает вознаграждение за модель, точность которой превышает определенный порог тестирования на истории:

В настоящее время Numerai делает три шага дальше: он использует зашифрованные данные (хотя и не полностью гомоморфно), объединяет краудсорсинговые модели в метамодель и вознаграждает модели, основанные на будущих показателях (в данном случае одна неделя биржевой торговли), а не на исторических данных. собственный токен Ethereum под названием Numeraire. Специалисты по анализу данных должны делать ставку на Numeraire как на скин в игре, стимулируя производительность в зависимости от того, что произойдет (будущая производительность), а не того, что произошло (результаты тестирования на истории). Однако в настоящее время он централизованно распределяет данные, ограничивая то, что кажется наиболее важным ингредиентом.

Еще никто не создал успешный рынок данных на основе блокчейна. Океан - это ранняя попытка его очертить.

Третьи начинают с создания безопасных вычислительных сетей. Openmined создает многостороннюю вычислительную сеть для обучения моделей машинного обучения поверх Unity, которая может работать на любом устройстве, включая игровые консоли (аналогично Folding at Home), а затем расширяется до безопасного MPC. Подобный такт имеет Enigma.

Замечательным конечным состоянием были бы метамодели, находящиеся в совместном владении, которые дают поставщикам данных и создателям моделей право собственности пропорционально тому, насколько они их сделали умнее. Модели будут токенизированы, со временем могут приносить дивиденды и потенциально даже управляться теми, кто их обучает. Что-то вроде коллективного разума, принадлежащего обеим сторонам. Оригинальное видео Openmined - самая близкая конструкция, которую я когда-либо видел.

Какие подходы сработают в первую очередь?

Не стану утверждать, что знаю, какая точная конструкция лучше, но у меня есть некоторые идеи.

Один из тезисов, который я использую для оценки идей блокчейнов, заключается в следующем: в диапазоне от физически нативного до цифрового и нативного блокчейна, чем больше нативный блокчейн, тем лучше. Чем меньше нативный блокчейн, тем больше доверенных третьих сторон вводится, что увеличивает сложность и снижает простоту использования в качестве строительного блока с другими системами.

Здесь, я думаю, это означает, что система с большей вероятностью будет работать, если созданная стоимость поддается количественной оценке - в идеале непосредственно в форме денег, а еще лучше - токенов. Это позволяет создать чистую замкнутую систему. Сравните предыдущий пример системы торговли криптовалютой с примером, который выявляет опухоли с помощью рентгеновских лучей. Во втором случае вам нужно будет убедить страховую компанию в ценности рентгеновской модели, обсудить ее ценность, а затем доверить небольшую группу физически присутствующих людей для проверки успешности / неудачи модели.

Нельзя сказать, что более очевидная положительная сумма для использования обществом, которые являются цифровыми, не появятся. Рекомендательные системы, подобные ранее упомянутой, могут быть чрезвычайно полезны. Если они связаны с рынками курирования, это еще один случай, когда модель может программно действовать в цепочке, а вознаграждение системы - токены (в данном случае с рынка курирования), снова создавая чистый замкнутый цикл. Сейчас это кажется неясным, но я ожидаю, что сфера задач, связанных с блокчейном, со временем расширится.

Подразумеваемое

Во-первых, децентрализованные рынки машинного обучения могут разрушить монополию на данные нынешних технологических гигантов. Они стандартизируют и превращают в товар главный источник создания ценности в Интернете за последние 20 лет: собственные сети передачи данных и окружающие их сильные сетевые эффекты. В результате создание ценности перемещается вверх по стеку от данных к алгоритмам.

Иными словами, они создают прямую бизнес-модель для ИИ. И кормление, и дрессировка.

Во-вторых, они создают самые мощные в мире системы искусственного интеллекта, привлекая к ним лучшие данные и модели с помощью прямых экономических стимулов. Их сила увеличивается за счет многосторонних сетевых эффектов. По мере того, как монополии на сети передачи данных эпохи Web 2.0 становятся товаром, они кажутся хорошим кандидатом для следующей точки повторной агрегации. Вероятно, до этого осталось несколько лет, но это кажется правильным с точки зрения направления.

В-третьих, как показывает пример рекомендательной системы, поиск оказывается инвертированным. Вместо того, чтобы люди ищут продукты, продукты ищут и конкурируют за людей (кредит Брэду за эту фреймворк). Каждый может иметь рынки персонального курирования, где рекомендательные системы соревнуются за размещение наиболее релевантного контента в своей ленте, а релевантность определяется индивидуально.

В-четвертых, они позволяют нам получать те же преимущества мощных сервисов на основе машинного обучения, к которым мы привыкли, от таких компаний, как Google и Facebook, не передавая свои данные.

В-пятых, машинное обучение может развиваться быстрее, поскольку любой инженер может получить доступ к открытому рынку данных, а не только небольшая группа инженеров в крупных компаниях Web 2.0.

Вызовы

Прежде всего, безопасные методы вычислений в настоящее время очень медленные, а машинное обучение уже требует больших вычислительных ресурсов. С другой стороны, интерес к безопасным методам вычислений начал расти, а производительность растет. Я видел новаторские подходы со значительным улучшением производительности HE, MPC и ZKP за последние 6 месяцев.

Вычислить значение, которое конкретный набор данных или модель придает метамодели, сложно.

Очистка и форматирование краудсорсинговых данных - сложная задача. Мы, вероятно, увидим сочетание инструментов, стандартизации и малого бизнеса, чтобы решить эту проблему.

Наконец, по иронии судьбы, бизнес-модель для создания обобщенной конструкции такого рода системы менее ясна, чем создание ее индивидуального экземпляра. Похоже, это верно для многих новых криптопримитивов, включая рынки курирования.

Заключение

Сочетание частного машинного обучения со стимулами блокчейна может создать самый сильный машинный интеллект в самых разных приложениях. Существуют серьезные технические проблемы, которые со временем можно решить. Их долгосрочный потенциал огромен и является долгожданным отходом от нынешнего контроля крупных интернет-компаний над данными. Они также немного пугающие - они запускают себя в жизнь, самоусиливаются, потребляют личные данные, и их практически невозможно отключить, что заставляет меня задаться вопросом, вызывает ли их создание более мощного Молоха, чем когда-либо прежде. В любом случае, это еще один пример того, как криптовалюты будут медленно, а затем внезапно проникать в каждую отрасль.

Спасибо Эндрю Траск, Ричард Крейб, Трент МакКонаги, Брэд Бернхэм, Джоэл Монегро, Саймон де ла Рувьер, Гэвин Ума, Мортен Дал, Джонатан Либов. », Мэтт Хуанг , Лаура Беренс Ву , Наваль Равикант и Дэниел Гросс за беседы, которые способствовали этому сообщению.