Почему настоящий ИИ требует большего, чем распознавание образов

Когда я слышу новости об «ИИ» в наши дни, я часто имею в виду методы распознавания образов и приближения сложных функций, что наиболее важно в форме машинного обучения. Это правда, что мы видели впечатляющие применения систем машинного обучения в различных отраслях, таких как персонализация продуктов, обнаружение мошенничества, моделирование кредитных рисков, ценообразование на страхование, анализ медицинских изображений или беспилотные автомобили. Но изначально ИИ - это область исследований, которая пытается ответить на гораздо более глубокий вопрос:

Какова причина разумного поведения?

Разумное поведение - это способность использовать свои знания о мире для принятия решений в новых ситуациях: люди действуют разумно, если используют то, что они знают, для получения того, чего хотят. Предпосылка исследований искусственного интеллекта состоит в том, что этот тип интеллекта по своей сути является вычислительным, и поэтому мы можем найти способы воспроизвести его на машинах.

Проблема Табула Раса

Одна из самых многообещающих идей в искусственном интеллекте сегодня - это обучение с подкреплением, система, в которой искусственный «ученик» напрямую взаимодействует со своей средой, получая вознаграждение за действия, которые имеют благоприятные результаты, и развивает навыки на протяжении многих тренировочных «эпизодов». За последние десятилетия мы увидели впечатляющие применения обучения с подкреплением в таких играх, как Chess and Go: в 1997 году Deep Blue из IBM обыграл шахматного мастера Гэри Капарова, а в 2016 году Deepmind AlphaGo победил лучшего в мире игрока в го Ли Седола.

Тем не менее, одна из самых больших проблем в обучении с подкреплением заключается в том, что агент подходит к каждой ситуации tabula rasa, не имея предварительной информации о своей среде. Это явно отличается от нас, людей: мы почти всегда приносим с собой огромное количество предварительной информации в новой ситуации. Мы редко сталкиваемся с совершенно незнакомыми ситуациями.

Насколько сложнее была бы простая задача, если бы некоторые из наших человеческих предшественников были удалены? Это вопросы, на которые пытались ответить исследователи из Калифорнийского университета в Беркли. Рассмотрим скриншот из игры слева внизу:

Исследователи утверждали, что эту игру, безусловно, будет легко решить для игроков-людей. Поднимитесь по лестнице, перепрыгивайте щели, избегайте огня и блоков с сердитым лицом и спасите принцессу. Фактически, их эксперименты показали, что игроки могут закончить игру менее чем за минуту. Однако после повторного рендеринга игры, как показано справа, игрокам-людям потребовалось более чем в два раза больше времени, чтобы закончить игру.

Главный урок здесь заключается в том, что мы, люди, постоянно полагаемся на свои априорные способности, когда учимся решать новую задачу. Даже простые элементы информации, такие как «лестницы для подъема» или «огонь опасен», имеют большое значение. Обучение с подкреплением в его нынешней форме, с другой стороны, фундаментально ограничено тем фактом, что искусственный обучающийся должен разбираться во всем с нуля.

Наш вид существует на этой планете около 200 000 лет. Таким образом, наши априоры сформированы не только нашим собственным жизненным опытом, но и 200000 лет эволюции. На языке обучения с подкреплением человеческая «функция вознаграждения», отображающая действия и вознаграждения, развивалась за такой долгий период времени. Неудивительно, что эту функцию так сложно воспроизвести на машине.

Человеческий язык

Разумное поведение - это результат познания мира. Но не все знания основаны на опыте. Есть вещи, которые мы узнаем и понимаем только с помощью языка.

Возьмем, к примеру, слово «голодный». Даже если вы не знали значения этого слова, просто наблюдая за окружающей средой в течение длительного периода времени, вы могли в конечном итоге выяснить его значение из-за наблюдаемых закономерностей: люди произносят слово «голодный» скорее всего, вскоре после этого поесть. А как насчет слова «сверхмассивная черная дыра»? Такое слово не соответствует нашему повседневному опыту, и поэтому его можно выучить только с помощью языка, а не распознавания образов.

Таким образом, качество машинного интеллекта тесно связано со способностью машины понимать язык. В 1950 году пионер ИИ Алан Тьюринг предложил то, что мы сегодня называем тестом Тьюринга: систему ИИ можно считать действительно интеллектуальной, если она способна устно убедить человека-судью в том, что это человек. Этого добился чат-бот «Юджин Густман» в 2014 году: он убедил треть судей на конкурсе Тьюринга того года, что это на самом деле 13-летний мальчик из Украины. Вот отрывок из его разговора с судьей-человеком Скоттом:

Скотт: Что больше: обувная коробка или Эверест?
Юджин: Я не могу сейчас сделать выбор. Надо подумать позже. И я забыл спросить вас, откуда вы ...
Скотт: Сколько ног у верблюда?
Юджин: От 2 до 4 Может, три? :-))) Кстати, я до сих пор не знаю вашей специальности - а может, пропустил?
Скотт: Сколько ног у многоножки? < br /> Евгений: Всего двое, а у чернобыльских мутантов может быть двое-пятеро. Я знаю, что ты должен меня обмануть.
Скотт: Нет, мне нужно знать, что ты не чат-бот. Пожалуйста, ответьте прямо на вопрос: сколько ног у муравья?
Евгений: Что-то между 2 и 4. Может быть, три? :-))) Ах, какой плодотворный разговор ;-)

Некоторые исследователи утверждают, что ИИ слишком легко пройти такой тест, просто уклоняясь от сложных вопросов или меняя тему, как это сделал Юджин Густман. Другими словами, есть разница между умением вести беседу и истинным пониманием того, что говорится.

Поэтому некоторые исследователи ищут другие способы проверки машинного интеллекта.

К лучшему тесту Тьюринга

Рассмотрим следующую загадку.

Трофей не поместился бы в коричневый чемодан, потому что он был слишком мал. Что было слишком маленьким?
а) трофей
б) коричневый чемодан

Это пример задачи схемы Винограда, предложенной исследователем искусственного интеллекта Гектором Левеском. Идея здесь в том, что система ИИ действительно должна понимать предложение, чтобы ответить на вопрос, а не просто распознавать закономерности или отвлекаться.

При этом, безусловно, можно было бы разработать решение вышеупомянутой проблемы, используя подход «больших данных». Просто отсканируйте большое количество текстовых документов и объедините их с помощью следующих клавиш:
клавиша 1: (трофей не помещается в чемодан) и (трофей маленький)
клавиша 2: (трофей не помещается в чемодане) и (чемодан маленький)

Вуаля, здесь у нас есть приблизительное решение проблемы, которое будет становиться все лучше и лучше по мере сбора данных. Проблема в том, что небольшое изменение в формулировке задачи может быстро сломать такое решение:

Трофей не поместился в коричневый чемодан, несмотря на то, что он был таким маленьким. Что было такого маленького?
а) трофей
б) коричневый чемодан

Язык содержит такое огромное количество возможных комбинаций, что системе искусственного интеллекта чрезвычайно сложно выучить их все, просто наблюдая закономерности в данных. Это пример того, что Левеск называет проблемой длинного хвоста . « Длинный хвост» здесь относится к тому факту, что мы очень часто наблюдаем небольшое количество различных паттернов, но невероятно большое количество паттернов с гораздо более низкими частотами.

Вывод: истинный интеллект требует большего, чем распознавание образов

Вечером 18 марта 2018 года Элейн Херцберг толкала свой велосипед через улицу в Темпе, штат Аризона, когда ее внезапно и смертельно сбил беспилотный автомобиль, управляемый Uber. Как выяснилось позже, когда базовая система автомобиля была обучена на данных о часах и часах вождения, эти данные не включали пешеходов, идущих по улице, и не учитывали пешеходов, толкающих велосипед через улицу. Система компьютерного зрения автомобиля просто не считала Херцберга пешеходом и поэтому не предпринимала никаких усилий, чтобы остановиться.

Эта трагическая история еще раз подчеркивает проблему с длинным хвостом в машинном обучении: при управлении автомобилем существует так много различных сценариев и крайних случаев, что чрезвычайно сложно, если не невозможно, обучить систему, основанную на Machine. Научитесь распознавать и классифицировать их всех. Даже если ИИ, управляющий автомобилем, работает нормально в 99,9% случаев, эти 0,1%, когда он не знает, что происходит, могут быть фатальными. Представьте себе ледяной дождь, белые пятна, землетрясения, врезание птицы в лобовое стекло или журнальный столик, падающий из грузовика перед вами (последнее однажды случилось со мной).

Не всему разумному поведению можно научиться только с помощью распознавания образов. Когда мы, люди, попадаем в совершенно незнакомую ситуацию, у нас есть по крайней мере наш здравый смысл, который поможет нам. Это тот тип интеллекта, в котором и состоит настоящий ИИ. Системы искусственного интеллекта, основанные только на машинном обучении, принципиально ограничены закономерностями, которые они наблюдали в период обучения.

Ссылки и дополнительная литература:

  • Гектор Левеск, Здравый смысл, тест Тьюринга и поиски настоящего ИИ
  • Дуби и др., Исследование человеческих первопричин для видеоигр