Недавно я наткнулся на пост DKB IO под названием Поиск Google умирает в Hacker News. Это определенно хорошая пища для размышлений, и она действительно решает некоторые проблемы, которые затрудняют поиск. В частности, в сообщении рассказывается о том, как люди часто ищут что-то в Google, добавляя reddit в конец своих поисковых запросов. Они также могут добавить amazon, stackoverflow или stackexchange в зависимости от того, что они ищут.

Google как поиск по форуму

Если мы копнем немного глубже, станет понятно, почему люди это делают. Есть по существу три категории поисковых запросов.

  • Факты. Например, "температура на улице", "результаты НФЛ", "рост Майкла Джордана" и т. д. Другими словами, запросы, в которых четкое соотношение запроса и ответа 1:1. Google великолепен в этом.

  • Объективная информация: например, "Джордж Вашингтон", "Нельсон Мандела", "Семилетняя война" и т. д. Это запросы, к которым прикреплена объективная информация. Обычно для этих типов запросов ссылка на Википедию является хорошей отправной точкой, и пользователю, возможно, придется перейти к внешним ссылкам внутри, чтобы получить более подробную информацию. Во многих случаях Google также представляет другую информацию об этих запросах в других результатах поиска, но это результаты с «низким доверием» или худшие версии Википедии, такие как Britannica. У них много рекламы, они, возможно, не поддерживаются, и их достоверность сомнительна.

  • Субъективная информация: примеры: "Какой лучший язык программирования", "как поступить в Гарвард" и т. д. Это запросы, с которыми Google справляется еще хуже. И это те запросы, для которых люди часто добавляют «reddit». Они делают это, потому что это приведет к месту, где обсуждается тема, предоставляется несколько входных данных и есть обратная связь по этим входным данным, чтобы вы могли оценить всю информацию, прежде чем принимать решение.

В конечном счете, если по вопросу нет авторитетного источника, людям нужен демократический ответ, отсюда и желание поискать на форуме. Если фактического результата нет, они хотят увидеть обсуждение с участием реальных людей, чтобы они могли сами взвесить многие стороны спора. Google сильно оптимизирован для первой категории запросов и частично оптимизирован для второй категории запросов. Третий набор обычно показывает ненадежные результаты, такие как случайные сообщения в блогах или сайты со спамом SEO.

Если на Reddit, StackOverflow и других форумах есть информация, которую люди действительно ищут, почему люди до сих пор используют Google? В отличие от Google, все эти разрозненные сайты-форумы имеют слабый поиск. Неудивительно, что у Google лучший в своем классе поиск.

Демократизированная информация

Неявно, люди ищут мнения экспертов по темам. Они хотят узнать мнение кого-то, кто уже изучил это, и позволить другим людям высказать свои мысли. Конечно, они могут задать свой вопрос на форуме, но для ответа на вопрос потребуется время (если он даже популярен). Поиск по форуму также позволяет найти длинный хвост информации. Информация, которая является достаточно нишевой, чтобы Google не мог предоставить что-либо полезное или заслуживающее доверия. Например, если вы ищете «Guliga daiva» после просмотра Kantara (чрезвычайно нишевая тема), вы получите кучу поверхностных новостных статей и постов в блогах. Нет ничего авторитарного или демократического.

В последнее время были достигнуты большие успехи в больших языковых моделях. ChatGPT стал вирусным. Если людям действительно нужно мнение экспертов по темам, почему мы не можем создать ChatGPT для всех «экспертов», которым мы доверяем? Например, если вы хотите узнать, что Махатма Ганди думал бы о беспорядках «антифа», мы могли бы точно настроить LLM в стиле ChatGPT на произведения и высказывания Ганди и создать что-то правдоподобное.

Тем не менее, основная проблема, которую мы в настоящее время наблюдаем с ChatGPT и другими, заключается в том, что они борются с появлением реальных фактов. Например, если вы никогда не читали книгу Уильяма Фолкнера Авессалом, Авессалом!, вы не сможете сказать, что, хотя синопсис романа ChatGPT звучит правдоподобно, на самом деле он неточен. У Томаса Сатпена есть сын по имени Генри, но Квентин ему не внук. Он рассказчик истории и принадлежит к семье Компсонов.

Объяснимые ИИ

Решение проблемы точности является основной проблемой, которая мешает нам использовать LLM для поиска информации. Некоторые модели, такие как GopherCite, WebGPT и LaMDA, пытаются сделать это, по сути, составляя ответы, дополняя ответ результатами поисковой системы. Однако, если люди не доверяют многим результатам поиска по большинству самоуверенных тем, то использование результатов поиска для постфактум обоснования ответов не придаст пользователям никакой уверенности.

Вместо этого мы действительно хотим иметь объяснимый ИИ, который может указать, как он получил ответ, используя ресурсы, которые использовались для его обучения. Это поразило бы сразу нескольких зайцев. Это дало бы пользователям уверенность в том, что обучение использовалось с данными, которые не нарушают чью-либо конфиденциальность, что данные получены из надежных источников и что ответ был сформирован разумно. Очевидно, что решить эту проблему чрезвычайно сложно, но для нас абсолютно необходимо иметь возможность широко использовать LLM.

Как поясняется в Обзоре состояния объяснимого ИИ для обработки естественного языка (arXiv:2010.00711)», мы ищем глобальную самообъясняющую модель. Многие объяснимые языковые модели являются локальными, то есть они объясняют, какие части вашего ввода были наиболее важными. Что нас интересует, так это глобальная объяснимость, что означает, что нам нужно объяснение вывода независимо от ввода. Нам нужно объяснение, основанное на том, что на самом деле узнала модель.

Одним из интересных подходов является REALM, который обучает модель поиска знаний, которая находится перед моделью замаскированного языка. Модель извлечения знаний предоставляет документы, которые можно использовать для заполнения замаскированных токенов в ответе языковой модели. Поскольку модель извлечения знаний — это, по сути, функция, которая по заданному запросу и документу генерирует оценку релевантности, мы можем использовать эту модель для интерпретации того, какие документы использовались для информирования о полученном вами ответе. Разбивка документов на абзацы или разделы также может помочь нам оценить релевантность каждой части документа.

Прощальные мысли

Независимо от того, насколько хорошо LLM может сформулировать ответы или насколько хорошо он может объяснить свои ответы, многие люди всегда предпочитают видеть мысли и мнения реальных людей. Но LLM могут помочь вам обобщить длинные темы и указать наиболее важные комментарии в теме.

Существует также длинный шлейф информации, скрытый в источниках, которые чрезвычайно трудно найти в обычных результатах поиска Google. Часто, если у вас есть непонятная тема, вы можете попробовать поискать информацию в Google Книгах. Например, мы могли бы попробовать поискать Guliga daiva:

Эти поиски часто выявляют некоторые высококачественные источники, но вам, возможно, придется довольно много читать, чтобы получить информацию, которую вы ищете. То же самое верно и для научных тем, где соответствующие ответы есть только в плотных научных работах. Объясняющий LLM может быть использован для представления пользователю наиболее актуальных абзацев книг, статей и длинных веток форума, а также простого для понимания обобщения. Короче говоря, LLM не заменят поиск, но помогут создать более полезный интерфейс для поиска.

Первоначально опубликовано на https://pradiothkukkapalli.com 22 декабря 2022 г.