некоторые идеи и направления того, как измерять рейтинг, AP, MAP, отзыв для оценки IR

У меня есть вопрос о том, как оценить результат извлечения информации, хороший или нет, например, вычислить

соответствующий ранг документа, отзыв, точность, AP, MAP .....

в настоящее время система может извлекать документ из базы данных, как только пользователи вводят запрос. Проблема в том, что я не знаю, как сделать оценку.

У меня есть набор общедоступных данных, например "коллекция Крэнфилда" ссылка на набор данных содержит

1.документ 2.запрос 3.оценка релевантности

             DOCS   QRYS   SIZE*
Cranfield   1,400    225    1.6

Могу ли я узнать, как использовать оценку с помощью «коллекции Крэнфилда» для расчета соответствующего рейтинга документа, отзыва, точности, AP, MAP .....

Мне могут понадобиться некоторые идеи и направления. не спрашивая, как кодировать программу.


person dd90p    schedule 25.11.2016    source источник


Ответы (2)


Рейтинг документов

Okapi BM25 (BM расшифровывается как Best Matching) – это функция ранжирования, используемая поисковыми системами для ранжирования совпадающих документов в соответствии с их релевантностью заданному поисковому запросу. Он основан на вероятностной структуре поиска. BM25 — это мешок слов, который ранжирует набор документов на основе на терминах запроса, появляющихся в каждом документе, независимо от взаимосвязи между терминами запроса в документе (например, их относительной близости). Дополнительные сведения см. на странице Википедии.

Точность и полнота

Меры точности «из всех документов, которые мы получили как релевантные, сколько действительно актуальны?».

Precision = No. of relevant documents retrieved / No. of total documents retrieved

Вспомните меры «Сколько из всех фактических релевантных документов мы получили как релевантные?».

Recall = No. of relevant documents retrieved / No. of total relevant documents

Предположим, что когда запрос «q» отправляется в информационно-поисковую систему (например, поисковую систему), имеющую 100 релевантных документов относительно. запрос "q", система извлекает 68 документов из общей коллекции в 600 документов. Из 68 найденных документов релевантными оказались 40 документов. Итак, в этом случае:

Precision = 40 / 68 = 58.8% и Recall = 40 / 100 = 40%

F-Score / F-measure — это средневзвешенное гармоническое значение точности и полноты. Традиционная F-мера или сбалансированная F-оценка:

F-Score = 2 * Precision * Recall / Precision + Recall

Средняя точность

Вы можете думать об этом так: вы вводите что-то в Google, и он показывает вам 10 результатов. Наверное, было бы лучше, если бы все они были релевантными. Если релевантны только некоторые из них, скажем, пять из них, то гораздо лучше, если релевантные будут показаны первыми. Было бы плохо, если бы первые пять не имели значения, а хорошие начинались только с шестого, не так ли? Оценка AP отражает это.

Приведем пример ниже:

введите описание изображения здесь

AvgPrec из двух рейтингов:

Рейтинг №1: (1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6) / 6 = 0.78

Рейтинг № 2: (0.5 + 0.4 + 0.5 + 0.57 + 0.56 + 0.6) / 6 = 0.52

Средняя средняя точность (MAP)

MAP — это среднее значение средней точности по нескольким запросам/рейтингам. Даю пример для иллюстрации.

введите описание изображения здесь

Средняя средняя точность для двух запросов:

Для запроса 1 AvgPrec: (1.0+0.67+0.5+0.44+0.5) / 5 = 0.62

Для запроса 2 AvgPrec: (0.5+0.4+0.43) / 3 = 0.44

Итак, КАРТА = (0.62 + 0.44) / 2 = 0.53

Иногда люди используют precision@k, recall@k в качестве показателя эффективности поисковой системы. Вы должны построить систему поиска для таких тестов. Если вы хотите написать свою программу на Java, вам следует рассмотреть Apache Lucene< /a> для создания вашего индекса.

person Wasi Ahmad    schedule 26.11.2016
comment
Могу я задать вам один вопрос о том, как ранжировать балл BM25. Используя метод TF-IDF, мы вычисляем IT-IDF документа и запроса и сравниваем косинусное расстояние для ранжирования документа. Но как сделать рейтинг для БМ25?? for example, I got the BM25 score for one document ( the scores is_____: [0, -0.00993319335279988, 0.1712756703100223, -0.10833186147108911, -0.08897894166003212, 0.13457374095787467, 1.642922484773619, 0.15791141726235663, 1.0831388761516576] ) How to use the BM25 score to do the ranking ? ? - person dd90p; 28.11.2016
comment
ранжирование выполняется обычным образом, то есть документы с более высоким баллом будут ранжироваться выше, и наоборот. tf-idf полезен для сходства, но BM25 полезен для оценки соответствия документов между запросом и документами. см. страницу Википедии BM25, чтобы узнать больше об этой функции. BM25 учитывает многое при вычислении сходства. - person Wasi Ahmad; 28.11.2016
comment
хорошо, спасибо большое. Я понимаю идеи. после процесса ранжирования, как определить, какой документ релевантен, а какой не имеет отношения к запросу. нам нужно сделать предположение, что первые 3 в ранжированном списке релевантны, а остальные не имеют отношения??? Для того, чтобы рассчитать отзыв и точность. Нам нужно знать номер релевантного документа и нерелевантного документа. Так как определить?? - person dd90p; 28.11.2016

расчет точности и отзыва прост; Точность — это доля релевантных извлеченных документов по отношению ко всем извлеченным вами документам. Отзыв — это доля релевантных документов, извлеченных из всех релевантных документов.

Например, если у запроса есть 20 релевантных документов, и вы извлекли 25 документов, из которых только 14 имеют отношение к запросу, то: Точность = 14/25 и Отзыв = 14/20.

Но точность и полнота должны сочетаться таким образом, что этот способ называется F-мерой и является гармоническим средним значением точности и полноты: F-Score = 2*Precision*Recall/Precision+Recall.

AP сообщает вам соотношение релевантных документов и нерелевантных документов в определенном количестве извлеченных документов. Предположим, вы извлекли 25 документов, и из первых 10 документов извлечено 8 релевантных документов. Итак, АР(10) = 8/10;

Если вы посчитаете и прибавите AP для 1 к N, а затем разделите его на N, вы только что вычислили MAP. Где N — общее количество соответствующих документов в наборе данных за год.

person Alikbar    schedule 26.11.2016
comment
В моем случае я не знаю, сколько документов имеет отношение к запросу. Документы, которые программа вернула, набор данных, который я использовал, не помечен тем, какой документ относится к какому запросу. Итак, как измерить релевантность между запросом и документом?? - person dd90p; 27.11.2016
comment
Конечно, они помечены тегами релевантности запроса-документа. Просто посмотрите на свой набор данных еще раз и прочитайте файл readme. Это важная его часть: qrels находятся в трех столбцах: первый — это номер запроса, второй — номер соответствующего документа, а третий — код релевантности. Коды определены в файле readme. - person Alikbar; 27.11.2016
comment
Как вы упомянули, у cranqrel есть qrels, номер документа, релевантность. Однако не все документы помечены в файле cranqrel. например, в наборе данных крана всего 1000 документов и 100 qrel. для qrel id=74 только документ 576 656 575 317 574 578 541 помечен релевантностью. В случае, если моя поисковая система нашла документ 222 333 444 , но у cranqrel не было релевантности. Как сделать оценку?? - person dd90p; 28.11.2016
comment
Это проблема вашего алгоритма. В том случае, как вы сказали, точность, отзыв и т. д. равны нулю. Вы не получили ни одного соответствующего документа, все ваши показатели оценки будут равны нулю. - person Alikbar; 28.11.2016
comment
что я имею в виду, так это то, что cranqrel не помечает весь документ. Итак, если полученный документ не находится в cranqrel, как определить релевантность?? мы не можем сказать, что документ нерелевантный, потому что у cranqrel нет релевантности для этого документа. - person dd90p; 28.11.2016
comment
Как сказано в файле readme, существует пять типов отношений между запросом и документом. Число 5 показывает, что документ и запрос не релевантны, и в cranqrel эти отношения не учитываются. Таким образом, вы должны предположить, что любой документ и запрос, отношение которых не включено в cranqrel, не имеют значения. - person Alikbar; 28.11.2016
comment
можно еще один вопрос по релевантности? в cranqrel есть некоторые оценки, установленные как -1, поскольку документ содержит -1, должен ли он относиться к релевантным или нерелевантным? ридми объясняет только оценку от 1 до 5, он никогда не упоминает -1 - person dd90p; 28.11.2016