некоторые идеи и направления того, как измерять рейтинг, AP, MAP, отзыв для оценки IR

У меня есть вопрос о том, как оценить результат извлечения информации, хороший или нет, например, вычислить

соответствующий ранг документа, отзыв, точность, AP, MAP .....

в настоящее время система может извлекать документ из базы данных, как только пользователи вводят запрос. Проблема в том, что я не знаю, как сделать оценку.

У меня есть набор общедоступных данных, например "коллекция Крэнфилда" ссылка на набор данных содержит

1.документ 2.запрос 3.оценка релевантности

             DOCS   QRYS   SIZE*
Cranfield   1,400    225    1.6

Могу ли я узнать, как использовать оценку с помощью «коллекции Крэнфилда» для расчета соответствующего рейтинга документа, отзыва, точности, AP, MAP .....

Мне могут понадобиться некоторые идеи и направления. не спрашивая, как кодировать программу.

information-extraction evaluation information-retrieval

dd90p 25.11.2016 источник

Ответы (2)

arrow_upward
6
arrow_downward

Рейтинг документов

Okapi BM25 (BM расшифровывается как Best Matching) – это функция ранжирования, используемая поисковыми системами для ранжирования совпадающих документов в соответствии с их релевантностью заданному поисковому запросу. Он основан на вероятностной структуре поиска. BM25 — это мешок слов, который ранжирует набор документов на основе на терминах запроса, появляющихся в каждом документе, независимо от взаимосвязи между терминами запроса в документе (например, их относительной близости). Дополнительные сведения см. на странице Википедии.

Точность и полнота

Меры точности «из всех документов, которые мы получили как релевантные, сколько действительно актуальны?».

Precision = No. of relevant documents retrieved / No. of total documents retrieved

Вспомните меры «Сколько из всех фактических релевантных документов мы получили как релевантные?».

Recall = No. of relevant documents retrieved / No. of total relevant documents

Предположим, что когда запрос «q» отправляется в информационно-поисковую систему (например, поисковую систему), имеющую 100 релевантных документов относительно. запрос "q", система извлекает 68 документов из общей коллекции в 600 документов. Из 68 найденных документов релевантными оказались 40 документов. Итак, в этом случае:

Precision = 40 / 68 = 58.8% и Recall = 40 / 100 = 40%

F-Score / F-measure — это средневзвешенное гармоническое значение точности и полноты. Традиционная F-мера или сбалансированная F-оценка:

F-Score = 2 * Precision * Recall / Precision + Recall

Средняя точность

Вы можете думать об этом так: вы вводите что-то в Google, и он показывает вам 10 результатов. Наверное, было бы лучше, если бы все они были релевантными. Если релевантны только некоторые из них, скажем, пять из них, то гораздо лучше, если релевантные будут показаны первыми. Было бы плохо, если бы первые пять не имели значения, а хорошие начинались только с шестого, не так ли? Оценка AP отражает это.

Приведем пример ниже:

AvgPrec из двух рейтингов:

Рейтинг №1: (1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6) / 6 = 0.78

Рейтинг № 2: (0.5 + 0.4 + 0.5 + 0.57 + 0.56 + 0.6) / 6 = 0.52

Средняя средняя точность (MAP)

MAP — это среднее значение средней точности по нескольким запросам/рейтингам. Даю пример для иллюстрации.

Средняя средняя точность для двух запросов:

Для запроса 1 AvgPrec: (1.0+0.67+0.5+0.44+0.5) / 5 = 0.62

Для запроса 2 AvgPrec: (0.5+0.4+0.43) / 3 = 0.44

Итак, КАРТА = (0.62 + 0.44) / 2 = 0.53

Иногда люди используют precision@k, recall@k в качестве показателя эффективности поисковой системы. Вы должны построить систему поиска для таких тестов. Если вы хотите написать свою программу на Java, вам следует рассмотреть Apache Lucene< /a> для создания вашего индекса.

Wasi Ahmad 26.11.2016

comment

Могу я задать вам один вопрос о том, как ранжировать балл BM25. Используя метод TF-IDF, мы вычисляем IT-IDF документа и запроса и сравниваем косинусное расстояние для ранжирования документа. Но как сделать рейтинг для БМ25?? for example, I got the BM25 score for one document ( the scores is_____: [0, -0.00993319335279988, 0.1712756703100223, -0.10833186147108911, -0.08897894166003212, 0.13457374095787467, 1.642922484773619, 0.15791141726235663, 1.0831388761516576] ) How to use the BM25 score to do the ranking ? ? - dd90p; 28.11.2016

comment

ранжирование выполняется обычным образом, то есть документы с более высоким баллом будут ранжироваться выше, и наоборот. tf-idf полезен для сходства, но BM25 полезен для оценки соответствия документов между запросом и документами. см. страницу Википедии BM25, чтобы узнать больше об этой функции. BM25 учитывает многое при вычислении сходства. - Wasi Ahmad; 28.11.2016

comment

хорошо, спасибо большое. Я понимаю идеи. после процесса ранжирования, как определить, какой документ релевантен, а какой не имеет отношения к запросу. нам нужно сделать предположение, что первые 3 в ранжированном списке релевантны, а остальные не имеют отношения??? Для того, чтобы рассчитать отзыв и точность. Нам нужно знать номер релевантного документа и нерелевантного документа. Так как определить?? - dd90p; 28.11.2016

comment

лучший способ поблагодарить - принять ответ :) Кстати, вы задали очень хороший вопрос. вам действительно нужен такой набор данных для этого. Ранее я использовал набор данных AOL search query log для своего исследовательского эксперимента. Поскольку вы новичок, я рекомендую вам изучить эту задачу с заданием (cs.virginia.edu/~hw5x/Course/IR2015/_site/mps/2015/11/12/mp3). Я решил это, когда проходил этот курс, и есть небольшой набор данных для эксперимента. Это поможет вам понять соответствующие концепции. - Wasi Ahmad; 28.11.2016

arrow_upward
1
arrow_downward

расчет точности и отзыва прост; Точность — это доля релевантных извлеченных документов по отношению ко всем извлеченным вами документам. Отзыв — это доля релевантных документов, извлеченных из всех релевантных документов.

Например, если у запроса есть 20 релевантных документов, и вы извлекли 25 документов, из которых только 14 имеют отношение к запросу, то: Точность = 14/25 и Отзыв = 14/20.

Но точность и полнота должны сочетаться таким образом, что этот способ называется F-мерой и является гармоническим средним значением точности и полноты: F-Score = 2*Precision*Recall/Precision+Recall.

AP сообщает вам соотношение релевантных документов и нерелевантных документов в определенном количестве извлеченных документов. Предположим, вы извлекли 25 документов, и из первых 10 документов извлечено 8 релевантных документов. Итак, АР(10) = 8/10;

Если вы посчитаете и прибавите AP для 1 к N, а затем разделите его на N, вы только что вычислили MAP. Где N — общее количество соответствующих документов в наборе данных за год.

Alikbar 26.11.2016

comment

В моем случае я не знаю, сколько документов имеет отношение к запросу. Документы, которые программа вернула, набор данных, который я использовал, не помечен тем, какой документ относится к какому запросу. Итак, как измерить релевантность между запросом и документом?? - dd90p; 27.11.2016

comment

Конечно, они помечены тегами релевантности запроса-документа. Просто посмотрите на свой набор данных еще раз и прочитайте файл readme. Это важная его часть: qrels находятся в трех столбцах: первый — это номер запроса, второй — номер соответствующего документа, а третий — код релевантности. Коды определены в файле readme. - Alikbar; 27.11.2016

comment

Как вы упомянули, у cranqrel есть qrels, номер документа, релевантность. Однако не все документы помечены в файле cranqrel. например, в наборе данных крана всего 1000 документов и 100 qrel. для qrel id=74 только документ 576 656 575 317 574 578 541 помечен релевантностью. В случае, если моя поисковая система нашла документ 222 333 444 , но у cranqrel не было релевантности. Как сделать оценку?? - dd90p; 28.11.2016

comment

Это проблема вашего алгоритма. В том случае, как вы сказали, точность, отзыв и т. д. равны нулю. Вы не получили ни одного соответствующего документа, все ваши показатели оценки будут равны нулю. - Alikbar; 28.11.2016

comment

что я имею в виду, так это то, что cranqrel не помечает весь документ. Итак, если полученный документ не находится в cranqrel, как определить релевантность?? мы не можем сказать, что документ нерелевантный, потому что у cranqrel нет релевантности для этого документа. - dd90p; 28.11.2016

comment

Как сказано в файле readme, существует пять типов отношений между запросом и документом. Число 5 показывает, что документ и запрос не релевантны, и в cranqrel эти отношения не учитываются. Таким образом, вы должны предположить, что любой документ и запрос, отношение которых не включено в cranqrel, не имеют значения. - Alikbar; 28.11.2016

comment

можно еще один вопрос по релевантности? в cranqrel есть некоторые оценки, установленные как -1, поскольку документ содержит -1, должен ли он относиться к релевантным или нерелевантным? ридми объясняет только оценку от 1 до 5, он никогда не упоминает -1 - dd90p; 28.11.2016

некоторые идеи и направления того, как измерять рейтинг, AP, MAP, отзыв для оценки IR

Ответы (2)

Похожие вопросы