Почему логарифм используется при расчете веса термина частоты и IDF, обратной частоте документа?

Формула для IDF — log( N / df t ), а не просто N / df t.

Где N = общее количество документов в коллекции, а df t = частота документа термина t.

Говорят, что журнал используется, потому что он «ослабляет» эффект IDF. Что это значит?

Кроме того, почему мы используем взвешивание логарифмической частоты для частоты терминов, как показано здесь:

введите здесь описание изображения


person stevetronix    schedule 21.11.2014    source источник
comment
См. mailman.uib.no/public/corpora/2018-June/thread. .html   -  person alvas    schedule 07.06.2018


Ответы (4)


Ответ Дебасиса правильный. Я не уверен, почему за него проголосовали.

Вот интуиция: если частота термина для слова «компьютер» в doc1 равна 10, а в doc2 — 20, мы можем сказать, что doc2 более релевантен, чем doc1 для слова «компьютер».

Однако, если частота термина одного и того же слова «компьютер» для документа 1 составляет 1 миллион, а для документа 2 — 2 миллиона, на данный момент большой разницы в релевантности больше нет, поскольку оба они содержат очень большое количество терминов. «компьютер».

Как и в ответе Дебасиса, добавление журнала должно ослабить важность термина, который имеет высокую частоту, например. Используя логарифмическую базу 2, число 1 миллион будет уменьшено до 19,9!

Мы также добавляем 1 к log(tf), потому что, когда tf равно 1, log(1) равен нулю. Добавляя единицу, мы различаем tf=0 и tf=1.

Надеюсь это поможет!

person suthee    schedule 30.10.2015
comment
Отличный ответ, но разве вопрос не в IDF, а не в TF? Похоже, ваши рассуждения следует применить к ТФ - person Xavier T Mukodi; 26.09.2020
comment
да, та же идея применима и к термину IDF. Чем выше IDF, тем больше уникальность данного слова/токена. Допустим, общее количество документов составляет 100 М, а количество документов с данным токеном – 10, тогда 100 М/10 = 10 М. Поэтому применение журнала может быть полезным. - person suthee; 30.09.2020

Это не обязательно тот случай, когда релевантность в большей степени определяется появлением термина в документе... вклад частоты термина в релевантность документа является, по существу, сублинейной функцией... следовательно, журнал для аппроксимации этой сублинейной функции функция...

то же самое применимо и к idf... линейная функция idf может слишком сильно повышать оценку документа с высокими терминами idf (которые могут быть редкими терминами из-за орфографических ошибок)... сублинейная функция работает намного лучше...

person Debasis    schedule 24.11.2014

вы можете думать, что мы получаем информационное содержание слова во всем корпусе, т.е. информационное содержание = -log(p) = -log(n_i/N) = log(N/n_i).

person Uday    schedule 16.10.2019

Я постараюсь изложить свой ответ более в практическом аспекте. Давайте возьмем два слова - The и Serendipity.

Итак, здесь первое слово, если наш корпус состоит из 1000 документов, будет встречаться почти в каждом документе, но интуитивная прозорливость — это редкое слово, и оно может встречаться в меньшем количестве документов, например, мы берем, как это произошло только в одном документе.

Итак, при расчете ИДФ обоих -

IDF Log(IDF)
The = 1000/1000 = 0 0
Serendipity = 1000/1 =1000 ~6.9

Теперь мы видим, что если бы у нас был TF в диапазоне от 0 до 20, тогда, если бы наша IDF не была логарифмической (IDF), то она определенно доминировала бы над TF, но если принять ее за логарифмическую (IDF), то она оказала бы такое же влияние на результат, как у TF.

person Prasoon Singh    schedule 15.12.2020