Почему логарифм используется при расчете веса термина частоты и IDF, обратной частоте документа?

Формула для IDF — log( N / df t ), а не просто N / df t.

Где N = общее количество документов в коллекции, а df t = частота документа термина t.

Говорят, что журнал используется, потому что он «ослабляет» эффект IDF. Что это значит?

Кроме того, почему мы используем взвешивание логарифмической частоты для частоты терминов, как показано здесь:

введите здесь описание изображения

tf-idf information-retrieval

stevetronix 21.11.2014 источник

comment

См. mailman.uib.no/public/corpora/2018-June/thread. .html - alvas 07.06.2018

Ответы (4)

arrow_upward
57
arrow_downward

Ответ Дебасиса правильный. Я не уверен, почему за него проголосовали.

Вот интуиция: если частота термина для слова «компьютер» в doc1 равна 10, а в doc2 — 20, мы можем сказать, что doc2 более релевантен, чем doc1 для слова «компьютер».

Однако, если частота термина одного и того же слова «компьютер» для документа 1 составляет 1 миллион, а для документа 2 — 2 миллиона, на данный момент большой разницы в релевантности больше нет, поскольку оба они содержат очень большое количество терминов. «компьютер».

Как и в ответе Дебасиса, добавление журнала должно ослабить важность термина, который имеет высокую частоту, например. Используя логарифмическую базу 2, число 1 миллион будет уменьшено до 19,9!

Мы также добавляем 1 к log(tf), потому что, когда tf равно 1, log(1) равен нулю. Добавляя единицу, мы различаем tf=0 и tf=1.

Надеюсь это поможет!

suthee 30.10.2015

comment

Отличный ответ, но разве вопрос не в IDF, а не в TF? Похоже, ваши рассуждения следует применить к ТФ - Xavier T Mukodi; 26.09.2020

comment

да, та же идея применима и к термину IDF. Чем выше IDF, тем больше уникальность данного слова/токена. Допустим, общее количество документов составляет 100 М, а количество документов с данным токеном – 10, тогда 100 М/10 = 10 М. Поэтому применение журнала может быть полезным. - suthee; 30.09.2020

arrow_upward
29
arrow_downward

Это не обязательно тот случай, когда релевантность в большей степени определяется появлением термина в документе... вклад частоты термина в релевантность документа является, по существу, сублинейной функцией... следовательно, журнал для аппроксимации этой сублинейной функции функция...

то же самое применимо и к idf... линейная функция idf может слишком сильно повышать оценку документа с высокими терминами idf (которые могут быть редкими терминами из-за орфографических ошибок)... сублинейная функция работает намного лучше...

Debasis 24.11.2014

arrow_upward
1
arrow_downward

вы можете думать, что мы получаем информационное содержание слова во всем корпусе, т.е. информационное содержание = -log(p) = -log(n_i/N) = log(N/n_i).

Uday 16.10.2019

arrow_upward
0
arrow_downward

Я постараюсь изложить свой ответ более в практическом аспекте. Давайте возьмем два слова - The и Serendipity.

Итак, здесь первое слово, если наш корпус состоит из 1000 документов, будет встречаться почти в каждом документе, но интуитивная прозорливость — это редкое слово, и оно может встречаться в меньшем количестве документов, например, мы берем, как это произошло только в одном документе.

Итак, при расчете ИДФ обоих -

IDF	Log(IDF)
The = 1000/1000 = 0	0
Serendipity = 1000/1 =1000	~6.9

Теперь мы видим, что если бы у нас был TF в диапазоне от 0 до 20, тогда, если бы наша IDF не была логарифмической (IDF), то она определенно доминировала бы над TF, но если принять ее за логарифмическую (IDF), то она оказала бы такое же влияние на результат, как у TF.

Prasoon Singh 15.12.2020

Почему логарифм используется при расчете веса термина частоты и IDF, обратной частоте документа?

Ответы (4)

Похожие вопросы