Формула для IDF — log( N / df t ), а не просто N / df t.
Где N = общее количество документов в коллекции, а df t = частота документа термина t.
Говорят, что журнал используется, потому что он «ослабляет» эффект IDF. Что это значит?
Кроме того, почему мы используем взвешивание логарифмической частоты для частоты терминов, как показано здесь: