Обычно TF-IDF используется для слов, а не для предложений. На самом деле это осознание является частью моего исследовательского проекта в колледже. Набор данных не будет предоставлен здесь из соображений конфиденциальности.

Я прочитал статью о реализации этого с помощью javascript, что довольно хорошо. Но часть кода можно улучшить и переписать на python. Поэтому я написал эту статью и хочу поделиться ею с вашими ребятами.

Производительность примерно такая:

Часть кода:

Если вы хотите узнать больше о принципах алгоритма. Вы можете прочитать справочную статью. Угощайтесь.

Вот:

Исходный код: https://github.com/Wapiti08/Algorithms_on_Feature_Engineering/blob/master/TF-IDF-Sen.ipynb

Ссылка: https://hackernoon.com/finding-the-most-important-sentences-using-nlp-tf-idf-3065028897a3