Вопросы по теме 'tfidfvectorizer'

Сохраните матрицу Tf-idf и обновите существующую матрицу для новых статей в pandas
У меня есть кадр данных pandas со столбцом text , состоящим из news articles . Дано как: - text article1 article2 article3 article4 Я рассчитал значения Tf-IDF для статей следующим образом: from sklearn.feature_extraction.text import...
639 просмотров

Уменьшить размер рассола TfidfVectorizer
Мне нужно стандартизировать некоторые параметры для построения векторов на основе текста. Вот почему я пытаюсь собрать TfidVectorizer из группы текстовых документов. На основе этих параметров мне нужно векторизовать новые текстовые документы, и их...
362 просмотров

Как я могу создать шаблон матрицы для проверки сходства предложений?
Я новичок в интеллектуальном анализе текста и python, и я пытаюсь выполнить простую задачу. Я хочу создать TF-матрицу из предложений: ['Это первое предложение', 'Это второе предложение', 'Это третье предложение'] И в цикле (или как-то так)...
54 просмотров

Как получить оценку TF-IDF за слова?
У меня большой корпус (около 400 тысяч уникальных предложений). Я просто хочу получить оценку TF-IDF за каждое слово. Я пытался подсчитать оценку для каждого слова, просматривая каждое слово и вычисляя частоту, но это занимало слишком много времени....
9505 просмотров
schedule 19.03.2022

что представляет столбец в матрице tfidf?
Я пытаюсь понять результат матрицы TF-IDF. Вот код, который я использую. sen1 = TextBlob("This is a sample") d1 = sen1.words from sklearn.feature_extraction.text import TfidfVectorizer tfvectorizer = TfidfVectorizer() tfidf=...
255 просмотров
schedule 30.06.2022

RegEx в словаре не работает в sklearn TfidfVectorizer
Я пытаюсь вычислить tf-idf выбранных слов в корпусе, но это не сработало, когда я использую регулярное выражение для выбранных слов. Ниже приведен пример, который я скопировал из других вопросов в stackoverflow и внес небольшие изменения, чтобы...
122 просмотров
schedule 21.03.2022

Как получить n терминов с наивысшим баллом tf-idf - Большая разреженная матрица
Вот такой код: feature_array = np.array(tfidf.get_feature_names()) tfidf_sorting = np.argsort(response.toarray()).flatten()[::-1] n = 3 top_n = feature_array[tfidf_sorting][:n] исходящий из этого ответа. Мой вопрос в том, как я могу...
1636 просмотров

Scikit Learn K-means Clustering & TfidfVectorizer: как передать n лучших терминов с наивысшей оценкой tf-idf в k-means
Я кластеризую текстовые данные на основе векторизатора TFIDF. Код работает нормально. Он принимает весь вывод векторизатора TFIDF в качестве входных данных для кластеризации K-средних и создает диаграммы рассеяния. Вместо этого я хотел бы...
704 просмотров

Как применить TFIDF к данным POS nltk?
Я применил функцию POS nltk к колонке отзывов в DataFrame моей панды. Я получил новую функцию, но когда я пытаюсь применить векторизацию TFIDF к этой функции, она показывает ошибку, например Ошибка: при применении векторизатора TFIDF...
95 просмотров

Как применить Kfold с TfidfVectorizer?
У меня проблема с применением перекрестной проверки K-fold с Tfidf. это дает мне эту ошибку ValueError: setting an array element with a sequence. Я видел другие вопросы, у которых была такая же проблема, но они использовали...
325 просмотров

Как я могу рассчитать показатель согласованности в реализации NMF sklearn?
Я пытаюсь создать утилиту, в которой набор данных будет обрабатываться моделью NMF каждые пару дней. Для этого при первом запуске я задаю начальное значение количества тем. Как я могу рассчитать показатель согласованности для всего этого набора...
960 просмотров

Удалите повторяющуюся биграмму и добавьте ее сумму к исходному счету.
Я создал фрейм данных биграмм, подобный этому В этом есть биграммы с перевернутыми словами, я хочу удалить биграммы с перевернутым словом (например, удалить «хорошую сеть»), но сложить их «сумму» или, возможно, перевернуть слова биграммы,...
103 просмотров

Векторизатор TF-IDF с Python
У меня проблема с функцией TfidfVectorizer в python. Например, если у меня есть такая строка: «xxx//xx. aaa.bb.ccc.d' будут извлечены эти слова как ключ словаря: 'xxx', 'xx', 'aaa', 'bb', 'ccc', 'd' вместо этого я хочу создать эти новые функции:...
193 просмотров

Векторизатор TF-IDF для извлечения энграмм
Как я могу использовать TF-IDF vectorizer из библиотеки scikit-learn для извлечения unigrams и bigrams твитов? Я хочу обучить классификатор выходным данным. Это код из scikit-learn: from sklearn.feature_extraction.text import...
413 просмотров

Какие 10 слов имеют наибольшее значение TF-IDF в каждом документе/всего?
Я пытаюсь получить слова с 10 самыми высокими оценками TF-IDF для каждого документа. У меня есть столбец в моем фрейме данных, который содержит предварительно обработанный текст (без знаков препинания, стоп-слов и т. д.) из моих различных...
715 просмотров

Есть ли преимущество в использовании модели word2vec в качестве экстрактора признаков для кластеризации текста?
Я выполняю классификацию текста с помощью scikit-learn, следуя примеру в документации . Для извлечения функций, то есть для преобразования текста в набор векторов, в примере используется HashingVectorizer и TfidfVectorizer векторизатор. Я...
41 просмотров

Как найти важные слова с помощью TfIdfVectorizer?
Рассмотрим приведенный ниже пример. важными словами, которые представляют документы, являются «Боб» и «Сара». но с max_features вывод имеет тенденцию показывать часто встречающиеся слова. Это ухудшится, когда корпус большой. Как мы можем...
43 просмотров

Какой путь правильный в tf-idf? Установите все, затем преобразуйте набор поездов и набор тестов или установите набор поездов, затем преобразуйте набор тестов
1. Установите набор поездов, затем преобразуйте набор тестов scikit-learn предоставить этот пример from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english')...
31 просмотров