Статьи по тематике countvectorizer

Вопросы по теме 'countvectorizer'

Sklearn: объект «str» не имеет атрибута «чтение»

Я хочу использовать Sklearn для векторизации моих данных в большом CSV-файле, я использовал следующий код: Первая попытка: from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(input='file', stop_words =...

1327 просмотров

python scikit-learn countvectorizer

12.04.2023

Pyspark - Суммирование по нескольким разреженным векторам (вывод CountVectorizer)

У меня есть набор данных с ~ 30k уникальными документами, которые были помечены, потому что в них есть определенное ключевое слово. Некоторые из ключевых полей в наборе данных - это заголовок документа, размер файла, ключевое слово и отрывок (50 слов...

3414 просмотров

python apache-spark pyspark countvectorizer tf-idf

02.01.2023

Как использовать Scikit Learn CountVectorizer?

У меня есть набор слов, для которого я должен проверить, присутствуют ли они в документах. WordList = [w1, w2, ..., wn] В другом комплекте есть список документов, в которых я должен проверить, присутствуют ли эти слова или нет. Как...

8982 просмотров

python-3.x scikit-learn countvectorizer

14.04.2022

Векторизатор комбинации слов в Python

У меня есть набор данных с медицинскими текстовыми данными, и я применяю к ним векторизатор tf-idf и вычисляю оценку tf idf для слов следующим образом: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer as tf vect =...

528 просмотров

python nlp scikit-learn countvectorizer tf-idf

28.11.2022

Python: как преобразовать список количества слов в формат, подходящий для CountVectorizer

У меня есть ~ 100 000 списков строк в форме: ['the: 652', 'of: 216', 'in: 168', 'to: 159', 'is: 145'] и т. Д., Которые по сути составляют мой корпус. Каждый список содержит слова из документа и их количество слов. Как мне преобразовать этот...

296 просмотров

python python-2.7 nlp nltk countvectorizer

31.12.2022

распределение тем в gensim ldamodel, обученном с помощью countvectorizer

У меня есть задание, что-то вроде этого: import gensim from sklearn.feature_extraction.text import CountVectorizer newsgroup_data = ["Human machine interface for lab abc computer applications", "A survey of user opinion of computer...

775 просмотров

python-3.x gensim countvectorizer topic-modeling

19.05.2022

Примените CountVectorizer к столбцу со списком слов в строках в Python

Я сделал часть предварительной обработки для анализа текста и после удаления стоп-слов и основ следующим образом: test[col] = test[col].apply( lambda x: [ps.stem(item) for item in re.findall(r"[\w']+", x) if ps.stem(item) not in stop_words])...

7386 просмотров

python countvectorizer sparse-matrix word bag

05.12.2022

Регулярное выражение Java не соответствует диапазону ascii, ведет себя иначе, чем регулярное выражение python

Я хочу фильтровать строки из документов так же, как sklearn CountVectorizer делает. Он использует следующее регулярное выражение: (?u)\b\w\w+\b . Этот код Java должен вести себя так же: Pattern regex = Pattern.compile("(?u)\\b\\w\\w+\\b");...

365 просмотров

java regex scikit-learn countvectorizer pattern-matching

02.05.2022

Лемматизация на CountVectorizer не удаляет стоп-слова

Я пытаюсь добавить лематизацию в CountVectorizer из Skit-learn следующим образом. import nltk from pattern.es import lemma from nltk import word_tokenize from nltk.corpus import stopwords from sklearn.feature_extraction.text import...

5052 просмотров

scikit-learn nltk countvectorizer stop-words lemmatization

12.07.2022

Удалить числа и символы с помощью Regex на CountVectorizer

В настоящее время у меня есть функция CountVectorizer CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b') с token_pattern по умолчанию используется Sklearn, и у меня есть некоторые результаты для...

2182 просмотров

regex scikit-learn countvectorizer

15.11.2022

Не удалось выполнить пользовательскую функцию ($anonfun$createTransformFunc$1: (string) =› array‹string›

Я создал DataFrame, как показано ниже. resultWithId = production_df.withColumn("id", monotonically_increasing_id()) resultWithId.show(5, truncate=False) resultWithId.printSchema() Результат:...

776 просмотров

regex apache-spark pyspark databricks countvectorizer

26.09.2022

sklearn.feature_extraction.text.CountVectorizer Расчет вручную

Как сделать ручной расчет CountVectorizer из scikit-learn? Или любой источник, который может мне помочь.

186 просмотров

scikit-learn countvectorizer

29.03.2023

Использование CountVectorizer Sklearn для поиска нескольких строк не по порядку

Можно ли использовать CountVectorizer для определения наличия набора слов в корпусе независимо от порядка? Он может делать упорядоченные фразы: Как я могу использовать sklearn CountVectorizer с mutliple строки? Тем не менее, в моем случае...

1025 просмотров

python-3.x scikit-learn sklearn-pandas countvectorizer

08.11.2022

как использовать токены со sklearn в LDA

У меня есть список токенизированных документов, содержащих как униграммы, так и биграммы, и я хотел бы выполнить на нем sklearn lda. Я пробовал следующий код: my_data =[['low-rank matrix','detection method','problem finding'],['probabilistic...

435 просмотров

python-3.x scikit-learn countvectorizer lda

19.05.2023

Как сделать так, чтобы классификация текста давала категорию None

Занимаюсь классификацией текста по диалектам. После того, как я обучил его трем типам диалектов, я протестировал его на имеющихся у меня тестовых данных. Однако теперь предположим, что я собираюсь извлечь твит из твиттера и попросить классификатор...

321 просмотров

python machine-learning countvectorizer text-classification

07.02.2024

Ошибка: ValueError: нельзя использовать разреженный ввод в «SVR», обученном плотным данным?

from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() vector = vectorizer.fit_transform(X_train).toarray() print(vector.shape) print(type(vector)) print(vector) vector Это дает класс numpy.ndarray с...

227 просмотров

python scikit-learn countvectorizer sparse-matrix

29.11.2023

CountVectorizer() не работает с однобуквенным словом

Учтите, что мне нужно применить CountVectorizer() к следующим данным: words = [ 'A am is', 'This the a', 'the am is', 'this a am', ] Я сделал следующее: from sklearn.feature_extraction.text import CountVectorizer...

324 просмотров

python machine-learning scikit-learn countvectorizer

25.02.2023

Вопросы по теме 'countvectorizer'

Похожие вопросы