Вопросы по теме 'countvectorizer'

Sklearn: объект «str» не имеет атрибута «чтение»
Я хочу использовать Sklearn для векторизации моих данных в большом CSV-файле, я использовал следующий код: Первая попытка: from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(input='file', stop_words =...
1327 просмотров
schedule 12.04.2023

Pyspark - Суммирование по нескольким разреженным векторам (вывод CountVectorizer)
У меня есть набор данных с ~ 30k уникальными документами, которые были помечены, потому что в них есть определенное ключевое слово. Некоторые из ключевых полей в наборе данных - это заголовок документа, размер файла, ключевое слово и отрывок (50 слов...
3414 просмотров

Как использовать Scikit Learn CountVectorizer?
У меня есть набор слов, для которого я должен проверить, присутствуют ли они в документах. WordList = [w1, w2, ..., wn] В другом комплекте есть список документов, в которых я должен проверить, присутствуют ли эти слова или нет. Как...
8982 просмотров

Векторизатор комбинации слов в Python
У меня есть набор данных с медицинскими текстовыми данными, и я применяю к ним векторизатор tf-idf и вычисляю оценку tf idf для слов следующим образом: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer as tf vect =...
528 просмотров

Python: как преобразовать список количества слов в формат, подходящий для CountVectorizer
У меня есть ~ 100 000 списков строк в форме: ['the: 652', 'of: 216', 'in: 168', 'to: 159', 'is: 145'] и т. Д., Которые по сути составляют мой корпус. Каждый список содержит слова из документа и их количество слов. Как мне преобразовать этот...
296 просмотров
schedule 31.12.2022

распределение тем в gensim ldamodel, обученном с помощью countvectorizer
У меня есть задание, что-то вроде этого: import gensim from sklearn.feature_extraction.text import CountVectorizer newsgroup_data = ["Human machine interface for lab abc computer applications", "A survey of user opinion of computer...
775 просмотров

Примените CountVectorizer к столбцу со списком слов в строках в Python
Я сделал часть предварительной обработки для анализа текста и после удаления стоп-слов и основ следующим образом: test[col] = test[col].apply( lambda x: [ps.stem(item) for item in re.findall(r"[\w']+", x) if ps.stem(item) not in stop_words])...
7386 просмотров

Регулярное выражение Java не соответствует диапазону ascii, ведет себя иначе, чем регулярное выражение python
Я хочу фильтровать строки из документов так же, как sklearn CountVectorizer делает. Он использует следующее регулярное выражение: (?u)\b\w\w+\b . Этот код Java должен вести себя так же: Pattern regex = Pattern.compile("(?u)\\b\\w\\w+\\b");...
365 просмотров

Лемматизация на CountVectorizer не удаляет стоп-слова
Я пытаюсь добавить лематизацию в CountVectorizer из Skit-learn следующим образом. import nltk from pattern.es import lemma from nltk import word_tokenize from nltk.corpus import stopwords from sklearn.feature_extraction.text import...
5052 просмотров

Удалить числа и символы с помощью Regex на CountVectorizer
В настоящее время у меня есть функция CountVectorizer CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b') с token_pattern по умолчанию используется Sklearn, и у меня есть некоторые результаты для...
2182 просмотров
schedule 15.11.2022

Не удалось выполнить пользовательскую функцию ($anonfun$createTransformFunc$1: (string) =› array‹string›
Я создал DataFrame, как показано ниже. resultWithId = production_df.withColumn("id", monotonically_increasing_id()) resultWithId.show(5, truncate=False) resultWithId.printSchema() Результат:...
776 просмотров

sklearn.feature_extraction.text.CountVectorizer Расчет вручную
Как сделать ручной расчет CountVectorizer из scikit-learn? Или любой источник, который может мне помочь.
186 просмотров
schedule 29.03.2023

Использование CountVectorizer Sklearn для поиска нескольких строк не по порядку
Можно ли использовать CountVectorizer для определения наличия набора слов в корпусе независимо от порядка? Он может делать упорядоченные фразы: Как я могу использовать sklearn CountVectorizer с mutliple строки? Тем не менее, в моем случае...
1025 просмотров

как использовать токены со sklearn в LDA
У меня есть список токенизированных документов, содержащих как униграммы, так и биграммы, и я хотел бы выполнить на нем sklearn lda. Я пробовал следующий код: my_data =[['low-rank matrix','detection method','problem finding'],['probabilistic...
435 просмотров

Как сделать так, чтобы классификация текста давала категорию None
Занимаюсь классификацией текста по диалектам. После того, как я обучил его трем типам диалектов, я протестировал его на имеющихся у меня тестовых данных. Однако теперь предположим, что я собираюсь извлечь твит из твиттера и попросить классификатор...
321 просмотров

Ошибка: ValueError: нельзя использовать разреженный ввод в «SVR», обученном плотным данным?
from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() vector = vectorizer.fit_transform(X_train).toarray() print(vector.shape) print(type(vector)) print(vector) vector Это дает класс numpy.ndarray с...
227 просмотров

CountVectorizer() не работает с однобуквенным словом
Учтите, что мне нужно применить CountVectorizer() к следующим данным: words = [ 'A am is', 'This the a', 'the am is', 'this a am', ] Я сделал следующее: from sklearn.feature_extraction.text import CountVectorizer...
324 просмотров