Вопросы по теме 'countvectorizer'
Sklearn: объект «str» не имеет атрибута «чтение»
Я хочу использовать Sklearn для векторизации моих данных в большом CSV-файле, я использовал следующий код:
Первая попытка:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(input='file', stop_words =...
1327 просмотров
schedule
12.04.2023
Pyspark - Суммирование по нескольким разреженным векторам (вывод CountVectorizer)
У меня есть набор данных с ~ 30k уникальными документами, которые были помечены, потому что в них есть определенное ключевое слово. Некоторые из ключевых полей в наборе данных - это заголовок документа, размер файла, ключевое слово и отрывок (50 слов...
3414 просмотров
schedule
02.01.2023
Как использовать Scikit Learn CountVectorizer?
У меня есть набор слов, для которого я должен проверить, присутствуют ли они в документах.
WordList = [w1, w2, ..., wn]
В другом комплекте есть список документов, в которых я должен проверить, присутствуют ли эти слова или нет.
Как...
8982 просмотров
schedule
14.04.2022
Векторизатор комбинации слов в Python
У меня есть набор данных с медицинскими текстовыми данными, и я применяю к ним векторизатор tf-idf и вычисляю оценку tf idf для слов следующим образом:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer as tf
vect =...
528 просмотров
schedule
28.11.2022
Python: как преобразовать список количества слов в формат, подходящий для CountVectorizer
У меня есть ~ 100 000 списков строк в форме: ['the: 652', 'of: 216', 'in: 168', 'to: 159', 'is: 145'] и т. Д., Которые по сути составляют мой корпус. Каждый список содержит слова из документа и их количество слов.
Как мне преобразовать этот...
296 просмотров
schedule
31.12.2022
распределение тем в gensim ldamodel, обученном с помощью countvectorizer
У меня есть задание, что-то вроде этого:
import gensim
from sklearn.feature_extraction.text import CountVectorizer
newsgroup_data = ["Human machine interface for lab abc computer applications",
"A survey of user opinion of computer...
775 просмотров
schedule
19.05.2022
Примените CountVectorizer к столбцу со списком слов в строках в Python
Я сделал часть предварительной обработки для анализа текста и после удаления стоп-слов и основ следующим образом:
test[col] = test[col].apply(
lambda x: [ps.stem(item) for item in re.findall(r"[\w']+", x) if ps.stem(item) not in stop_words])...
7386 просмотров
schedule
05.12.2022
Регулярное выражение Java не соответствует диапазону ascii, ведет себя иначе, чем регулярное выражение python
Я хочу фильтровать строки из документов так же, как sklearn CountVectorizer делает. Он использует следующее регулярное выражение: (?u)\b\w\w+\b . Этот код Java должен вести себя так же:
Pattern regex = Pattern.compile("(?u)\\b\\w\\w+\\b");...
365 просмотров
schedule
02.05.2022
Лемматизация на CountVectorizer не удаляет стоп-слова
Я пытаюсь добавить лематизацию в CountVectorizer из Skit-learn следующим образом.
import nltk
from pattern.es import lemma
from nltk import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import...
5052 просмотров
schedule
12.07.2022
Удалить числа и символы с помощью Regex на CountVectorizer
В настоящее время у меня есть функция CountVectorizer
CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')
с token_pattern по умолчанию используется Sklearn, и у меня есть некоторые результаты для...
2182 просмотров
schedule
15.11.2022
Не удалось выполнить пользовательскую функцию ($anonfun$createTransformFunc$1: (string) =› array‹string›
Я создал DataFrame, как показано ниже.
resultWithId = production_df.withColumn("id", monotonically_increasing_id())
resultWithId.show(5, truncate=False)
resultWithId.printSchema()
Результат:...
776 просмотров
schedule
26.09.2022
sklearn.feature_extraction.text.CountVectorizer Расчет вручную
Как сделать ручной расчет CountVectorizer из scikit-learn? Или любой источник, который может мне помочь.
186 просмотров
schedule
29.03.2023
Использование CountVectorizer Sklearn для поиска нескольких строк не по порядку
Можно ли использовать CountVectorizer для определения наличия набора слов в корпусе независимо от порядка?
Он может делать упорядоченные фразы: Как я могу использовать sklearn CountVectorizer с mutliple строки?
Тем не менее, в моем случае...
1025 просмотров
schedule
08.11.2022
как использовать токены со sklearn в LDA
У меня есть список токенизированных документов, содержащих как униграммы, так и биграммы, и я хотел бы выполнить на нем sklearn lda. Я пробовал следующий код:
my_data =[['low-rank matrix','detection method','problem finding'],['probabilistic...
435 просмотров
schedule
19.05.2023
Как сделать так, чтобы классификация текста давала категорию None
Занимаюсь классификацией текста по диалектам. После того, как я обучил его трем типам диалектов, я протестировал его на имеющихся у меня тестовых данных. Однако теперь предположим, что я собираюсь извлечь твит из твиттера и попросить классификатор...
321 просмотров
schedule
07.02.2024
Ошибка: ValueError: нельзя использовать разреженный ввод в «SVR», обученном плотным данным?
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vector = vectorizer.fit_transform(X_train).toarray()
print(vector.shape)
print(type(vector))
print(vector)
vector
Это дает класс numpy.ndarray с...
227 просмотров
schedule
29.11.2023
CountVectorizer() не работает с однобуквенным словом
Учтите, что мне нужно применить CountVectorizer() к следующим данным:
words = [
'A am is',
'This the a',
'the am is',
'this a am',
]
Я сделал следующее:
from sklearn.feature_extraction.text import CountVectorizer...
324 просмотров
schedule
25.02.2023