Я хочу использовать Sklearn для векторизации моих данных в большом CSV-файле, я использовал следующий код:
Первая попытка:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(input='file', stop_words = 'english', ngram_range=(1,2))
vectorizer.fit_transform('test.csv')
Но я получил эту ошибку:
AttributeError: объект «str» не имеет атрибута «чтение»
Вторая ПОПЫТКА, но ошибка все еще возникает:
import csv
file = open('test.csv', 'r')
f = file.readline()
vectorizer.fit_transform(f)
Третья ПОПЫТКА: эта работала, но была убита из-за нехватки памяти.
file = open('test.csv', 'r')
a = file.read()
vectorizer = TfidfVectorizer(stop_words = 'english', ngram_range=(1,2))
de = vectorizer.fit_transform(a.split('\n'))
Как использовать fit_transform в Sklearn для обработки большого файла CSV?