Я пытаюсь подготовить данные для контролируемого обучения. У меня есть данные Tfidf, которые были сгенерированы из столбца в моем фрейме данных под названием «объединенный».
vect = TfidfVectorizer(stop_words='english', use_idf=True, min_df=50, ngram_range=(1,2))
X = vect.fit_transform(merged['kws_name_desc'])
print X.shape
print type(X)
(57629, 11947)
<class 'scipy.sparse.csr.csr_matrix'>
Но мне также нужно добавить в эту матрицу дополнительные столбцы. Для каждого документа в матрице TFIDF у меня есть список дополнительных числовых характеристик. Каждый список имеет длину 40 и состоит из поплавков.
Итак, для уточнения, у меня есть 57 629 списков длиной 40, которые я хотел бы добавить к моему результату TDIDF.
В настоящее время у меня есть это в DataFrame, пример данных: merged["other_data"]. Ниже приведен пример строки из файла merged["other_data"]
0.4329597715,0.3637511039,0.4893141843,0.35840...
Как я могу добавить 57 629 строк моего столбца данных с матрицей TF-IDF? Честно говоря, я не знаю, с чего начать, и был бы признателен за любые указатели/рекомендации.