У меня есть ~ 100 000 списков строк в форме: ['the: 652', 'of: 216', 'in: 168', 'to: 159', 'is: 145']
и т. Д., Которые по сути составляют мой корпус. Каждый список содержит слова из документа и их количество слов.
Как мне преобразовать этот корпус в форму, которую я могу передать в CountVectorizer?
Есть ли более быстрый способ, чем превращение каждого списка в строку, содержащую «652 раза» из «216 раз» и т. Д.?