Удалить числа и символы с помощью Regex на CountVectorizer

В настоящее время у меня есть функция CountVectorizer

CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')

с token_pattern по умолчанию используется Sklearn, и у меня есть некоторые результаты для get_features_names следующим образом:

000,02,10,100,1080,11,14,17,19,1994,1ª,2015,2017,22,24horas,2t0s6dgxnm,30,31,32,_aitor,_anamilan_,_cuteresa,_raquel97_

Я хочу удалить цифры и символ _. Я знаю, что для этого я должен изменить функцию регулярного выражения по умолчанию: r'(?u)\b\w\w+\b' Итак, есть предложения?

Спасибо.

ОБНОВИТЬ:

Хорошие слова: abrazo, aburrir, extrañar, además

Плохие слова: анамилан,000,02,10,100,1080

Я хотел бы добавить ñ,á,é,í,ó,ú, я пробовал с [á-ú_ñ]+, но это не работает.

regex scikit-learn countvectorizer

ambigus9 07.05.2018 источник

comment

Как должен выглядеть вывод? - 07.05.2018

Ответы (1)

arrow_upward
1
arrow_downward

Этот шаблон должен соответствовать всем цифрам и _.

[\d_]

OutOnAWeekend 07.05.2018

comment

Спасибо, но как я могу добавить к шаблону по умолчанию, чтобы исключить цифры и _ ? - ambigus9; 07.05.2018

comment

Можете ли вы привести несколько тестовых строк и указать, какие из них должны совпадать, а какие нет. - OutOnAWeekend; 07.05.2018

comment

Или просто попробуйте этот шаблон - \b[a-zA-Z]{2,}\b - OutOnAWeekend; 07.05.2018

comment

Спасибо, я обновил, добавив больше информации о том, что я хочу. - ambigus9; 07.05.2018

Удалить числа и символы с помощью Regex на CountVectorizer

Ответы (1)

Похожие вопросы