Я пытаюсь разделить строки каждый раз, когда встречаю знак препинания или цифры, например:
toSplit = 'I2eat!Apples22becauseilike?Them'
result = re.sub('[0123456789,.?:;~!@#$%^&*()]', ' \1',toSplit).split()
Желаемый результат:
['I', '2', 'eat', '!', 'Apples', '22', 'becauseilike', '?', 'Them']
Однако приведенный выше код (хотя он правильно разбивается там, где должен) удаляет все цифры и знаки препинания.
Мы будем очень признательны за любые разъяснения.
re.findall(r'\d+|[^\w\s]|_|[^\W\d_]+', toSplit)
- person Wiktor Stribiżew   schedule 14.08.201911!!
, вам нужно получить['11', '!!']
, верно? - person Wiktor Stribiżew   schedule 14.08.2019re.findall(r'\d+|(?:[^\w\s]|_)+|[^\W\d_]+', toSplit)
для токенизации цифр, букв и других символов, которые не являются пробелами, буквами и цифрами. Интересно, что бы вы хотели сделать с22.45text?!
... - person Wiktor Stribiżew   schedule 14.08.2019