У меня есть миллионы строк, извлеченных из Интернета, например:
s = 'WHAT\xe2\x80\x99S UP DOC?'
type(s) == str # returns True
Специальные символы, подобные приведенной выше строке, неизбежны при извлечении данных из Интернета. Как удалить все такие специальные символы, чтобы сохранить только чистый текст? Я думаю о регулярном выражении, подобном этому, на основе моего очень ограниченного опыта работы с символами Юникода:
\\x.*[0-9]
WHAT’S UP DOC?
- person Padraic Cunningham   schedule 18.08.2015print(s.decode("ascii",errors="ignore"))
- person Padraic Cunningham   schedule 18.08.2015