Я загружаю файл excel в python3, используя xlrd. В основном это строки текста в электронной таблице. На некоторых из этих строк стоят кавычки. Например, одна строка может быть:
Она сказала: «Меня зовут Дженнифер».
Когда я читаю их в python и превращаю в строки, двойные кавычки читаются как странный символ двойной кавычки, который выглядит как двойная кавычка, выделенная курсивом. Я предполагаю, что где-то по пути python прочитал символ как какой-то иностранный символ, а не фактические двойные кавычки из-за какой-то проблемы с кодировкой или чего-то еще. Итак, в приведенном выше примере, если я назначу эту строку как «текст», то у нас будет что-то вроде следующего (хотя это не совсем так, поскольку я на самом деле не печатаю строку, поэтому представьте, что «текст» уже назначен заранее) :
text = 'She said, “My name is Jennifer.”'
text[10] == '"'
Вторая строка выдаст False, потому что, похоже, она не распознает его как обычный символ двойной кавычки. Я работаю в терминале Mac, если это имеет значение.
Мои вопросы: 1. Есть ли способ легко убрать эти странные двойные кавычки? 2. Есть ли способ, когда я читаю файл, чтобы Python правильно распознавал их как двойные кавычки?
“
— это U+201C, а”
— это U+201D. Вам нужно будет заменить их на"
, что означает U+0022. - person Jonathan Leffler   schedule 28.10.2014