xml.etree.ElementTree и текст поиска юникода

Я пытаюсь проанализировать xml-документы Medline, используя iterparse в модуле xml.etree.ElementTree. Все работает хорошо, за исключением того, что часть текста содержит символы, отличные от ascii. Я не вижу способа обработки юникода с помощью findtext. Какие-либо предложения?

seandavi 03.11.2011 источник

Ответы (2)

arrow_upward
2
arrow_downward

Вы пытались открыть файл с кодировкой utf8 flah:

fd = open('some.xml', mode='r', encoding='utf-8')
xml.etree.ElementTree.iterparse(fd)

Или используйте декодирование:

fd = open('some.xml', mode='r')
sio = StringIO(fd.read().decode("utf-8"))
xml.etree.ElementTree.iterparse(sio)

chown 03.11.2011

comment

Я думаю, что это должно работать, но я все еще получаю ошибки. Следующий шаг — убедиться, что кодировка действительно UTF-8. - seandavi; 03.11.2011

arrow_upward
0
arrow_downward

Это был очень полезный пост в дополнение к ответу выше.

Чтение символов utf-8 из файла gzip в python< /а>

seandavi 03.11.2011

Похожие вопросы

Как сделать «структуру» нулевой по определению?
Касательно сборки scons для iotivity на linux
numpy vectorized: проверьте, заканчиваются ли строки в массиве строками в другом массиве
Как выполнить скрипт python на основе сервера ssh-соединения?
Использование sonarlint-cli для анализа C++
Django исключает набор запросов __in для * каждого * элемента в списке
Разбор данных JSON из переменной Ruby
Почему мой вызов действия контроллера Razor не работает при вызове через Ajax в функции Javascript?
Назначение HTML-контента переменной в Google Spreadsheet Script
Я хочу сделать футбольный мяч с помощью IOS SpriteKit.
Проблемы разрешения C# WPF
Как программно установить APK из службы
Ошибка ядра при использовании ноутбука Jupyter
Сопоставьте ключ и значение с массивом строк
Переключение многих идентификаторов div
Библиотека Rust для проверки двоичных файлов .rlib
Как программно создать новый спринт в JIRA?
Код Visual Studio в Linux. Как запустить приложение C#, если app.js не существует и не должен
Суммируйте дату двух таблиц, сравните их и верните новый столбец на основе сравнения
Файл хорошо передается без буферизации, но частично передается во время буферизации