Изящное преобразование из Unicode в однобайтовую кодировку

Моя база данных (10gR2) однобайтная (NLS_CHARACTERSET = WE8DEC).

У меня есть XML-файл Unicode, который я хотел бы проанализировать. Если я прочитаю файл в CLOB и попытаюсь преобразовать его в XMLType, Oracle захлебнется, если XML содержит специальные символы (в данном случае норвежские символы, такие как "øæå").

ORA-31011: XML parsing failed
ORA-19202: Error occurred in XML processing
LPX-00216: invalid character 184 (0xB8)

Если я читаю файл в NCLOB, а затем явно преобразовываю его в CLOB с помощью TO_CLOB, конструктор XMLType завершается успешно. Однако это преобразование дает «уродливые» результаты. Например,

bølle gjær

становится

bÃ¿lle gjÃ¿r

Есть ли способ выполнить преобразование из NCLOB с Unicode в однобайтовый CLOB и при этом сохранить специальные символы? (Меня особенно интересует правильное преобразование только трех норвежских символов «øæå», другие специальные символы и символы в этом случае не так важны.)

ObiWanKenobi 10.09.2009 источник

Ответы (3)

arrow_upward
1
arrow_downward

Можно перекодировать те символы, которые не помещаются в один байт, используя ссылки на символы. Это можно сделать, найдя значение Unicode, поместив его в ссылку. Например, A будет выглядеть как A

Adam Hawkes 10.09.2009

arrow_upward
1
arrow_downward

Предполагается, что TO_CLOB правильно преобразует национальный набор символов в набор символов базы данных. У вас не будет никаких проблем, если все символы могут быть сопоставлены.

Затем я подозреваю, что ваша проблема возникает в части прочитать файл в NCLOB. Юникод — довольно расплывчатая информация:

Файлы XML очень часто кодируются в наборе символов UTF-8 (с или без Знак порядка следования байтов).
В Oracle установлен национальный набор символов UTF-16 (AL16UTF16). по умолчанию.

Для перехода от одного к другому требуется определенное преобразование. Сначала вы должны убедиться, что NCLOB, содержащий ваш XML-файл, содержит правильную информацию.

Mac 11.09.2009

arrow_upward
0
arrow_downward

Я не знаю точного ответа на ваш вопрос, но этот метод может быть вам полезен для начала.

Вот запрос, который я использую для преобразования одного набора символов в другой.

SELECT CONVERT(NAME, 'WE8ISO8859P1', 'WE8DEC')  
  FROM table

Попробуйте с:

NE8ISO8859P10 ISO 8859-10 Северная Европа

NEE8ISO8859P4 ISO 8859-4 Северная и Северо-Восточная Европа

На этой странице перечислены настройки Oracle 8i NLS.

Community 12.09.2009

Изящное преобразование из Unicode в однобайтовую кодировку

Ответы (3)

Похожие вопросы