£ конвертируется в ? по HTML Tidy, EncodingType?

Я очищаю файл HTML с помощью HTML Tidy, ну, версия .NET под названием TidyManaged, и мои символы «£» преобразуются в «?»

ie:

Income (£)

становится:

Income (�)

Я считаю, что это связано с типами кодирования. В TidyManaged можно указать тип входной кодировки и тип выходной кодировки, включая такие вещи, как Latin1, utf8, utf16, win1252.

Документ XHTML в конечном итоге будет преобразован в DOC, который использует win1252.

Итак, какой должна быть моя входная и выходная кодировка, чтобы сохранить символы £?

Большое спасибо.


person SamJolly    schedule 27.02.2014    source источник
comment
Вы можете изменить его на объект html?   -  person Andy Holmes    schedule 27.02.2014
comment
Узнайте кодировку html-файла и используйте ее в качестве входной кодировки и используйте все, что хотите, в качестве выходной кодировки.   -  person Musa    schedule 27.02.2014
comment
HTML-код для знака фунта стерлингов. Если вы просто введете его, как обычно, иногда вы будете получать вопросительные знаки, потому что кодировка отличается.   -  person Mathias Rechtzigel    schedule 27.02.2014


Ответы (1)


Ну, когда я использовал другие наборы символов, они всегда отличались. Я не владею ими свободно, но я знаю, что для создания символов пунктуации вам нужно использовать «код», а не их литерал. Никогда не видел win1252, но гугл говорит, что это 0x00A3.

Попробуйте поместить это куда-нибудь в свой документ.

Я знаю, что в html я бы поставил £ для знака фунта. Итак, HTML:

<p>&#163;0.00</p>

Откуда я взял код

person bashleigh    schedule 27.02.2014