Что такое слишком длинная форма/кодировка?

Читая статью Википедии о UTF-8, я задался вопросом о термине слишком долго. Этот термин используется несколько раз, но статья не дает определения или ссылки на его значение.

Я хотел бы знать, может ли кто-нибудь объяснить термин и его цель.

nEAnnam 18.08.2011 источник

Ответы (2)

arrow_upward
20
arrow_downward

Это кодировка кодовой точки, которая занимает больше кодовых единиц, чем нужно.

Например, U+0020 представлен в UTF-8 одним байтом 0x20. Если вы декодируете два байта 0xc0 0xa0 обычным способом, вы все равно вернетесь к U+0020, но это недопустимое представление.

В исправлении Unicode #1 содержится дополнительная информация, особенно в отношении таблицы 3.1B.

Jon Skeet 18.08.2011

arrow_upward
5
arrow_downward

UTF-8 теоретически допускает различные представления символов, которые также имеют более короткий. Например, вы можете закодировать символ ASCII двумя байтами, установив старшие биты равными нулю. Спецификация UTF-8 явно запрещает это.

Joey 18.08.2011

comment

@Computer: o.O, какой каламбур я пропустил? - Joey; 15.11.2017

comment

Ты сказал Форбитс! - Computer; 15.11.2017

Что такое слишком длинная форма/кодировка?

Ответы (2)

Похожие вопросы