2 xxxxxxxx xxxxxxxx 16
#xD800-#xDFFF Зарезервированы
#xE000-#xFFFF 2 xxxxxxxx xxxxxxxx 16
#x10000-#xFFFFF 4 110110xxxxxxxxxx 110110xxxxxxxxxx 20
Примеры

Символ 'Э' с кодом #x42D будет записан в UTF-16 в виде последовательности из двух байт — #x042D.

Для символа с кодом #x153DC (в двоичном представлении — 10101001111011100) понадобится 4 байта. Он будет записан в виде

1101100001010100 1101101111011100

или #xD854DBDC в шестнадцатеричном исчислении.

Полужирным шрифтом выделены управляющие биты UTF-16, курсивом — биты кода символа.

UTF-32

UTF-32 является самой простой формой кодирования — для каждого символа, вне зависимости от диапазона, используются 4 байта. Такой способ, несомненно, не является самым экономичным с точки зрения объема хранимой информации, но во многих случаях предоставляет определенные преимущества при обработке текста, так как символы не нужно декодировать.

Коды некоторых символов Unicode

В таблицах символов Unicode кодируются не только символы и знаки различных языков, но также и некоторые управляющие символы, например, неразрываемый пробел (no-break space), табуляция, перенос строки и так далее. Коды некоторых из этих символов, часто использующихся в XML-технологиях, мы приводим в табл. 1.4.

Таблица 1.4. Unicode-коды некоторых символов

Код Обозначение Описание
#х9 [НТ] Горизонтальная табуляция (horizontal tabulation)
#xA [LF] Перевод строки (line feed)
#xD [CR] Возврат каретки (carriage return)
#x20 [SP] Пробел (space)
#x21 ! Восклицательный знак (exclamation sign)
#x22 ' Двойные кавычки (quotation mark)
#x26 & Амперсант (ampersand)
#x27 ' Апостроф или одинарные кавычки (apostrophe)
#x3C < Знак 'меньше' или левая угловая скобка (less-than sign)
Вы читаете Технология XSLT
Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату