2 | xxxxxxxx xxxxxxxx | 16 | |
#xD800-#xDFFF | |||
#xE000-#xFFFF | 2 | xxxxxxxx xxxxxxxx | 16 |
#x10000-#xFFFFF | 4 | 110110xxxxxxxxxx 110110xxxxxxxxxx | 20 |
Символ 'Э
' с кодом #x42D
будет записан в UTF-16 в виде последовательности из двух байт — #x042D
.
Для символа с кодом #x153DC
(в двоичном представлении — 10101001111011100
) понадобится 4 байта. Он будет записан в виде
110110
или #xD854DBDC
в шестнадцатеричном исчислении.
Полужирным шрифтом выделены управляющие биты UTF-16, курсивом — биты кода символа.
UTF-32 является самой простой формой кодирования — для каждого символа, вне зависимости от диапазона, используются 4 байта. Такой способ, несомненно, не является самым экономичным с точки зрения объема хранимой информации, но во многих случаях предоставляет определенные преимущества при обработке текста, так как символы не нужно декодировать.
Коды некоторых символов Unicode
В таблицах символов Unicode кодируются не только символы и знаки различных языков, но также и некоторые управляющие символы, например, неразрываемый пробел (no-break space), табуляция, перенос строки и так далее. Коды некоторых из этих символов, часто использующихся в XML-технологиях, мы приводим в табл. 1.4.
Код | Обозначение | Описание |
---|---|---|
#х9 | [НТ] | Горизонтальная табуляция (horizontal tabulation) |
#xA | [LF] | Перевод строки (line feed) |
#xD | [CR] | Возврат каретки (carriage return) |
#x20 | [SP] | Пробел (space) |
#x21 | ! | Восклицательный знак (exclamation sign) |
#x22 | ' | Двойные кавычки (quotation mark) |
#x26 | & | Амперсант (ampersand) |
#x27 | ' | Апостроф или одинарные кавычки (apostrophe) |
#x3C | < | Знак 'меньше' или левая угловая скобка (less-than sign) |