| 2 | xxxxxxxx xxxxxxxx | 16 | |
| #xD800-#xDFFF | |||
| #xE000-#xFFFF | 2 | xxxxxxxx xxxxxxxx | 16 | 
| #x10000-#xFFFFF | 4 | 110110xxxxxxxxxx 110110xxxxxxxxxx | 20 | 
Символ 'Э' с кодом #x42D будет записан в UTF-16 в виде последовательности из двух байт — #x042D.
Для символа с кодом #x153DC (в двоичном представлении — 10101001111011100) понадобится 4 байта. Он будет записан в виде
110110
или #xD854DBDC в шестнадцатеричном исчислении.
Полужирным шрифтом выделены управляющие биты UTF-16, курсивом — биты кода символа.
UTF-32 является самой простой формой кодирования — для каждого символа, вне зависимости от диапазона, используются 4 байта. Такой способ, несомненно, не является самым экономичным с точки зрения объема хранимой информации, но во многих случаях предоставляет определенные преимущества при обработке текста, так как символы не нужно декодировать.
Коды некоторых символов Unicode
В таблицах символов Unicode кодируются не только символы и знаки различных языков, но также и некоторые управляющие символы, например, неразрываемый пробел (no-break space), табуляция, перенос строки и так далее. Коды некоторых из этих символов, часто использующихся в XML-технологиях, мы приводим в табл. 1.4.
| Код | Обозначение | Описание | 
|---|---|---|
| #х9 | [НТ] | Горизонтальная табуляция (horizontal tabulation) | 
| #xA | [LF] | Перевод строки (line feed) | 
| #xD | [CR] | Возврат каретки (carriage return) | 
| #x20 | [SP] | Пробел (space) | 
| #x21 | ! | Восклицательный знак (exclamation sign) | 
| #x22 | ' | Двойные кавычки (quotation mark) | 
| #x26 | & | Амперсант (ampersand) | 
| #x27 | ' | Апостроф или одинарные кавычки (apostrophe) | 
| #x3C | < | Знак 'меньше' или левая угловая скобка (less-than sign) | 

 
                