Объектную модель документа полезно использовать там, где требуется работать с документом целиком, как с деревом. Представление всего документа будет занимать в памяти значительный объем, поэтому DOM резонно считается моделью, очень требовательной к ресурсам.
При выборе парсера необходимо хорошо понимать задачи, которые нужно будет решать при обработке документа. Во многих случаях совершенно необязательно целиком представлять документ в памяти. Будет вполне достаточным создать обработчик документа, и затем, при помощи SAX-парсера, произвести обработку без особых затрат ресурсов. Если же, напротив, при обработке важно иметь модель всего документа целиком, лучше использовать готовое решение в виде DOM-парсера.
Основные классы задач XML
В этой главе мы разберем несколько основных типов задач, для решения которых целесообразно применять XML. Естественно, этот список даже близко не претендует на полноту, так же, как нельзя, например, перечислить все программы, которые можно написать на языке Java. Несколько примеров предметных областей, которые будут приведены, иллюстрируют классические проблемы, с успехом решенные XML-технологиями.
Создание новых языков
Хотя мы и говорим об XML, как о формате описания данных, на самом деле XML — это
Таким образом, каждый раз, когда мы описываем логическую схему документа, мы создаем новый язык с придуманной нами семантикой и XML-синтаксисом. Достоинством XML в данном случае является стандартность этого синтаксиса, поскольку заботиться о создании модуля для синтаксического разбора (парсера) уже не нужно.
Что же касается семантики языка, то во многих случаях древовидные XML-структуры очень хорошо подходят для ее описания, будь это язык формата документа или язык программирования.
Главным недостатком XML является громоздкость синтаксиса. Например, арифметическое выражение 2*2
может быть выражено в XML приблизительно как:
<mul>
<arg>2</arg>
<arg>2</arg>
</mul>
Очевидно, что с человеческой точки зрения это не самый компактный и элегантный способ.
На данный момент существует великое множество языков, созданных на основе XML. Мы перечислим несколько наиболее известных из них:
□ WML (Wireless Markup Language) — язык разметки для беспроводных устройств, основной формат данных для беспроводного протокола WAP;
□ SVG (Scalable Vector Graphics) — язык описания масштабируемой векторной графики;
□ XHTML — XML-совместимая версия языка гипертекстовой разметки документов;
□ SOAP (Simple Object Access Protocol) — XML-протокол для обмена информацией в распределенных системах;
□ RDF (Resource Description Framework) — система описания ресурсов;
□ XML/EDI (XML/Electronic Data Interchange) — XML-язык для представления сообщений EDI в системах В2В и электронной коммерции;
□ OML (Ontology Markup Language) — язык для описания онтологий и тезаурусов;
□ VoxML (Voice Markup Language) — язык разметки для голосовых приложений;
□ MathML (Mathematical Markup Language) — язык для описания математических выражений;
□ CML (Chemical Markup Language) — язык для описания химических формул;
□ UML exchange Format — XML-выражения языка UML (Unified Modeling Language);
□ CDF (Channel Description Format) — язык для описания данных для автоматической доставки клиенту (технология push-каналов).
Несмотря на то, что XML это язык разметки, он вполне подходит для создания языков программирования. Самым лучшим примером является язык XSLT, которому посвящена эта книга. Кроме того, существует множество менее известных языков, например XML-версия функционального языка Lisp, язык HaXML и другие.
Хранение данных
Практические всегда, когда приложение должно хранить данные во внешних файлах, неизбежны два процесса: парсинг (синтаксический разбор) при считывании данных и сериализация (создание физического выражения состояния объектов) при сохранении (рис. 1.2).
Рис. 1.2. Стандартная схема хранения данных
Использование XML в приведенной выше схеме как формата хранения позволяет использовать вместо парсера и сериализатора стандартные XML-инструменты, так что необходимость писать что-то свое отпадает. Кроме того, поскольку сохраняемый в этом случае документ имеет XML-формат, приложение становится совершенно открытым для интеграции с другими системами, ведь обмен данными может быть осуществлен без каких-либо специальных конверторов (рис. 1.3).
Рис. 1.3. Схема хранения данных в формате XML
Помимо перечисленных выше достоинств предлагаемого способа следует упомянуть также и следующее:
□ хранимые в XML данные могут иметь практически любую сложность; она ограничена лишь концептуальной сложностью древовидных структур;
□ хранимые в XML данные можно снабжать метаинформацией (например, комментариями или инструкциями по обработке);
□ XML как формат пригоден даже для хранения двоичных данных, если они будут преобразованы в подходящую текстовую кодировку;
□ SAX и DOM/XPath-интерфейсы обеспечивают эффективный доступ к XML-данным.
Противопоказаний к использованию XML в качестве формата хранения данных очень мало. Во- первых, разработчик может посчитать нерациональным включение объемных XML-библиотек в приложение размером в 10 Кбайт. Во-вторых, XML-формат это не самый компактный способ хранения данных. В-третьих, открытость внешним приложениям также может быть лишней.
Обмен данными и проекты интеграции