Лабораторная работа: Структура XML документа. XML схемы
Цель работы: знакомство со структурой XML-документа, основами синтаксиса языка и методами контроля содержимого документа с помощью схем
XML документ можно представить в виде древовидной структуры, которая начинается с "корня" и заканчивается "листьями".
Ниже приведен пример XML документа:
<?xml version="1.0" encoding="Windows-1251"?>
<mail>
<to>user1@domain.ru</to>
<from>user2@domain.ru </from>
<subject>Встреча</heading>
<body>Позвони мне завтра утром</body>
</mail>
В первой строке помещена XML декларация, описывающая версию XML и используемую кодировку
В следующей строке описан корневой элемент документа.
В последующих четырех строках описаны 4 дочерних элемента относительно корневого: (to, from, subject и body).
И в последней строке указывается конец корневого элемента.
XML документ должен содержать корневой элемент, который является родительским для всех остальных элементов. Любой элемент (кроме находящихся на самом нижнем уровне дерева) может иметь вложенные элементы (дочерние элементы).
С помощью терминов родитель, дочерний и потомок описываются отношения между элементами в дереве XML документа. Родители содержат дочерние элементы, а дочерние элементы одного уровня называются потомками (братьями или сестрами).
Элементы могут иметь текстовое содержимое и атрибуты.
Ниже приведена схема, показывающая отношения между элементами и атрибутами этого документа:
Кроме того в XML документе следует выполнять еще несколько несложных правил:
- Каждый XML элемент иметь закрывающий тэг.
- XML тэги чувствительны к регистру.
- Должны соблюдаться правила вложенности элементов.
- XML документы должны иметь корневой элемент, который является родительским для всех других элементов.
- Значения XML атрибутов должны заключаться в двойные кавычки.
Некоторые из символов (их всего 5) имеют специальное значение в XML. Для их обозначения используются альтернативные сочетания:
замена | символ |
< | < |
> | > |
& | & |
' | ' |
" | " |
Комментарии в XML выделяются также как и в HTML:
<!-- Это комментарий -->
В отличие от HTML, который игнорирует повторы пробелов, XML сохраняет полную длину строки из пробелов.
XML документы, оформленные в соответствии с приведенными выше правилами, называются "правильно оформленными". Если при этом они еще и соответствуют правилам DTD (Document Type Definition), то они являются и "действительными".
Действительные XML документы содержат ссылку на DTD файл, например:
<!DOCTYPE note SYSTEM "mail.dtd">
DTD схема предназначена для определения структуры XML документа путем задания списка допустимых элементов, например
<!DOCTYPE mail [
<!ELEMENT note (to,from,subject,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT subject (#PCDATA)>
<!ELEMENT body (#PCDATA)>
]>
Консорциум W3C поддерживает альтернативную к DTD, основанную на XML схему, называемую как "XML Schema":
<xs:element name="mail">
<xs:complexType>
<xs:sequence>
<xs:element name="to" type="xs:string"/>
<xs:element name="from" type="xs:string"/>
<xs:element name="subject" type="xs:string"/>
<xs:element name="body" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:element>
Для проверки действительности XML документа можно использовать специальные валидаторы, например W3C валидатор (http://validator.w3.org/). Для проверки схем также существуют специальные валидаторы, например XML Schema валидатор (http://www.w3.org/2001/03/webdata/xsv).
Согласно спецификации W3C XML программа должна прекратить обработку XML документа, как только будет обнаружена ошибка в этом документе.
DTD схема
DTD (Document Type Definition) определяет допустимые строительные блоки XML документа, путем указания списка допустимых элементотв и атрибутов.
DTD может описываться как внутри XML документа, так и с помощью внешней ссылки.
Пример внутреннего описания:
<?xml version="1.0"?>
<!DOCTYPE note [
<!ELEMENT mail (to,from,subject,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT subject (#PCDATA)>
<!ELEMENT body (#PCDATA)>
]>
<note>
<to>user1@domain.ru</to>
<from>user2@domain.ru</from>
<heading>Встреча</heading>
<body> Позвони мне завтра утром </body>
</note>
В данном примере:
!DOCTYPE mail определяет корневой элемент документа mail.
!ELEMENT note определяет элемент note, который содержит четыре элемента:
"to, from, subject, body".
!ELEMENT to определяет элемент to типа "#PCDATA".
!ELEMENT from определяет элемент from типа "#PCDATA".
!ELEMENT subject определяет элемент subject типа "#PCDATA".
!ELEMENT body определяет элемент body типа "#PCDATA".
Пример внешнего описания:
<?xml version="1.0"?>
<!DOCTYPE note SYSTEM "mail.dtd">
<note>
<to>user1@domain.ru</to>
<from>user2@domain.ru</from>
<heading>Встреча</heading>
<body> Позвони мне завтра утром </body>
</note>
Для чего необходимо использование DTD?
- С помощью DTD XML файлы могут содержать описание собственного формата.
- Независимые группы людей могут обмениваться данными.
- DTD-схема может быть использована для проверки действительности, как документов получаемых извне, так и собственных документов.
С точки зрения DTD все XML документы (HTML документы) строятся из следующих строительных блоков:
- Элементы (Elements). Элементы могут содержать текст, другие элементы или быть пустыми.
- Атрибуты Attributes). Атрибуты всегда размещаются внутри открывающего тэга элемента. Атрибуты всегда записываются в виде пары имя/значение.
- Entities.
- PCDATA. Означает структурированные символьные данные. Подлежит анализу с помощью парсера на наличие специальных символов (entities) и элементов разметки.
- CDATA. Означает текст, содержимое которого не рассматривается анализатором.
При описании структуры элементов, содержащих вложенные элементы можно использовать специальные операторы, задающие множественность их вхождения:
- '+': один и более раз, например, <!ELEMENT note (message+)>
- '*': ноль и более раз, например, <!ELEMENT note (message*)>
- '?': ноль и один раз, например, <!ELEMENT note (message?)>
Объявление вида <!ELEMENT note (message|body)> указывает на возможность вхождения в элемент note другого элемента: message ИЛИ body.
Атрибуты элементов описываются в форме:
<!ATTLIST element-name attribute-name attribute-type default-value>
например:
<!ATTLIST payment type CDATA "check">
Соответствует XML коду:
<payment type="check" />.
Тип атрибута может принимать одно из значений:
Тип | Описание |
CDATA | Символьные данные |
(en1|en2|..) | Значение из списка |
ID | Уникальный id |
IDREF | id другого элемента |
IDREFS | Список других id |
NMTOKEN | Допустимое XML имя |
NMTOKENS | Список допустимых XML имен |
ENTITY | Специальные символы |
ENTITIES | Список специальных символов |
NOTATION | Имя нотации |
xml: | Предопределенное XML имя |
Значение по умолчанию может быть одним из следующих:
Значение | Интерпретация |
#REQUIRED | Обязательно |
#IMPLIED | Не обязательно |
#FIXED value | Значение фиксировано |
XML Schema
Так же как DTD схема XML Schema определяет допустимые строительные блоки XML документа.
XML Schema:
- элементы, входящие в документ
- атрибуты, допустимые в документе
- дочерние элементы
- порядок дочерних элементов
- количество дочерних элементов
- может ли элемент быть пустым или может содержать текст
- типы элементов и атрибутов
- фиксированные и значения по умолчанию элементов и атрибутов
Предполагается, что в перспективе DTD схемы будут замещены XML Schema в большинстве веб-приложений поскольку XML Schema:
- Расширяема для будущих добавлений.
- Более богатые и мощные выразительные возможности.
- Является реализацией XML.
- Поддерживает типы данных.
- Поддерживают пространства имен.
XML Schema стала W3C рекомендацией в 2001 году.
Рассмотрим в качестве примера XML документ:
<?xml version="1.0" encoding="Windows-1251"?>
<mail>
<to>user1@domain.ru</to>
<from>user2@domain.ru </from>
<subject>Встреча</heading>
<body>Позвони мне завтра утром</body>
</mail>
Структура данного документа может быть рассмотрена с помощью следующей XML Schema:
<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://www.myhp.edu"
xmlns=" http://www.myhp.edu"
elementFormDefault="qualified">
<xs:element name="mail">
<xs:complexType>
<xs:sequence>
<xs:element name="to" type="xs:string"/>
<xs:element name="from" type="xs:string"/>
<xs:element name="subject" type="xs:string"/>
<xs:element name="body" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>
В данном примере элемент mail имеет тип complexType, поскольку содержит другие элементы. Другие элементы документа имеют простой тип, поскольку не включают других элементов.
Ссылка на схему в XML документе выглядит следующим образом:
<?xml version="1.0"?>
xmlns="http:// www.myhp.edu "
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.myhp.edu mail.xsd">
<to>user1@domain.ru</to>
<from>user2@domain.ru </from>
<subject>Встреча</heading>
<body>Позвони мне завтра утром</body>
</mail>
Элемент <schema> является корневым элементом любой схемы XML Schema.
Данный элемент может содержать несколько атрибутов, например:
<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://www.myhp.edu"
xmlns="http://www.myhp.edu"
elementFormDefault="qualified">
...
...
</xs:schema>
Следующий фрагмент:
xmlns:xs="http://www.w3.org/2001/XMLSchema"
указывает на то, что элементы и типы данных, используемые в схеме входят в пространство http://www.w3.org/2001/XMLSchema. Причем, все элементы и типы данных из этого пространства имен должны иметь префикс xs.
Фрагмент:
targetNamespace="http://www.myhp.edu"
указывает на то, что элементы, определяемые в схеме входят в пространство "http://www.myhp.edu".
Во фрагменте:
xmlns="http://www.myhp.edu"
указывается, что пространством имен по умолчанию является "http://www.myhp.edu"
Следующий фрагмент:
elementFormDefault="qualified"
указывает на то, что любые элементы, объявленные в схеме, должны принадлежать пространству имен.
Ссылка на внешнюю схему может выглядеть следующим образом:
<?xml version="1.0"?>
<mail xmlns=" http://www.myhp.edu "
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation=" http://www.myhp.edu mail.xsd">
<to>user1@domain.ru</to>
<from>user2@domain.ru </from>
<subject>Встреча</heading>
<body>Позвони мне завтра утром</body>
</mail>
Здесь строка
xsi:schemaLocation=" http://www.myhp.edu mail.xsd">
указывает на местоположение файла схемы.
Дата добавления: 2015-12-29; просмотров: 1758;