xml格式正确和有效的区别(用了这么长时间的xml)(1)

验证xml格式DTD验证

可以使用DTD来定义XML文档的合法构建模块。DTD可以写在文档内部,也可以另外写一个文件

文档内部

<?xml version="1.0"?> <!DOCTYPE note [ <!ELEMENT note (to,from,body)> <!ELEMENT to (#PCDATA)> <!ELEMENT from (#PCDATA)> <!ELEMENT body (#PCDATA)> ]> <note> <to>ll</to> <from>zh</from> <body>hello</body> </note>

DTD包含在以上格式的声明中

<!DOCTYPE 根元素 [元素声明]>

外部文档

如果DTD位于XML源文件外部,应该封装在一个DTD文档中,并在XML中声明

<!DOCTYPE 根元素 SYSTEM "文件名">

DTD结构

元素声明的语法格式

<!ELEMENT 元素名称 元素内容说明>

元素内容说明的格式

#PCDATA

关键字#PCDATA说明元素包含字符数据,内容只能是字符数据

例:

<?xml version="1.0"?> <!DOCTYPE name [ <!ELEMENT name (#PCDATA)> ]> <name>张三</name>

子元素

说明元素包含的是子元素。当一个元素只包含子元素时而没有字符数据时,表示此元素类型具有元素型类型。在该类型的元素声明时,通过内容模型来指定在其内容上的约束(内容模型是决定子元素类型和子元素出现顺序的一种简单语法)

例:

<?xml version="1.0"?> <!DOCTYPE note [ <!ELEMENT note (to,from,body)> <!ELEMENT to (#PCDATA)> <!ELEMENT from (#PCDATA)> <!ELEMENT body (#PCDATA)> ]> <note> <to>ll</to> <from>zh</from> <body>hello</body> </note>

复杂一些的内容模型为

<!-- 竖线| 表示这些至少存在一个 ? 表示可以有一个也可以没有 * 表示零个或者多个 表示一个或者多个,至少有一个 --> <!-- 该内容模型表示 简历中要有名字,性别,年龄,电话和手机任选一个,填写一个家庭住址或者不填,零个或者多个兴趣爱好,至少一个教育经历,工作经验可有可无 --> <!ELEMENT 简历 (名字,性别,年龄,(电话 | 手机), 家庭住址?, 兴趣爱好*, 教育经历 , 工作经验*)>

混合内容

既可以包含子元素,也可以包含字符数据(使用混合内容模型时,#PCDATA关键字必须是模型中的第一个选项,不能再模型中使用逗号、问号或加号。只能用竖线来分隔#PCDATA和元素)

<?xml version="1.0"?> <!DOCTYPE email [ <!ELEMENT email (#PCDATA | body)*> <!ELEMENT body (#PCDATA)> ]> <email> 邮件 <body>hello</body> </email>

EMPTY

关键字EMPTY表明该元素既不包含字符数据,也不包含子元素,是一个空元素

例:

<!ELEMENT br EMPTY>

ANY

关键字ANY表明该元素可以包含任何字符数据和子元素

<!ELEMENT note ANY>

XML Schema Definition

在DTD之后,W3C推出了新的规范来验证xml格式:XML Schema Definition

Schema语法格式

<?xml version="1.0"?> <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" targetNamespace="http:///j2j.idril.cn" xmlns="http://j2j.idril.cn" elementFormDefault="qualified"> <xs:element name="note"> <xs:complexType> <xs:sequence> <xs:element name="to" type="xs:string"/> <xs:element name="from" type="xs:string"/> <xs:element name="body" type="xs:string"/> </xs:sequence> </xs:complexType> </xs:element>

<xs:schema // 指定了schema中用到的元素和数据类型来自的命名空间 还规定了来自此命名空间的元素和数据类型应该使用前缀xs: xmlns:xs="http://www.w3.org/2001/XMLSchema" // 说明此schema定义的元素来自的命名空间 targetNamespace="http:///j2j.idril.cn" // 指定了默认的命名空间 xmlns="http://j2j.idril.cn" // 指出任何XML实例文档所使用的且在此schema中声明过的元素必须被命名空间限定 elementFormDefault="qualified">

// 简易元素(仅包含文本的元素,不会包含子元素或属性) // 常用的type有xs:strig、xs:decimal、xs:integer、xs:Boolean、xs:date、xs:time <xs:element name="to" type="xs:string"/>

// 属性 // 常用的type有xs:strig、xs:decimal、xs:integer、xs:Boolean、xs:date、xs:time <xs:attribute name="lang" type="xs:string"/>

// 限定 用于XML元素或者属性定义可接受的值 <xs:restriction base="xs:integer"> <xs:minInclusive value="0"> <xs:maxInclusive value="120"> </xs:restriction>

// 复合元素 <xs:element name="note"> <xs:complexType> <xs:sequence> <xs:element name="to" type="xs:string"/> <xs:element name="from" type="xs:string"/> <xs:element name="body" type="xs:string"/> </xs:sequence> </xs:complexType> </xs:element>

Schema的使用

同样的,在xml中需要声明Schema

<?xml version="1.0"?> <note xmlns="http://j2j.idril.cn" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://j2j.idril.cn node.xsd"> <to>ll</to> <from>zh</from> <body>hello</body> </note>

// 规定了默认的命名空间的声明 xmlns="http://j2j.idril.cn" // 定义了XML Schema实例命名空间 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" // 包含两个值 第一个值是需要使用的命名空间 第二个值是供命名空间使用的XML Schema的位置 xsi:schemaLocation="http://j2j.idril.cn node.xsd"

,