XML及使用java解析XML

一、XML文件结构

<?xml version="1.1" encoding="UTF-8" standalone="no"?>
<!DOCTYPE root SYSTEM "path.dtd">
<root>
       .......
</root>

version是告诉浏览器使用什么版本的XML解析器，encoding是来设置文件的编码，standalone表明XML是否引入了其他非XML文件如css、dtd文件

<!DOCTYPE ...>为内部或外部引入的DTD文件，DTD为Document Type Definition，用来定义合法的XML文件结构

<root></root>为XML的根节点，只能有一个，里面存储自定义的标签元素

1.标签的书写规范

XML语法严格，对大小写敏感，不可间接嵌套；标签名不能以数字、_下划线、xml开头；标签名中不能出现空格、：

在XML中<，>，&，“，及逗号都是特殊字符，如要在标签内部使用需要使用内部实体代替

<label attr=""></label>←跟html书写很像不再赘述

<?xml version="1.1" encoding="UTF-8"?>
  <studentList>
    <student id="A01" class="A">
    <name>小明</name>
    <age>19</age>
    <gender>man</gender>
    <score>
      <subject name="Advanced Mathematics">90</>
      <subject name="College English">85</>
      <subject name="C++Programming">88</>
    </score>
  </student>
  <student id="A02" class="B">
    <name>小红</name>
    <age>20</age>
    <gender>woman</gender>
    <score>
      <subject name="Data Structure">80</subject>
      <subject name="JavaProgramming">90</subject>
    </score>
  </student>
</studentList>

一个简单的XML文件

2.CDATA区

所有 XML 文档中的文本均会被解析器解析，只有 CDATA（Unparsed Character Data）区段中的文本会被解析器忽略。

作用：因为XML中有特殊字符的存在（< > &等），所以我们在用XML传送JavaScript代码或者其他数据时，只要将内容声明在CDATA区中就不会被浏览器解析，出错。

使用方法：

<![CDATA[your data]]>

3.处理指令

<?xml-stylesheet type="text/css" href="path.css"?>
<?xml-stylesheet type="text/xsl href="path.xsl"?>
↑没什么好说的

二、DTD语法

在XML文件内使用DTD格式为：

<!DOCTYPE 根标签名称 [ 
  <!ELEMENT>
  <!ATTLIST>
  <!ENTITY>
 ]>

在外部引入为：

<!DOCTYPE 根标签名字 SYSTEM ”path.dtd“>

1.<!ELEMENT>定义元素

书写格式：<!ELEMENT 标签名类别/（内容）>

其中类别值有EMPTY、ANY

（）内填写子标签数量、顺序描述，或对文本内容描述（#PCDATA）

对于子标签数量，有+、*、？、|修饰，类似正则表达式不再赘述

对于顺序描述，（name,age,gender,score）即表达了子标签必须以此顺序定义

PCDATA为Parsed Character Data可解析的字符内容，当标签内只有文本内容（不含嵌套的标签时）可以使用（#PCDATA）

EMPTY，ANY表示标签内容可以是空的，空的或纯文本

对上述XML文件进行定义
<!DOCTYPE studentList [
<!ELEMENT studenList (student+)>
<!ELEMENT student (name,(age?),(gender?),(score?))>     //名字最重要，其他信息可有可无
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT gender (#PCDATA)>
<!ELEMENT score (subject*)>
<!ELEMENT subject ANY>                   //这样就表示支持<s></s>、<s>100</s>这两种写法
]>

DTD定义中必须将所有标签元素全部定义完、属性也是一样的，上述DTD定义不完整，还缺少属性定义

2.<!ATTLIST>定义属性

<!ATTLIST 标签名属性名属性类型属性约束>

属性类型有

CDATA                               属性值是字符数据 

ID                                  属性值是唯一的一个以英文字母开头的ID值

IDREF                               属性值与同一标签内ID型属性的值相等

(en1|en2...)                        属性值是枚举中的一个

<!ATTLIST label name ID #REQUIRED nickname IDREF #REQUIRED>
则说明属性nickname的值必须与name属性的值相同

属性约束有

“   ”                                   如果属性为空，则默认等于“  ”内值

#REQUIRED                               属性值是必需要填写的，不能为空

#IMPLIED                                不必需，可空

#FIXED “ ”                              属性值必填，必须与“ ”内值一样

<!ATTLIST student id ID #REQUIRED class (A|B) #REQUIRED>
id属性值为必填的ID类型，class属性值为必填的、值只能为A或B的枚举类型
<!ATTLIST subject name CDATA #IMPLIED>
name属性的值为选填的字符类型

所以对开头XML的完整DTD定义为

<!DOCTYPE root [
  <!ELEMENT>
   ...
  <!ATTLIST>
  ...
]>

3.<!ENTITY>定义实体

类似c语言#define

引用实体

<!ENTITY d "doctor">

<occupation>&d;</occupation> → 即为<occupation>doctor</occupation>

使用方法： &+实体+；

预定义好的引用实体：

&  \&     <  \<     >  \>     "  \"     '  \'

参数实体

<!ENTITY % order "name,age,gender,score">

顾名思义，参数实体只能用来替换DTD定义标签中的参数

<!ELEMENT student (%order;)> → <!ELEMENT student (name,age,gender,score)>

参数实体定义位置必须位于使用之前，参数实体无法在内部DTD使用，只能在外部使用，一个XML文件只能有一个DTD文件约束

三、使用java解析XML

java不像js一样提供对XML文档的原生支持，我们通过使用dom4j的API来对XML进行操作

C++转战学java的心情

0.提前做好的准备工作

导好jar包

写好一份XML文件
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE studentList SYSTEM "Demo.dtd">
<studentList>
    <student id="A01" class="A">
        <name>小明</name>
        <age>19</age>
        <gender>man</gender>
        <score>
            <averageScore>84.8</averageScore>
            <subject name="AdvancedMathematics">82</subject>
            <subject name="CollegeEnglish">86</subject>
            <subject name="C++">94</subject>
            <subject name="DataStructure">77</subject>
            <subject name="Java">85</subject>
        </score>
        <identity minority="">
            <position>monitor</position>
            <politicalStatus>communist youth league member</politicalStatus>
        </identity>
    </student>
    <student id="A02" class="B">
        <name>小红</name>
        <age>20</age>
        <gender>woman</gender>
        <score>
            <averageScore>91</averageScore>
            <subject name="AdvencedMathematics">97</subject>
            <subject name="CollegeEnglish">89</subject>
            <subject name="C++">82</subject>
            <subject name="DataStructure">95</subject>
            <subject name="Java">92</subject>
        </score>
        <identity minority="壮族">
            <position></position>
            <politicalStatus>party member</politicalStatus>
        </identity>
    </student>
</studentList>

一份DTD文件

1.读取XML文件

SAXReader saxReader = new SAXReader();
Document xml = saxReader.read(XMLparse.class.getClassLoader().getResource("Demo.xml"));    
//使用类加载器可以避免复杂的路径。。。其实也没方便多少
//saxReader.read(new File("C:\Users\15421\eclipse-workspace\XMLparse\src\Demo.xml"))
System.out.println(xml==null?"加载失败":"加载成功");

2.实现增功能

/*--------创建小刚同学的XML结构--------*/
Element rootElement = xml.getRootElement();
System.out.println(rootElement.getName());
Element newElement = DocumentHelper.createElement("student");
newElement.addAttribute("id", "A03");
newElement.addAttribute("class", "A");
newElement.addElement("name").setText("小刚");
System.out.println("id: "+newElement.attributeValue("id")+"   class: "+newElement.attributeValue("class")+"   name: "+newElement.element("name").getText());

结果1

/*----------获取节点列表，在小红前添加小刚---------*/
List<Element> list = rootElement.elements("student");
Iterator<Element> iterator = list.iterator();    //使用集合类的迭代器iterator进行遍历
int index = 0;
while(iterator.hasNext()) {
  Element element = iterator.next();
  if(element.elementText("name").equals("小红")) {
    System.out.println("小红在第"+index+"个上");
    list.add(index,newElement);    //插入小刚
    break;    //注意，在某些情况下不break会造成无限循环的后果（因为list已经变化了），这里倒没有影响
  }
  ++index;
}
System.out.println("添加后：");
iterator = list.iterator();    //迭代器用完了就要换一个（不管原来List变化没有），这里重新加载了一遍
while(iterator.hasNext()) {
  System.out.println(iterator.next().elementText("name"));
}

结果2

3.实现删功能

iterator = list.iterator();
int index = 0;
while(iterator.hasNext()) {
  if(iterator.next().elementText("name").equals("小刚")) {
    list.remove(index);
    break; 
  }
  ++index;
}
iterator = list.iterator();
System.out.println("删除后：");
for(Element element:list){
  System.out.println(element.elementText("name"));
}

结果3

4.实现查、改功能

/*--------------查找----------------*/
//使用xpath快速定位标签
System.out.println("Java成绩：");
String xpath = "//subject[@name='Java']";    //在全体人员中查找name属性为Java的subject标签
List<Node> subjects = xml.selectNodes(xpath);
for(Node node:subjects) {
  System.out.println(node.getText());
}
//使用迭代器遍历(雾)    你喜欢就好
iterator = list.iterator();
  for(;iterator.hasNext();) {
    List<Element> list2 = iterator.next().elements();
    Iterator<Element> iterator2 = list2.iterator();
    for(;iterator2.hasNext();) {
      Element element = iterator2.next();
      if(element.getName().equals("score")) {
        List<Element> list3 = element.elements();
        Iterator<Element> iterator3 = list3.iterator();
        for(;iterator3.hasNext();) {
          Element element2 = iterator3.next();
          if(element2.getName().equals("subject")&&element2.attributeValue("name").equals("Java")) {
            System.out.println(element2.getText());
        }
      }
    }
  }
}

结果4

/*-------------修改标签属性值/内容-------------*/
//1.修改小明少数民族为苗族
//2.修改全体人员职位为student
xpath = "student[@id='A01']//identity";
Element identity = (Element)xml.selectSingleNode(xpath);
identity.addAttribute("minority", "苗族");
//↑这里失败了，原因是select方法返回的是Node类型，强制转换后虽然能使用addAttribute方法但是报错空指针
//以后再研究吧
xpath = "//position";
List<Node> position_list = xml.selectNodes(xpath);
for(Node node:position_list) {
  node.setText("student");
}

5.向硬盘中输出修改的XML

OutputStream os = new FileOutputStream(new File("C:\\Users\\15421\\Desktop\\demo_out.xml"));  
\\是转义符哦
OutputFormat of = OutputFormat.createPrettyPrint();
//createCompactPrint 将去掉所有缩进
XMLWriter xml_out = new XMLWriter(os,of);
xml_out.write(xml);
xml_out.close();

结果5

小结

最近学的好杂啊。。。快爆炸了，我要写物理实验了。

最后编辑于：2017.12.11 03:16:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,924评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,781评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,813评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,264评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,273评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,383评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,800评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,482评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,673评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,497评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,545评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,240评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,802评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,866评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,101评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,673评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,245评论 2赞 341