python里操作xml

XML

可扩展标记语言 (XML) 是一种简单灵活的文本格式,可以作为创建新的标记语言的基础,以便在文档发布和数据交换中使用。 XML 基于万维网联合会 (W3C) 的工作小组发布的一系列建议,因此,非常适合(尽管并不限于)在基于 Web 的应用程序中使用。

xml约束

xml文档约束有两种类型:dtd和schema

  • dtd:dtd是平面式文档,dtd文件不是xml文档,通常扩展名为“.dtd”。它是最早的xml约束;

  • schema:schema本身也是xml文档,它比dtd要更加强大,通常扩展名为“.xsd”。它是新的xml文档约束,用来替代dtd。
    schema语法参考

schema约束下的XSD文档比较难于阅读,一般可以使用转化工具将其转为xml进行阅读。

目前W3C标准制定的许多schema约束xsd文档都是直接放在网上供解析(也就是命名空间指向的网址), 许多第三方插件或浏览器也都内置了W3C的xml约束文档, 用于解析xml。

XML命名空间声明标签约束:

编写一个约束文档后,通常需要把则个文件中声明的元素绑定到一个URI地址上,即定义为一个命名空间,以后xml文件就可以通过这个URI(命名空间)来告诉解析引擎,xml文档中编写的元素来自哪里,被谁约束, 然后可以使用该命名空间下的标签, 如果xml无需引入特定标签, 则可以不声明命名空间。

例如: <html xmlns="http://www.w3.org/1999/xhtml">
-----xmlns是XHTML namespace(名称空间)的缩写。
作用:用来确定标签的约束来自于哪个W3C规范的个约束文档上
格式:
方式1:xmlns="名称"
方式2:xmlns:别名="名称"

针对XML/HTML文档解析的DOM

DOM全称 Document Object Model,即文档对象模型。
XML-DOM, 就是将XML(或者HTML)内的节点定义成基本统一的对象数据可以供程序语言编程控制的技术规范。
基本上各种语言都针对XML实现了自己的DOM第三方库以解析和生成XML,在python中是minidom。


python有三种方法解析XML:

SAX,DOM,以及ElementTree

  • 1.SAX (simple API for XML )
    pyhton 标准库包含SAX解析器,SAX是一种典型的极为快速的工具,在解析XML时,不会占用大量内存。
    但是这是基于回调机制的,因此在某些数据中,它会调用某些方法进行传递。这意味着必须为数据指定句柄,
    以维持自己的状态,这是非常困难的。
  • 2.DOM(Document Object Model)
    与SAX比较,DOM典型的缺点是比较慢,消耗更多的内存,因为DOM会将整个XML数读入内存中,并为树
    中的第一个节点建立一个对象。使用DOM的好处是你不需要对状态进行追踪,因为每一个节点都知道谁是它的
    父节点,谁是子节点。但是DOM用起来有些麻烦。
  • 3.ElementTree(元素树)
    ElementTree就像一个轻量级的DOM,具有方便友好的API。代码可用性好,速度快,消耗内存少。

在使用Python进行XML解析时,首选使用ET模块, 因为据lxml的作者评价,DOM这个模块使用起来并不方便,效率也不高,而且还容易出现问题。

ET模块使用

引用: import xml.etree.ElementTree as ET

先对XML的格式做一些说明:
Tag: 使用<和>包围的部分,如成为start-tag,是end-tags;
Element:被Tag包围的部分,如68,可以认为是一个节点,它可以有子节点;
Attribute:在Tag中可能存在的name/value对,如中的name="Liechtenstein",一般表示属性。

ET模块解析XML
  • 读入xml 有两种途径,从文件读入和从字符串读入。
tree = ET.parse('sample.xml')
root = tree.getroot()
root = ET.fromstring(sample_as_string)
  • 读入xml 有两种途径,从文件读入和从字符串读入。

  • 查看Tag和Attribute
    这时得到的root是一个指向Element对象,我们可以通过查看root的tag和attrib来验证这一点:

 root.tag
 root.attrib
  • 新增孩子节点/建立子元素关系
Element.append(childElement)

#下面是建立资源数关系并且返回资源数对象使得可以对资源数操作
a = ET.SubElement(root, 'a')
b = ET.SubElement(root, 'b')
  • 删除孩子节点:
Element.remove(childElement)
  • 保存XML,使用文件读入解析时,可以直接保存
tree.write('output.xml')
  • 不能保存就设置属性构建
root = ET.Element('data') 
    country = ET.SubElement(root,'country', {'name':'Liechtenstein'})
    rank = ET.SubElement(country,'rank')
    rank.text = '1'
    year = ET.SubElement(country,'year')
    year.text = '2008'
    ET.dump(root)

XPath表达式

XPath表达式用来在XML中定位Element:

import xml.etree.ElementTree as ET

root = ET.fromstring(countrydata)

# Top-level elements
root.findall(".")

# All 'neighbor' grand-children of 'country' children of the top-level
# elements
root.findall("./country/neighbor")

# Nodes with name='Singapore' that have a 'year' child
root.findall(".//year/..[@name='Singapore']")

# 'year' nodes that are children of nodes with name='Singapore'
root.findall(".//*[@name='Singapore']/year")

# All 'neighbor' nodes that are the second child of their parent
root.findall(".//neighbor[2]")
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容

  • 1. XML总结 1.1. XML简介 XML : 可扩展的标记语言。(和HTML非常类似的) 可扩展的。 自定义...
    Ethan_Walker阅读 2,967评论 0 12
  • 一、XML介绍 XML 指可扩展标记语言(EXtensible Markup Language),也是一种标记语言...
    圣贤与无赖阅读 1,112评论 2 3
  • 课程内容:XML 安装MyEclipse开发工具 * 破解(看图) * 配置 * 配置工作空间的编码(UTF-...
    流年划破容颜_cc55阅读 1,169评论 0 2
  • # XML复习 ## 第一章 ## 思考题 **什么是XML?** XML是可扩展性标记语言,XML是标准通用标记...
    冷漠铁锤丁富贵阅读 793评论 0 0
  • XML技术 认识XML XML是Extensible Markup Language即可扩展标记语言的缩写,是一种...
    刘玉鹏151阅读 946评论 0 0