扩展阅读

当前位置: 编程语言>python

python下xml解析库lxml最新版下载安装以及代码示例

发布时间:2014-10-10

本文导语: lxml 是一种使用 Python 编写的库，可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且实现了常见的 ElementTree API。python下xml解析库lxml下载地址: lxml下载&...

lxml 是一种使用 Python 编写的库，可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且实现了常见的 ElementTree API。

python下xml 解析库lxml下载地址: lxml下载

python下xml解析库lxml安装详细介绍: http://lxml.de/installation.html

python下xml解析库lxml用法举例:

from lxml import etree
doc = etree.parse('content-sample.xml')

解析html并建立dom

>>> import lxml.etree as etree
>>> html = '<html><body id="1">abc<div>123</div>def<div>456</div>ghi</body></html>'
>>> dom = etree.fromstring(html)
>>> etree.tostring(dom)
'<html><body id="1">abc<div>123</div>def<div>456</div>ghi</body></html>'

如果用beautifulsoup的解析器，则

>>> import lxml.html.soupparser as soupparser
>>> dom = soupparser.fromstring(html)
>>> etree.tostring(dom)
'<html><body id="1">abc<div>123</div>def<div>456</div>ghi</body></html>'

但是我强烈建议使用soupparser，因为其处理不规范的html的能力比etree强太多。

按照Dom访问 Element

子元素长度

>>> len(dom)
1

访问子元素：

>>> dom[0].tag
'body'

循环访问：

>>> for child in dom:
...     print child.tag
... 
body

查看节点索引

>>>body = dom[0]
>>> dom.index(body)
0

字节点获取父节点

>>> body.getparent().tag
'html'

访问所有子节点

>>> for ele in dom.iter():
...     print ele.tag
... 
html
body
div
div

访问节点属性

>>> body.get('id')
'1'

也可以这样

>>> attrs = body.attrib
>>> attrs.get('id')
'1'

访问Element的内容

>>> body.text
'abc'
>>> body.tail

text只是从本节点开始到第一个字节点结束；tail是从最后一个字节结束到本节点未知。

访问本节点所有文本信息

>>> body.xpath('text()')
['abc', 'def', 'ghi']

访问本节点和子节点所有文本信息

>>> body.xpath('//text()')
['abc', '123', 'def', '456', 'ghi']

貌似返回本文档中所有文字信息

body.text_content()返回本节点所有文本信息。

Xpath的支持

所有的div元素

>>> for ele in dom.xpath('//div'):
...     print ele.tag
... 
div
div

id=“1”的元素

>>> dom.xpath('//*[@id="1"]')[0].tag
'body'

body下的第1个div

>>> dom.xpath('body/div[1]')[0].tag
'div'

您可能感兴趣的文章:

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载,整理或搜集自网络.欢迎任何形式的转载，转载请注明出处.
转载请注明：文章转载自:[169IT-IT技术资讯]
本文标题:python下xml解析库lxml最新版下载安装以及代码示例

python实现dnspod自动更新dns解析的方法

Python下Html/xml解析库Beautiful Soup快速入门教程

python解析xml文件实例分享

python对XML的解析方法(SAX,DOM,ElementTree)介绍

python解析json实例方法

Python中lambda的用法及其与def的区别解析

python中enumerate的用法实例解析

Python 解析XML文件

python使用scrapy解析js示例

静态的Python解析器 StaticPython

python生成日历实例解析

python解析模块(ConfigParser)使用方法