lxml库之etree使用小结

最近这段时间在处理html网页解析的相关工作，之前使用beautifulsoup进行网页解析，现在换了一种工具，使用etree工具进行网页解析，根据平时的学习记录，简单的总结一下etree的相关知识内容。

一、etree的Element类

1.通过etree.Element()创建XML树

from lxml import etree

root = etree.Element("root")

print(root.tag)

# 添加子元素

root.append(etree.Element("child1"))

child2 = etree.SubElement(root,"child2")

child3 = etree.SubElement(root,"child3")

# 查看现在的XML元素

print(etree.tostring(root, pretty_print=True))

2.etree.Element的属性

from lxml import etree

root = etree.Element("root",goodmorning='Guten Tag') #设置属性方法1

print(etree.tostring(root))

print(root.get('goodmorning')) #获取属性方法1

root.set("hello","caicaibird") #设置属性方法2

print(root.attrib['hello']) #获取属性方法2

print(etree.tostring(root))

3.etree.Element的text属性

root.text = "好好学习天天向上"

print(root.text)

print(etree.tostring(root))

二、从字符串和文件中解析

lxml.etree支持多种方式解析XML，主要用到的解析函数是fromstring()和parse()。

1.`fromstring()`函数

fromstring()函数是解析字符串最简单的方法。

some_xml_data = "<root>data</root>"

root = etree.fromstring(some_xml_data)

print(root.tag)

print(etree.tostring(root))

2.`XML()`函数

XML()函数类似于fromstring()函数，通常用于XML化文档。

root = etree.XML("<root>data</root>")

print(root.tag)

print(etree.tostring(root))

3.`HTML()`函数

HTML()函数类似于XML()函数，通常用于HTML化文档。

root = etree.HTML("<p>data</p>")

print(root.tag)

print(etree.tostring(root))

4.`parse()`函数

parse()函数用于解析文件或类文件对象。

from io import BytesIO

some_file_or_file_like_bject = BytesIO(b"<root>data</root>")

tree = etree.parse(some_file_or_file_like_bject)

print(etree.tostring(tree))

菜单

lxml库之etree使用小结

二、从字符串和文件中解析

1.`fromstring()`函数

2.`XML()`函数

3.`HTML()`函数

4.`parse()`函数

评论

代码提交相关规范

前端预加载图片