叶平
发布于 2024-08-30 / 1 阅读 / 0 评论 / 0 点赞

lxml库之etree使用小结

最近这段时间在处理html网页解析的相关工作,之前使用beautifulsoup进行网页解析,现在换了一种工具,使用etree工具进行网页解析,根据平时的学习记录,简单的总结一下etree的相关知识内容。

一、etreeElement

1.通过etree.Element()创建XML

from lxml import etree

root = etree.Element("root")

print(root.tag)

# 添加子元素

root.append(etree.Element("child1"))

child2 = etree.SubElement(root,"child2")

child3 = etree.SubElement(root,"child3")

# 查看现在的XML元素

print(etree.tostring(root, pretty_print=True))

2.etree.Element的属性

from lxml import etree

root = etree.Element("root",goodmorning='Guten Tag') #设置属性方法1

print(etree.tostring(root))

print(root.get('goodmorning')) #获取属性方法1

root.set("hello","caicaibird") #设置属性方法2

print(root.attrib['hello']) #获取属性方法2

print(etree.tostring(root))

3.etree.Elementtext属性

root.text = "好好学习天天向上"

print(root.text)

print(etree.tostring(root))

二、从字符串和文件中解析

lxml.etree支持多种方式解析XML,主要用到的解析函数是fromstring()parse()

1.fromstring()函数

fromstring()函数是解析字符串最简单的方法。

some_xml_data = "<root>data</root>"

root = etree.fromstring(some_xml_data)

print(root.tag)

print(etree.tostring(root))

2.XML()函数

XML()函数类似于fromstring()函数,通常用于XML化文档。

root = etree.XML("<root>data</root>")

print(root.tag)

print(etree.tostring(root))

3.HTML()函数

HTML()函数类似于XML()函数,通常用于HTML化文档。

root = etree.HTML("<p>data</p>")

print(root.tag)

print(etree.tostring(root))

4.parse()函数

parse()函数用于解析文件或类文件对象。

from io import BytesIO

some_file_or_file_like_bject = BytesIO(b"<root>data</root>")

tree = etree.parse(some_file_or_file_like_bject)

print(etree.tostring(tree))


评论