[教程]揭秘Python中轻松获取嵌套标签的神奇技巧

发布于 2025-11-24 12:30:34

844

在处理HTML或XML文档时，经常需要提取嵌套标签中的内容。Python提供了多种库来处理这些任务，其中BeautifulSoup和lxml是最常用的两个。本文将详细介绍如何使用这些库来轻松获取嵌套标...

在处理HTML或XML文档时，经常需要提取嵌套标签中的内容。Python提供了多种库来处理这些任务，其中BeautifulSoup和lxml是最常用的两个。本文将详细介绍如何使用这些库来轻松获取嵌套标签的内容。

BeautifulSoup简介

BeautifulSoup是一个用于解析HTML和XML文档的库，它提供了一种简单易懂的方式来进行文档的遍历和搜索。以下是如何安装BeautifulSoup：

pip install beautifulsoup4

使用BeautifulSoup获取嵌套标签

假设我们有一个HTML文档如下：

  Example Page    Welcome to the Example Page
 This is a paragraph with a link.

以下是如何使用BeautifulSoup获取嵌套标签的内容：

from bs4 import BeautifulSoup
# 创建一个BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')
# 获取所有的div标签
divs = soup.find_all('div')
# 遍历div标签并获取其子标签的内容
for div in divs: h1 = div.find('h1') if h1: print(h1.text) # 输出标签中的文本 p = div.find('p') if p: print(p.text) # 输出标签中的文本 a = p.find('a') if a: print(a['href']) # 输出标签的href属性

lxml简介

lxml是一个基于libxml2和libxslt的Python库，它提供了快速、易用的API来处理XML和HTML文档。以下是如何安装lxml：

pip install lxml

使用lxml获取嵌套标签

以下是如何使用lxml获取嵌套标签的内容：

from lxml import etree
# 解析HTML文档
tree = etree.HTML(html_doc)
# 获取所有的div标签
divs = tree.xpath('//div')
# 遍历div标签并获取其子标签的内容
for div in divs: h1 = div.xpath('.//h1')[0].text print(h1) # 输出标签中的文本 p = div.xpath('.//p')[0].text print(p) # 输出标签中的文本 a = div.xpath('.//a')[0].get('href') print(a) # 输出标签的href属性