python怎么爬去<span>lt;⼀span>中间标签的内容

2024-12-21 20:50:34
推荐回答(1个)
回答1:

这个要看你使用的是什么页面解析工具了

html = """
item1

    item2

"""
# 使用 scrapy 的Selector
from scrapy.selector import Selector
 
# scrapy 的选择器支持 css和xpath选择。下面是css选择器。如果你了解前端JQuery的知识,
# 会发现
Selector(text=html).css('span::text').extract()
# 输出 : ['item1','item2']
Selector(text=html).css('span#s1::text').extract()
# 输出 : ['item2']
Selector(text=html).css('div>span::text').extract()
# 输出 : ['item2']
 
 
# 使用bs4
from bs4 import BeautifulSoup
 
 
soup = BeautifulSoup(html,'html.parser')
sl = soup.find_all("span")
result = [span.get_text() for span in sl]
print(result)
# ['item1', 'item2']