python爬虫这样子为什么一直爬的是相同的东西,应该怎么爬取其他td标签下的内容?

2024-12-31 09:50:10
推荐回答(1个)
回答1:

import requests 
from bs4 import BeautifulSoup
import re

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}
ALL=[]
def get_url(s):
url='https://hr.tencent.com/position.php?keywirds=测试&tid=0&start=%s#a'%s
req=requests.get(url,headers=headers,timeout=3)
res=req.content
soup=BeautifulSoup(res,'lxml')
s=soup.select('table.tablelist tr')
Text=s[1:-1]
for i in Text:
job={'职位名称':None,
'职位类别':None,
'人数':None,
'地点':None,
'发布时间':None}
L=i.text.strip(' ').split(' ')
job['职位名称']=L[0]
job['职位类别']=L[1]
job['人数']=L[2]
job['地点']=L[3]
job['发布时间']=L[4]
ALL.append(job)
for i in range(0,101,10):
get_url(i)
print(ALL)

你的问题应该是字段key的问题,key是唯一的。多个结果的话会覆盖,加个list来表达就可以规避这个问题