百度输入关键词,用python抓取前N个页面,网址后面的怎么去掉?百度版本和以前不一样,怎么修改正则表达式

2025-01-03 06:47:32
推荐回答(2个)
回答1:

如果要去除/后面的东西
找到的字符串 用正则匹配 ([^/]+)/.* 不含/后面的东西的字符串在 捕获括号中,
如果要去除 &后面的东西 也类似:
([^&]+)&.*

看了你的代码,更改如下:
匹配表达式的一部分:
class="f13">(.*?)
如果要去掉 ...
改为:
ass="f13">(.*?)\.{3}

如果要去掉 /后面的东西,改为:
ass="f13">([^/]+).*?

回答2:

把你现在的程序传到网盘上,发出来看一下