你应该使用chrome浏览器的调试工具,点击提交的时候,网页会请求网页,里面包含了所有信息,包含报头等。
具体信息见下图:
爬虫确实对单个ip的访问限制挺严格的,但是对于http访问来说,并不一定需要抓取别人做好的代理。国外的GAE,AWS,以及各种免费的虚拟主机,用python,php都有现成的代理服务,写个自动化脚本不停地去配置、删除代理服器就可以了。
要是仅仅短期使用的话其实用不着这么麻烦,在访问的http request里添加x-forward-for标签,client随机生成,
宣称自己是一台透明代理服务器,像【618爬虫代理服务器,百万级IP池】代理其他人的访问就能绕过许多限制了,一般服务商不会限制透明代理。