这问题放弃用正则,要真正完备的可能得写一篇文章那样长。但 html 已经是结构化的了,找个 html 解析库就行了。当然,如果所看到的是受 js 影响后的页面状态,那可能得挂个浏览器内核来帮你获取到最终页面状态了。幸好,这个有很多开源的。