正则表达式怎么提取网页的信息？

2024-12-06 16:26:08

推荐回答（2个）

回答1：

正则表达式可以有多行匹配模式的，具体要看你用什么语言？或者可以先执行文本替换，替换掉换行符，然后再执行正则表达式。

关于HTML网页源码的字符编码（charset）格式（GB2312，GBK，UTF-8，ISO8859-1等）的解释

另外，关于网站抓取方面的，这里面，基本上有你想要的所有的内容：
如何用Python，C#等语言去实现抓取静态网页模拟登陆网站

回答2：

用正则表达式要灵活运用，对于网页分析来说，通常html语言是无用的，这时候我们要先把标签过滤掉再进行后续处理。html标签有一个最明显的特征，就是以"<"开始，以">"结束，依此条件，我们先写表达式过滤HTML标签
string pattern="<[a-zA-Z]+[1-7]*[ ]+?>"
这是C#的正则，我解释一下,[a-zA-Z]+,html标签必定以英文字母开头，这没疑问
[1-7]*，对于标签来说，有可能为h1,h2,...h7
标签后面必须为空白字符，我用了[ ]代替，不知道你用什么语言，空白字符代表符号是什么，你了解就行了。
然后到了关闭标签。
这个表达式对于你说的这个网页源码是匹配的。至于更多，一般是要考虑到标签，

正则表达式 怎么提取网页的信息？

正则表达式怎么提取网页的信息？