正则表达式可以有多行匹配模式的,具体要看你用什么语言?或者可以先执行文本替换,替换掉换行符,然后再执行正则表达式。
关于HTML网页源码的字符编码(charset)格式(GB2312,GBK,UTF-8,ISO8859-1等)的解释
另外,关于网站抓取方面的,这里面,基本上有你想要的所有的内容:
如何用Python,C#等语言去实现抓取静态网页 模拟登陆网站
用正则表达式要灵活运用,对于网页分析来说,通常html语言是无用的,这时候我们要先把标签过滤掉再进行后续处理。html标签有一个最明显的特征,就是以"<"开始,以">"结束,依此条件,我们先写表达式过滤HTML标签
string pattern="<[a-zA-Z]+[1-7]*[ ]+?>"
这是C#的正则,我解释一下,[a-zA-Z]+,html标签必定以英文字母开头,这没疑问
[1-7]*,对于
标签后面必须为空白字符,我用了[ ]代替,不知道你用什么语言,空白字符代表符号是什么,你了解就行了。
然后到了关闭标签。
这个表达式对于你说的这个网页源码是匹配的。至于更多,一般是要考虑到标签,