这个也是我想做的,用正则貌似也只是提取到哪个标签里面的内容,你要是值提取汉字,好像也不是很容易的事情。现在我觉得,一个方法,可以是用DOM遍历真个源代码,把每个标签(也就是节点)都遍历出来,然后单纯的取标签里面的内容,不要取它的属性值,就可以了,不过这可能比较麻烦,但是应该可行
匹配中文字符的正则表达式: [\u4e00-\u9fa5]
你要提出url中的汉字还是网页中的汉字?要把提出的字符放在哪里?问题描述不清楚没办法解答