提取网页中文字? 一般的url 提取貌似只能提取网页的源代码,能否只提取网页中的汉字,别的英文字符不需要

2024-12-26 20:05:28
推荐回答(3个)
回答1:

这个也是我想做的,用正则貌似也只是提取到哪个标签里面的内容,你要是值提取汉字,好像也不是很容易的事情。
现在我觉得,一个方法,可以是用DOM遍历真个源代码,把每个标签(也就是节点)都遍历出来,然后单纯的取标签里面的内容,不要取它的属性值,就可以了,不过这可能比较麻烦,但是应该可行

回答2:

匹配中文字符的正则表达式: [\u4e00-\u9fa5]

回答3:

你要提出url中的汉字还是网页中的汉字?要把提出的字符放在哪里?
问题描述不清楚没办法解答