提取网页中文字？一般的url 提取貌似只能提取网页的源代码，能否只提取网页中的汉字，别的英文字符不需要

2024-12-26 20:05:28

推荐回答（3个）

回答1：

这个也是我想做的，用正则貌似也只是提取到哪个标签里面的内容，你要是值提取汉字，好像也不是很容易的事情。
现在我觉得，一个方法，可以是用DOM遍历真个源代码，把每个标签（也就是节点）都遍历出来，然后单纯的取标签里面的内容，不要取它的属性值，就可以了，不过这可能比较麻烦，但是应该可行

回答2：

匹配中文字符的正则表达式： [\u4e00-\u9fa5]

回答3：

你要提出url中的汉字还是网页中的汉字？要把提出的字符放在哪里？
问题描述不清楚没办法解答

提取网页中文字？ 一般的url 提取貌似只能提取网页的源代码，能否只提取网页中的汉字，别的英文字符不需要