用replace pioneer提取html文件中的<p>和<⼀p>之间内容之后的输出问题

2024-11-25 08:05:14
推荐回答(1个)
回答1:

可以结合Replace Pioneer的文本分割功能把提取出来的文本自动分割成多个文件,详细步骤:
1. ctrl-o打开待处理html文件
2. ctrl-h打开replace窗口
* search for pattern输入

([^<>]*)

即可
* replace with pattern输入下面两行:
FILENAME:$word_no.txt
$1\n
* 去掉print unmatched unit选项
* 在右下角有一个output file编辑框,在里面添上待输出的目录和基准文件名,比如d:\test\a.txt,并把左边的<改为<< Split by Paragraph
* 选择Settings选项页
Para start选项选择Other,后面输入^FILENAME
Para end选项选择None
3. 以上步骤完整无误后,点击Replace,那么在d:\test目录下就会产生1.txt, 2.txt, 3.txt等等,看看是不是你需要的内容。