第一步 当然是先把超星的书下载回来,下载了一本《中国艺术经典全书--魔术》。
打开后,点击左面栏“章节目录”,在下拉框中选择“页列表模式”,这样能知道要打印多少页。如图。
第二步:打印设置
选择“图书”-->“打印”,弹出“打印设置”窗口,设置打印页数和方式。只打印目录页和正文页,共137页。其它使用默认设置。如图:
在弹出的“打印”窗口中,选择微软的虚拟打印机,勾选“打印到文件”复选框。输出路径可以在“首选项”按钮的“高级”选项卡中设定。打印的生成的文件的扩展名是.mdi。
注意:超星会检测打印名称中是不是含有“image”,“office"等字样,若有,就拒绝打印。所以要把打印机的名字改一下。上图中的“超星打印机”就是Microsoft Office Document Imaging 打印机。
第三步:执行OCR识别功能
打印完成后,文件将自动打开。
大致浏览一下,把空白页和图片太多的页删掉。然后在工具栏点击word样的图标,弹出“将文本发送到WORD”窗口,直接确定,MS Office Document Imaging便开始执行文字识别功能,并将识别的内容写入与打印文件相同目录下的同名word文档。
文字识别执行完成后文档自动打开。这里打开的是一个网页文件,将其另存为.doc。
生成的文件中有乱码是必然的。在排版复杂或图片多的文件中尤其如此。OCR会努力把图片当成文字来识别,通常需要要把文中多余的空格和回车删掉。最后,把乱码修改一下。
使用浏览器自带的“文字识别”,然后复制到WORD空白文档,保存
PDG转DOC详细步骤
所需软件(这些软件都很好下,百度直接搜索即可,Adobe Acrobat 8 Professional
可以暂不激活):
1、 Adobe Acrobat 8 Professional
2、 超星阅读器
3、 Solid Converter PDF
4、 OFFICE的组件“Microsoft Office Document Imaging”
详细操作步骤:
第一步:PDG转PDF
一、下载并安装上述全部软件(Microsoft Office Document Imaging需要下载OFFICE安装程序安装,安装时选择完全安装或将Microsoft Office Document Imaging一栏选上)。
二、开始->设置->控制面板->“设备和打印机”,找到“Adobe PDF”一项,右键点之,选“打印机属性”,并将名称改为“Adobe PADF”。
三、用超星阅读器打开书籍的第一页文件(目录文件)->图书->打印->在“打印范围”中选“指定起始页”并设置为1,下方单击“目录页”,打印页数设置为本目录的文件数即可->点击“确定”。
四、进入打印选项,拖动窗口上方的横向滚动栏寻找“Adobe PADF”,找到后双击之,并在弹出的文件位置选择框中设置存放路径,完成后单击“确定”。
五、等待进度条走到100%。
六、这时要观察转换出的pdf内是图片或是文本(一般图片扫描的会略显模糊,而且文本的虽然不能复制粘贴,但大多可以直接框蓝),然后请根据观察结果参考下文不同部分进行操作。
第二步-1:PDF转DOC
(如果第一步转换出的PDF内为文本,或只需要将PDF转为DOC而不做修改,请参照下文,否则请跳至“第二步-2”进行操作,便可获得绝对完美的效果。如果上一步转出的PDF中每一页文字都是以图片形式存在的话,那么这种图片形式将继续延续到本过程转出的最终DOC文档中)
一、打开Solid Converter PDF。
二、点击窗口右边的“浏览”按钮并选中上一步转换出的PDF文件,下方的“产出文件格式”选为“Word DOC文件(*.doc)”。
三、点击“浏览”按钮正下方的“转换”。
四、等待转换完成。
五、查收转换好的DOC文件并做后期处理。