如何将pdf文件的文件转成文本文件
发布网友
发布时间:2022-04-19 14:38
我来回答
共1个回答
热心网友
时间:2023-10-04 06:55
目前的PDF文件主要由下面几种类型:
1. 加密类型
1.1 口令加密
1.2 证书加密
2. 不加密类型
2.1 可检索内容的
2.2 扫描件、图片类型做成的
3、针对上面的不同类型需要不同的软件进行转化。
3.1 针对加密的 那么我们先要解密,解密后才能够转换成word。 至于解密这里不作详解
3.2 针对可检索内容的PDF 我们推荐使用 solid converter PDF 这个软件,虽然速度可能不其他的软件稍慢一点 ,但是转换的效果是其他软件无法比拟的,基本可以保持版面布局不变。当然其他软件例如 VeryPDF PDF2Word 、e-PDF2word、AnyBizSoft PDF Converter 等转出来效果也还是可以的。
3.3 针对扫描件或者图片类的PDF 想要转成可编辑的word那是件比较费事的事情。我们采用的只有OCR一个方法(当然除了你想自己亲手一个个字打上去)。那么我这里重点讲一下OCR。OCR 就是光学识别字符技术,通过电脑软件读取图形上的字符,然后将其识别出来转为可编辑字符内容。当然前提是图片的分别率要达到一定数值以上,太低了就识别不出来的。这里我先介绍几款软件:
3.3.1 大家基本上都有安装MS office 吧 不管是2003的还是2007的 都有一个组件Microsoft Office Document Imaging (精简版Office可能会没有)大家平时可能是用不上它的,但是它也却是以个OCR的组件,不过支持的格式不多 只有 mdi 、tif 、tiiff 而且识别率也不是很好。大家如果要用的时候可以先把PDF文件用office自带的虚拟打印机转为mdi格式然后再用Microsoft Office Document Imaging 识别。
3.3.2 CAJVIEWER 是中国知网的官方阅读器,完整版的cajviewer带有OCR组件,现在的7.X版本支持直接打开PDF文件 然后上面有一个word图标一样的按钮 按一下就能够识别但前页面的文字了,然后弹出一个页面,你可以之间把文字复制出来或者存为txt ,对中文的未识别率还是相当高的,缺点就是只能够一页页的识别,这样速度就比较慢。