如何将pdf文件的文件转成文本文件

发布网友发布时间：2022-04-19 14:38

共1个回答

热心网友时间：2023-10-04 06:55

目前的PDF文件主要由下面几种类型：
1. 加密类型

1.1 口令加密

1.2 证书加密

2. 不加密类型

2.1 可检索内容的

2.2 扫描件、图片类型做成的

3、针对上面的不同类型需要不同的软件进行转化。

3.1 针对加密的那么我们先要解密，解密后才能够转换成word。至于解密这里不作详解

3.2 针对可检索内容的PDF 我们推荐使用 solid converter PDF 这个软件，虽然速度可能不其他的软件稍慢一点，但是转换的效果是其他软件无法比拟的，基本可以保持版面布局不变。当然其他软件例如 VeryPDF PDF2Word 、e-PDF2word、AnyBizSoft PDF Converter 等转出来效果也还是可以的。

3.3 针对扫描件或者图片类的PDF 想要转成可编辑的word那是件比较费事的事情。我们采用的只有OCR一个方法（当然除了你想自己亲手一个个字打上去）。那么我这里重点讲一下OCR。OCR 就是光学识别字符技术，通过电脑软件读取图形上的字符，然后将其识别出来转为可编辑字符内容。当然前提是图片的分别率要达到一定数值以上，太低了就识别不出来的。这里我先介绍几款软件：

3.3.1 大家基本上都有安装MS office 吧不管是2003的还是2007的都有一个组件Microsoft Office Document Imaging （精简版Office可能会没有）大家平时可能是用不上它的，但是它也却是以个OCR的组件，不过支持的格式不多只有 mdi 、tif 、tiiff 而且识别率也不是很好。大家如果要用的时候可以先把PDF文件用office自带的虚拟打印机转为mdi格式然后再用Microsoft Office Document Imaging 识别。

3.3.2 CAJVIEWER 是中国知网的官方阅读器，完整版的cajviewer带有OCR组件，现在的7.X版本支持直接打开PDF文件然后上面有一个word图标一样的按钮按一下就能够识别但前页面的文字了，然后弹出一个页面，你可以之间把文字复制出来或者存为txt ，对中文的未识别率还是相当高的，缺点就是只能够一页页的识别，这样速度就比较慢。

首页

文章

如何将pdf文件的文件转成文本文件