PDF轉換之家
QQ/微信:6889929

如何提取pdf图片上的文字转换成word后是图片形式该怎么转换可编辑的Word?

在写论文或者报告时,有时常需要将图片上的文字提取出来。这些图片,有的是用相机拍下来的,有的是用扫描仪扫描的。

它们的共同点是图片上的文字无法复制粘贴,因此不能直接用Word编辑。除了图片上的文字需要提取之外,有时候还需要将Pdf转化为Word

 

最粗暴的办法是对照着图片进行人工手动输入,但问题是:如果只有一两页图片,这种方法还可以勉强接受;如果有一本Pdf电子书想转化为Word,那么工作量太大了。

 

幸好,我们不是第一批遇到这个问题的人。早在1929年,一位奥地利大叔最先提出了解决办法,并申请了专利。

 

1. 图片自动转文字的技术

这位大叔名叫叫Gustav Tausheck,1899年生于维也纳,童年时由于经历第一次世界大战,过的并不开森。当时世界的老大还不是美国,而是德国。世界老大往往都是很重视人才的,而且善于从别的国家挖墙脚吸纳人才。因此,他长大以后在德国上班,所在的单位叫做德国莱茵金属公司。

 

这个公司是专门生产战斗车辆武器配件及防卫产品。战争在破坏文明的同时,也极大的促进了生产力和科技的发展。在这家军火公司,Tausheck从一个小鲜肉长成了大叔,在他30岁那年,他发明了OCR(中文叫做:光学字符识别)技术,做成了下面这个机器,这项技术可以对文本资料的图像文件进行分析识别处理,从而获取文字信息。

 

 

这个技术出现之后,迅速火了起来——由于这种技术是刚需,又有广泛的市场,因此IBM也跟他签了大合同。掌握着核心技术的大叔,真的是知识改变了命运,从此时间自由、财务自由,走向了人生巅峰。于是第二年,他从那个军火公司辞了职,从此再也不用去公司每天打卡上班,也不用看老板脸色行事了。

 

之后,他一直致力于改善和提升OCR技术。但万万没想到的是,在他过了几年好日子之后,又来了个第二次世界大战。人生的境遇,谁又说得清?

 

不过这时候的他,已经是有钱、有身份的人了,即使在发生战争时,也照样过的比普通人好。他跑到了中立国瑞士,避开了战争。但他还是没看到二战的结束,在1945年情人节的当天去世了。原因是静脉栓塞,怀疑与久坐运动少有关系。

搞科研果然要多注意身体啊!

 

2. OCR的原理

下面是目前OCR技术的一般步骤,包括图像前处理(彩色变黑白、去除噪音、倾斜校正等处理)、版面分析、字符切割、特征描述、字符识别等。

 

好了,别扯这些没用的,直接上干货:有哪些软件或者方法可以实现图片或者Pdf到Word的转换?

解决方案有两种,一种是用软件转换,一种是网上在线转换。不过,PDF转word的软件还有很多种,以下只是亲测比较好用的几个。

 

3. 软件解决方案

(1) ABBYY finereader

2023081209125251.png

优点是识别率非常高,支持100多个国家的语言,特别是对混合多种语言识别效果非常好,缺点是转换识别的速度比较慢。ABBYY是商业软件,目前简体中文版的售价为508元,提供试用。联系本站工作人员PDF文件转Word,页数不限价格199。送永久会员,送ABBYY FinReader无限制使用软件。

(2) AnyBizSoft PDF Converter

这款软件的优点是转换速度比较快,且支持多格式转换,支持中文字体。但缺点是有时候版面会错乱。

 

(3) Solid Converter PDF

这个软件的优点是转换之后排版效果不错,几乎和原来的pdf一样,缺点同样是转换速度比较慢。

 

(4) CAJviewer

CAJviewer是中国知网的专用浏览器。打开PDF文件以后,可以看到在工具栏上,有一个放大镜的图标工具就是OCR工具。用它拉框选择识别区域,稍等一会儿就会有文字识别结果对话框出来。缺点是只能拷出文本,不能帮排版。

 

(5) e-Pdf pdf 2 word converter

这款软件只能PDF转word,支持中文,但是转换速度和版面还原能力中规中矩。

 

4. 在线解决方案

通过软件把Pdf转换为Word的麻烦在于要找地方下软件,而且有可能还需要注册码。如果不想下载软件,联系本站工作人员PDF文件转Word,页数不限价格199RMB。送永久会员,送PDF转换word软件无限制使用。

 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

分享到: 生成海报

评论 抢沙发

评论前必须登录!

立即登录   注册

切换注册

登录

忘记密码 ?

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活