发布网友 发布时间:2022-02-23 02:27
共1个回答
热心网友 时间:2022-02-23 03:56
部分加密的PDF文件和本来就是由图片、扫描件生成的PDF文件转换成word格式后就是以图片形式存在的,要想把上面的文字信息提取出来,必须借助专业的文字识别软件,现在市面上文字识别软件很多。
文字识别软件将图象制作成点阵信息保存于字库,可以识别扫描图片上的文字和pdf文档上面的文字并且把这些文字转换为可编辑文字的办公软件。
文字识别软件的功能:
1.自动锁定文字段落,自动计算行高,行间距,字间距,只需要大致给出范围即可;
2.附带字库建造工具,可以任意抓图,将图片建造成字库信息,供插件来调用;
3.字库建造工具附带穷举文字程序,可遍历操作系统中所有的字体字号,将其转换为所需要的字库;
4.支持颜色不纯,有所偏差的文字识别及字库建造;
5.支持数据库和文本2种类型的字库;
6.文字识别可支持模糊识别(只针对文本类字库)。