使用pdf解析可以用来读取PDF文件中字符串文本,图片数据

电子说

1.3w人已加入

描述

pdf解析可以用来读取PDF文件中字符串文本,图片数据。Apache PDFbox是一个开源的、基于Java的、支持PDF文档生成的工具库,它可以用于创建新的PDF文档,修改现有的PDF文档,还可以从PDF文档中提取所需的内容。Apache PDFBox还包含了数个命令行工具。

   Apache PDFBox主要有以下特征:

PDF读取、创建、打印、转换、验证、合并分割等特征。

 (1)  读取文本数据

数据

     读取文本并没有特别需要说明的地方,就是获取PDF文本起始页,结束页,通过getText函数直接获取PDF的所有文本。

(2)  获取PDF的中图片

数据

    将获取的PDF中图片对象保存到另一个PDF中

数据

    此方法可以取出源PDF中图片对象PDImageXObject,然后可以对该对象进行相关处理,本代码实现了将提取出来的每一个图片对象,插入到一个空白的PDF文档中。


打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分