电子说
pdf解析可以用来读取PDF文件中字符串文本,图片数据。Apache PDFbox是一个开源的、基于Java的、支持PDF文档生成的工具库,它可以用于创建新的PDF文档,修改现有的PDF文档,还可以从PDF文档中提取所需的内容。Apache PDFBox还包含了数个命令行工具。
Apache PDFBox主要有以下特征:
PDF读取、创建、打印、转换、验证、合并分割等特征。
(1) 读取文本数据
读取文本并没有特别需要说明的地方,就是获取PDF文本起始页,结束页,通过getText函数直接获取PDF的所有文本。
(2) 获取PDF的中图片
将获取的PDF中图片对象保存到另一个PDF中
此方法可以取出源PDF中图片对象PDImageXObject,然后可以对该对象进行相关处理,本代码实现了将提取出来的每一个图片对象,插入到一个空白的PDF文档中。
全部0条评论
快来发表一下你的评论吧 !