TET PDF IFilter支持所有相关风格的PDF输入

电子说

1.3w人已加入

描述

接受的PDF输入

TET PDF IFilter 支持所有相关风格的PDF 输入:

直到 AcrobatDC 的所有 PDF版本,包括 ISO32000-1 和 32000-2(PDF 2.0)

无需密码即可打开文档的受保护PDF

修复损坏的 PDF文档

国际化

除了西文文本 TETPDF IFilter 完全支持中文、日文和韩文(CJK) 文本。识别所有CJK 编码;支持水平和垂直书写模式。自动检测文本的区域设置ID(语言和区域标识符)改进了Microsoft 的分词和词干算法的结果,这对于东亚文本尤其重要。

还支持从右到左的语言,例如希伯来语和阿拉伯语。上下文字符形式被规范化,文本按逻辑顺序传递。

PDF 不仅仅是一堆页面

TET PDF IFilter 将 PDF文档视为容器,其中可能包含比普通页面更多的信息。TETPDF IFilter 索引 PDF文档中的所有相关项目:

页面内容

书签、注释(评论)和表单域中的文本

元数据(见下文)

嵌入式 PDF 和PDF 包(组合)以递归方式处理,以便可以搜索所有嵌入式PDF 文档中的文本。

XMP 文档元数据和文档信息

TET PDF IFilter 中的高级元数据实现支持元数据的Windows 属性系统。它索引XMP 元数据以及标准或自定义文档信息条目。元数据索引可以在多个级别上配置:

文档信息条目、DublinCore 字段和其他常见XMP 属性映射到Windows shell 属性,例如标题、主题、作者。

TET PDF IFilter 添加了有用的特定于PDF 的伪属性,例如页面大小、PDF/A一致性级别、字体名称。

可以索引所有相关的预定义XMP 属性。

可以搜索用户定义的XMP 或基于PDF 的属性,例如公司特定的分类属性、数字签名或ZUGFeRD/Factur-X 一致性。

TET PDF IFilter 可选择将元数据集成到全文索引中。因此,即使是不支持元数据的全文搜索引擎(例如SQL Server)也可以搜索元数据。

Unicode 后处理

TET PDF IFilter 支持各种Unicode 后处理步骤,可用于改进提取的文本:

折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。

分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。



审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分