将扫描的PDF转换为可搜索的PDF

电子说

1.3w人已加入

描述

将扫描的PDF转换为可搜索的文档

快速精确的基于神经网络的引擎

纠正低质量扫描

120多种语言

.Net2.0+、.Net5、标准、核心

将扫描的PDF转换为可搜索的PDF

4行代码,仅此而已

应用程序

多亏了简单的API,您可以使用几行代码将扫描的PDF 转换为可搜索的文档。

顺便说一句,不仅仅是PDF。将JPEG、多页TIFF 或 PNG转换为可搜索的 PDF到您的应用程序现在只需几分钟,而不是几小时或几天。

阅读 120多种语言的多种图像格式

Tesseract.NET SDK 可以准确识别120多种语言的文本,支持多语言文本,并且可以通过训练使用以前未知的语言。支持的标准包括英语、法语、意大利语、德语、西班牙语、阿拉伯语、中文、希伯来语、日语、俄语、泰语等。

应用程序

应用程序

正确的低质量扫描

例如,去歪斜输入过滤器会自动旋转图像,因此它是正确的向上和正交的。如果页面过于倾斜,则Tesseract的线分割质量会显着降低,这会严重影响OCR 的质量。

应用程序

     

应用程序

Patagames OCR SDK 内置的用于增强OCR性能的输入过滤器包括:二值化、对比度和对比度标准化、去偏斜、增强分辨率、腐蚀和扩张、膨胀和放气、反转、移除边框、旋转、ToGray和白色背景。

为您的.Net 应用程序配备OCR 功能的最佳方式

虽然Tesseract 无疑是迄今为止最好的OCR 库,但Tesseract.NET SDK是为您的应用程序配备文本识别功能的最佳方式之一。

Tesseract.Net SDK 结合了易于部署、卓越的识别精度、快速OCR 和各种输出选项(包括PDF、HOCR、UNLV和纯文本),提供灵活简单的API 以及许多高级和低级文本识别程序。

多亏了简单的API,您可以用几行代码将给定的图像转换为可搜索的文本。如果您需要更详细地了解文本的组成部分,Tesseract.NETSDK API 提供了许多类来检索单个字母、单词、段落甚至字体参数。

审核编辑 :李倩

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分