采用赛灵思超大规模+和Vitis AI的智能OCR解决方案

星星科技指导员 2022-11-23 709

描述

　　自然环境中的自动文本读取，也称为场景文本检测/识别或PhotoOCR，已成为计算机视觉中越来越流行和重要的研究课题。

　　该文本是人类最辉煌和最有影响力的创作之一。文本中体现的丰富、精确的高级语义有助于理解我们周围的世界，并构建可以在实时环境中部署的自主解决方案。因此，从自然环境中自动读取文本，也称为场景文本检测/识别或PhotoOCR，已成为计算机视觉中越来越流行和重要的研究课题。

　　随着人类语言书面形式的发展，我们开发了数千种独特的字体系列。当我们添加大小写（大写/小写/单大小写/小写）、倾斜（斜体/罗马）、比例（水平刻度）、重量、特定尺寸（显示/文本）、斜纹和衬线化（超系列中的衬线/无衬线）时，这个数字会增长到数百万，这使得文本识别成为机器学习令人兴奋的学科。

　　赛灵思作为 OCR 解决方案的选择

　　如今，Xilinx 通过其各种功能强大的平台为 10 项新开发中的 7 项提供支持，并引领基于 FPGA 的系统设计趋势。Softnautics 之所以选择 Xilinx 来实施该解决方案，是因为其集成的 Vitis™ AI 堆栈和强大的硬件功能。

　　Xilinx Vitis™ 是一款免费的开源开发平台，可将硬件模块打包为软件可调用函数，并与标准开发环境、工具和开源库兼容。它可自动使软件和算法适应 Xilinx 硬件，无需 VHDL 或 Verilog 专业知识。

　　选择合适的赛灵思平台

　　全面而丰富的 Xilinx 工具集和生态系统使原型设计成为一个非常可预测的过程，并加快了解决方案的开发，从而将整体开发时间缩短了多达 70%。

　　Xilinx Ultrascale+ 平台，因为它提供了最佳的应用处理和 FPGA 加速功能。它还提供令人印象深刻的高级合成能力，与早期型号相比，每瓦系统级性能提高了 5 倍。它支持 Xilinx Vitis AI，提供广泛的功能，使用加速库构建 AI 推理。

　　Xilinx Vitis AI堆栈和加速利用该软件创建混合应用，并通过将 TensorFlow-lite 移植/迁移到 ARM 来实现有效的序列预测 LSTM 功能。它使用N2Cube软件在处理侧（PS）上运行。图像预处理和后处理是通过Vivado使用HLS实现的，Vitis用于使用CTPN（连接主义文本提案网络）进行推理。我们最终将解决方案升级为使用视频管道进行实时场景文本检测，并使用强大的数据集改进了模型。

　　场景文本检测

　　有许多可用的实现，并且正在研究新的实现。尽管如此，在野外检测和识别文本时，仍可能遇到一系列重大挑战。与文档中的脚本相比，自然场景的困难主要源于三个差异：

　　多样性和可变性源于语言、颜色、字体、大小、方向等。

　　写文本的生动背景

　　场景文本的纵横比和布局可能会有很大差异

　　此类解决方案在需要对视频流进行实时文本检测的各个领域具有广泛的适用性，具有更高的准确性和快速识别能力。这些应用领域很少：

　　停车验证 — 城镇正在使用移动 OCR 来验证汽车是否根据城市法规自动停车。停车检查员可以使用带有OCR的移动设备扫描车辆的车牌，并与在线数据库进行检查，以查看是否允许他们停车。

　　移动文档扫描 — 各种移动应用程序允许用户拍摄文档的照片并将其转换为文本。这种 OCR 任务比传统的文档扫描仪更具挑战性，因为照片具有不可预测的图像角度、照明条件和文本质量。

　　数字资产管理 - 该软件有助于组织富媒体资产，如图像、视频和动画。DAM 系统的一个关键方面是富媒体的可搜索性。通过在上传的图像和视频帧上运行 OCR，DAM 可以使富媒体可搜索，并使用有意义的标签丰富它。

　　审核编辑：郭婷

打开APP阅读更多精彩内容