OCR 智能体应用背景
企业在日常运营中面临合同、票据、手写笔记等多种文档的处理需求,这些文档常以图片或扫描件形式存在,文字提取困难,严重制约数字化管理效率。
为解决上述问题,本文介绍一套简单高效的解决方案:通过 dify 工作流快速搭建 OCR 智能体,进行文字识别。
先来看一下搭建好的工作流使用流程:用户上传待识别的图片或文档,工作流会调用本地部署的 OCR 服务完成识别工作,并将提取的内容转换成 Markdown 文档。
OCR 智能体搭建流程
step1:本地部署 dify
因为我们要通过工作流的方式使用 OCR 服务,因此需要现在本地完成 dify 的部署,部署流程相对简单,直接参考 dify 官方文档(https://github.com/langgenius/dify)即可,推荐使用 docker 进行部署。
step2:在 dify 插件市场中,安装澎峰科技“OCR 识别服务”插件
本文中介绍的 OCR 工具,我们已发布到 dify 的插件市场,源代码可在 github 项目主页(https://github.com/PerfXLab/dify-plugin-ocr-service)找到,要在 dify 中使用该工具,只需在插件市场中搜索“OCR”并安装该插件即可:
step3:在 dify 中搭建工作流,并引入 OCR 工具
1.在 dify 中“创建空白应用”,选择“工作流”
2.对工作流进行编排:
开始节点中加入“file”字段
“OCR 转 Markdown 工具”节点中填入相关信息
其中,“上传文件”中填入“开始”节点输出的内容,OCR 接口地址填入本地搭建的 OCR 服务,OCR 服务本地搭建将在下一步骤中介绍- “结束”节点中填入上一节点输出的文件
step4:在本地搭建 OCR 服务
目前 OCR 任务主流实现方案有两种:使用传统卷积神经网络模型或多模态大模型进行处理,前者识别速度快、消耗资源少,而后者识别精度和鲁棒性更好,但对算力要求较高。本文介绍一种基于卷积神经网络的方案,利用第三方工具快速在本地运行。
搭建流程:
1.安装第三方OCR服务:pip install marker-pdf[full]
2.安装API服务:pip install -U uvicorn fastapi python-multipart
3.启动OCR服务:marker_server --host 0.0.0.0 --port 8001
完成上述操作后,即可使用 dify 工作流进行 OCR 识别服务。
私有化部署方案:澎峰科技大模型一体机
前述方案采用的轻量化模型,优势在于资源消耗低,在 CPU 环境下即可流畅运行。然而,对于金融、法律等领域中,部分文档的识别精准度和版面还原度有更高要求的场景,采用多模态大模型进行处理会是更优选择。多模态大模型虽然能带来更高的识别精度与鲁棒性,但其对算力资源的要求也相应更高。
为满足企业对高性能、数据私有化的需求,澎峰科技推出 DeepFusion 系列 AI 一体机,为企业智能化转型提供一站式本地化部署解决方案。
该方案深度融合了业界领先的 DeepSeek、Qwen 等系列大模型,确保企业数据在本地处理,安全无虞,完美适配复杂的办公自动化、数据分析与智能客服等场景。
旗舰性能,应对复杂需求:目前已发布的 DeepFusion DF110、DF210 一体机,支持部署 DeepSeek 满血版、Qwen3-235B 等尖端大模型,推理性能强劲,能够从容应对最复杂的办公需求。
高性价比,赋能中小企业:我们深知,高效的AI应用同样可以在中小规模模型上实现。为此,澎峰科技推出了 DeepFusion DF50 一体机。该机型针对 30B 及以下规模的高效模型进行了深度推理优化,实现了卓越性能与高性价比的平衡,旨在助力更多中小企业轻松实现 AI 转型。
全部0条评论
快来发表一下你的评论吧 !