如何在dify中搭建OCR智能体

描述

OCR 智能体应用背景

企业在日常运营中面临合同、票据、手写笔记等多种文档的处理需求,这些文档常以图片或扫描件形式存在,文字提取困难,严重制约数字化管理效率。

为解决上述问题,本文介绍一套简单高效的解决方案:通过 dify 工作流快速搭建 OCR 智能体,进行文字识别。

先来看一下搭建好的工作流使用流程:用户上传待识别的图片或文档,工作流会调用本地部署的 OCR 服务完成识别工作,并将提取的内容转换成 Markdown 文档。

OCR 智能体搭建流程

step1:本地部署 dify

因为我们要通过工作流的方式使用 OCR 服务,因此需要现在本地完成 dify 的部署,部署流程相对简单,直接参考 dify 官方文档(https://github.com/langgenius/dify)即可,推荐使用 docker 进行部署。

step2:在 dify 插件市场中,安装澎峰科技“OCR 识别服务”插件

本文中介绍的 OCR 工具,我们已发布到 dify 的插件市场,源代码可在 github 项目主页(https://github.com/PerfXLab/dify-plugin-ocr-service)找到,要在 dify 中使用该工具,只需在插件市场中搜索“OCR”并安装该插件即可:

step3:在 dify 中搭建工作流,并引入 OCR 工具

1.在 dify 中“创建空白应用”,选择“工作流”

2.对工作流进行编排:

开始节点中加入“file”字段

“OCR 转 Markdown 工具”节点中填入相关信息

其中,“上传文件”中填入“开始”节点输出的内容,OCR 接口地址填入本地搭建的 OCR 服务,OCR 服务本地搭建将在下一步骤中介绍- “结束”节点中填入上一节点输出的文件

step4:在本地搭建 OCR 服务

目前 OCR 任务主流实现方案有两种:使用传统卷积神经网络模型或多模态大模型进行处理,前者识别速度快、消耗资源少,而后者识别精度和鲁棒性更好,但对算力要求较高。本文介绍一种基于卷积神经网络的方案,利用第三方工具快速在本地运行。

搭建流程:

1.安装第三方OCR服务:pip install marker-pdf[full]

2.安装API服务:pip install -U uvicorn fastapi python-multipart

3.启动OCR服务:marker_server --host 0.0.0.0 --port 8001

完成上述操作后,即可使用 dify 工作流进行 OCR 识别服务。

私有化部署方案:澎峰科技大模型一体机

前述方案采用的轻量化模型,优势在于资源消耗低,在 CPU 环境下即可流畅运行。然而,对于金融、法律等领域中,部分文档的识别精准度和版面还原度有更高要求的场景,采用多模态大模型进行处理会是更优选择。多模态大模型虽然能带来更高的识别精度与鲁棒性,但其对算力资源的要求也相应更高。

为满足企业对高性能、数据私有化的需求,澎峰科技推出 DeepFusion 系列 AI 一体机,为企业智能化转型提供一站式本地化部署解决方案。

该方案深度融合了业界领先的 DeepSeek、Qwen 等系列大模型,确保企业数据在本地处理,安全无虞,完美适配复杂的办公自动化、数据分析与智能客服等场景。

旗舰性能,应对复杂需求:目前已发布的 DeepFusion DF110、DF210 一体机,支持部署 DeepSeek 满血版、Qwen3-235B 等尖端大模型,推理性能强劲,能够从容应对最复杂的办公需求。

高性价比,赋能中小企业:我们深知,高效的AI应用同样可以在中小规模模型上实现。为此,澎峰科技推出了 DeepFusion DF50 一体机。该机型针对 30B 及以下规模的高效模型进行了深度推理优化,实现了卓越性能与高性价比的平衡,旨在助力更多中小企业轻松实现 AI 转型。

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分