如何在dify中搭建OCR智能体

perfxlab 2025-06-27 5950

OCR 智能体应用背景

企业在日常运营中面临合同、票据、手写笔记等多种文档的处理需求，这些文档常以图片或扫描件形式存在，文字提取困难，严重制约数字化管理效率。

为解决上述问题，本文介绍一套简单高效的解决方案：通过 dify 工作流快速搭建 OCR 智能体，进行文字识别。

先来看一下搭建好的工作流使用流程：用户上传待识别的图片或文档，工作流会调用本地部署的 OCR 服务完成识别工作，并将提取的内容转换成 Markdown 文档。

OCR 智能体搭建流程

step1：本地部署 dify

因为我们要通过工作流的方式使用 OCR 服务，因此需要现在本地完成 dify 的部署，部署流程相对简单，直接参考 dify 官方文档(https://github.com/langgenius/dify)即可，推荐使用 docker 进行部署。

step2：在 dify 插件市场中，安装澎峰科技“OCR 识别服务”插件

本文中介绍的 OCR 工具，我们已发布到 dify 的插件市场，源代码可在 github 项目主页(https://github.com/PerfXLab/dify-plugin-ocr-service)找到，要在 dify 中使用该工具，只需在插件市场中搜索“OCR”并安装该插件即可：

step3：在 dify 中搭建工作流，并引入 OCR 工具

1.在 dify 中“创建空白应用”，选择“工作流”

2.对工作流进行编排：

开始节点中加入“file”字段

“OCR 转 Markdown 工具”节点中填入相关信息

其中，“上传文件”中填入“开始”节点输出的内容，OCR 接口地址填入本地搭建的 OCR 服务，OCR 服务本地搭建将在下一步骤中介绍- “结束”节点中填入上一节点输出的文件

step4：在本地搭建 OCR 服务

目前 OCR 任务主流实现方案有两种：使用传统卷积神经网络模型或多模态大模型进行处理，前者识别速度快、消耗资源少，而后者识别精度和鲁棒性更好，但对算力要求较高。本文介绍一种基于卷积神经网络的方案，利用第三方工具快速在本地运行。

搭建流程：

1.安装第三方OCR服务：pip install marker-pdf[full]

2.安装API服务：pip install -U uvicorn fastapi python-multipart

3.启动OCR服务：marker_server --host 0.0.0.0 --port 8001

完成上述操作后，即可使用 dify 工作流进行 OCR 识别服务。

私有化部署方案：澎峰科技大模型一体机

前述方案采用的轻量化模型，优势在于资源消耗低，在 CPU 环境下即可流畅运行。然而，对于金融、法律等领域中，部分文档的识别精准度和版面还原度有更高要求的场景，采用多模态大模型进行处理会是更优选择。多模态大模型虽然能带来更高的识别精度与鲁棒性，但其对算力资源的要求也相应更高。

为满足企业对高性能、数据私有化的需求，澎峰科技推出 DeepFusion 系列 AI 一体机，为企业智能化转型提供一站式本地化部署解决方案。

该方案深度融合了业界领先的 DeepSeek、Qwen 等系列大模型，确保企业数据在本地处理，安全无虞，完美适配复杂的办公自动化、数据分析与智能客服等场景。

旗舰性能，应对复杂需求：目前已发布的 DeepFusion DF110、DF210 一体机，支持部署 DeepSeek 满血版、Qwen3-235B 等尖端大模型，推理性能强劲，能够从容应对最复杂的办公需求。

高性价比，赋能中小企业：我们深知，高效的AI应用同样可以在中小规模模型上实现。为此，澎峰科技推出了 DeepFusion DF50 一体机。该机型针对 30B 及以下规模的高效模型进行了深度推理优化，实现了卓越性能与高性价比的平衡，旨在助力更多中小企业轻松实现 AI 转型。

打开APP阅读更多精彩内容