docTR OCR文档文本识别-电子发烧友网

由 TensorFlow 2 和 PyTorch 提供支持，任何人都可以无缝访问光学字符识别

获取预训练模型

使用两阶段方法在 docTR 中实现端到端 OCR：文本检测（定位单词），然后文本识别（识别单词中的所有字符）。因此，可以从可用实现列表中选择用于文本检测的架构和用于文本识别的架构。

from doctr.models import ocr_predictor

model = ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)

读取文件

可以从 PDF 或图像解释文档：

from doctr.io import DocumentFile
# PDF
pdf_doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images()
# Image
single_img_doc = DocumentFile.from_images("path/to/your/img.jpg")
# Webpage
webpage_doc = DocumentFile.from_url("https://www.yoursite.com").as_images()
# Multiple page images
multi_img_doc = DocumentFile.from_images(["path/to/page1.jpg", "path/to/page2.jpg"])

以默认的预训练模型为例：

from doctr.io import DocumentFile
from doctr.models import ocr_predictor

model = ocr_predictor(pretrained=True)
# PDF
doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images()
# Analyze
result = model(doc)

安装

安装 docTR 需要 Python 3.6（或更高版本）和 pip。

由于使用了 weasyprint，如果没有运行在 Linux 系统之上，将需要额外的依赖项。

对于 macOS 用户，可以按如下方式安装它们：

brew install cairo pango gdk-pixbuf libffi

对于 Windows 用户，这些依赖项包含在 GTK 中。

docTR OCR文档文本识别

软件简介

获取预训练模型

读取文件

安装

最新版本

大彩串口屏M系列指纹识别技术文档

树洞OCR文字识别跨平台的OCR小工具

基于注意力机制的新闻文本分类模型

文本挖掘之概率主题模型综述

基于LSTM的表示学习-文本分类模型

基于主题分布优化的模糊文本分类方法

基于注意力机制的复杂场景文本检测方法

基于残差连接的改进端到端文本识别网络结构

基于LSTM的流式文档结构识别方法

串口屏LUA教程9-文本保存

串口屏LUA教程1-如何显示文本

大彩串口屏控件教程2 - 串口屏文本控件应用

基于单词贡献度和Word2Vec词向量的文档表示方法

基于数据挖掘的核医学文本关联规则挖掘方法

融合文本分类和摘要的多任务学习摘要模型

一种基于BERT模型的社交电商文本分类算法

手语识别、翻译及生成研究综述

胶囊网络在短文本多种意图识别的应用及研究

基于BP神经网络分类器的垃圾文本过滤模型

异构文本数据转换过程中解析XML文本的方法对比

一种基于神经网络的短文本分类模型

基于神经网络的中文文本蕴含识别模型

基于迭代膨胀卷积神经网络与ATT的实体名识别方法

结合BERT模型的中文文本分类算法

新型中文旅游文本命名实体识别设计方案

使用数字识别和AI实现OCR的资料合集

OCR文字识别视觉检测系统应用程序免费下载

API-Shop-OCR-营业执照识别API接口Python调用示例代码说明

文本与社交信息的用户群组识别

基于文本分类计数识别平台设计（JAVA实现）

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

OCR如何自动识别图片文字

easyocr：超级简单且强大的OCR文本识别工具

关于两个Python开源识别工具的效果

在线研讨会 | 就在明天！NVIDIA TAO Toolkit 5.0 助力 OCR 视觉 AI 模型快速训练与优化

大模型时代的OCR，“CPU” 的味道更重了

一个典型的身份证识别算法流程

StrucTexTv2：端到端文档图像理解预训练框架

OCR实战教程

通过图像处理改善OCR识别结果的实例

Tesseract-OCR中如何实现结构化的文档分析

OCR光学图文识别

OCR算法能较好识别水平排布的常规文本

机器视觉运动控制一体机应用例程|OCR字符识别应用

一篇包罗万象的场景文本检测算法综述

OCR识别技术

识别文本蕴涵任务的小样本学习

了解光学字符识别技术识别票据原理

开源OCR 过程介绍

为什么赛灵思技术成为开发OCR解决方案的不二之选？

如何让文本识别更加智能，数据堂获取这些OCR转写数据

一篇包罗万象的场景文本检测算法综述

赋能AI测试 Testin云测与英特尔合作将OCR模型推理效率提升6倍

关于开放平台OCR上线印刷文字识别的介绍

OCR光学字符识别技术原理讲解

Facebook研究人员提出了一个大规模图像文本提取和识别系统——Rosetta

服务器端驾驶证/行驶证OCR拍照识别API

移动端证件OCR识别/安卓IOS平台

基于FPGA的OCR文字识别技术的深度解析

基于FPGA异构加速的OCR识别技术解析

下载排行榜

储能电源市场分析

储能电源市场分析报告

2023年光伏行业发展回顾报告

IPC-J-STD-001J_EN 2024焊接电气和电子组件的TOC要求

山特TG400UPS工作原理与维修

汽车类高电流无刷直流 (BLDC) 电机驱动器原理图介绍