Tesseract的安装测试使用

嵌入式DSP 2019-11-20 4172

描述

OCR开源项目很多，给大家一个链接，这个链接列出了现有的比较出名的OCR开源项目，链接如下：

https://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software

从上面的排名可以看到，Tesseract是排在第一名的！所以下面就认真学习一下Tesseract。首先介绍一下Tesseract，然后安装，测试，了解其不足等等。

Tesseract的OCR引擎目前已作为开源项目发布在Google Project，

其项目主页在这里查看https://github.com/tesseract-ocr，

它支持中文OCR，并提供了一个命令行工具。python中对应的包是

pytesseract. 通过这个工具我们可以识别图片上的文字。

一 Tesseract的安装测试使用

首先下载Tesseract在Windows下的安装版。(因为在国外访问不了谷歌，所以别人***下载了下来，这里给大家百度网盘链接)

http://pan.baidu.com/s/1i56Uxlr

根据https://github.com/tesseract-ocr/tesseract/wiki，找到非官方的安装包，好像只看到64位的安装包　　　　http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，下载后直接安装即可，但是要记得你的安装目录，我们等会配置环境变量要用。

如果不是做英文的图文识别，还需要下载其他语言的识别包https://github.com/tesseract-ocr/tesseract/wiki/Data-Files。

简体字识别包：https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata

繁体字识别包：https://github.com/tesseract-ocr/tessdata/raw/4.0/chi_tra.traineddata

1.3 安装Tesseract

下载Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安装就行。（此处附上windows 4.0的安装过程）

OCR