摘 要
本论文详细介绍了一款低成本便携式的OCR文字识别 ,TTS语音播报系统的实现方案。本次研发的盲人导读仪系统,核心的软硬模块子子系统包括:500万高清摄像头JPEG图像采集子系统,大功率NRF2401图像传输子系统,MFC上位机图像解码子系统,OCR模式识别子系统, TTS文本语音子系统。本文将对设计的各个子系统详细阐述。
关键词:模式识别OCR; TTS语音播报系统; OV5640五百万像素采集系统;
OCR blind reading meter based on template matching
This paper introduces in detail a low-cost portable OCR character recognition, the implementation scheme of TTS speech broadcasting system. The research and development of the blind reading meter system, the core of hard and soft module a subsystem including: 5 million hd camera JPEG image acquisition subsystem, high-power NRF2401 image transmission subsystem, MFC PC image decoding subsystem, OCR pattern recognition subsystem, TTS text-to-speech subsystem. This article will be to the design of each subsystem in detail
Key words: OCR pattern recognition; TTS speech broadcasting system; OV5640 mega pixels acquisition system。
1绪论
书籍是人类进步的阶梯,视觉障碍的弱势群体如果想要阅读一些文献资料,传统的方法要依赖盲文,凭借手触觉去感知文字,由于盲文的发行量相对较少,加上他笨重,体积大,致使收到很大限制。随着计算机的领域的飞速发展,OCR (Optical Character Recognition,光学字符识别) ,TTS(Text To Speech,从文本到语音),OV5640(高清摄像头)日益成熟,这些新兴技术,将为视觉残障人士带来福音,将视觉文字变成听觉语音,自此弱势的残障人士可以打破视觉阅读障碍,享受文本书籍的知识殿堂。
1.1课题的背景与意义
我国的印刷体汉字识别是从70年代开始研究,大致可以分为如下3个阶段:
第一阶段:20世纪70年代末期到20时期,主要是算法和方案探索。
第二阶段:20世纪90年代,中文OCR技术从实验室走向市场。
第三阶段:21世纪初至今,主要是印刷体汉字识别技术和系统性能的提高,包括汉英混排识别率的提高和稳健性的增强。
1.2 OCR的研究现状及研究意义
现有的文字技术一般采用光学的方式将文本图像信息采集到计算机中,因此该技术被称为光学字符识别(Optical Character Recognition, OCR)技术,经过将近一个研究,OCR已经成为现如今模式是被领域里最活跃的研究方向之一。它综合了人工智能,计算机图像,数字图像处理等多方面的内容,并在计算机领域及其相关领域得到了广泛的应用。近些年来,我国的中文印刷体文档识别发展十分
随着社会的发展,科学文化的进步,越来越多的视觉障碍人式(包括先天性行残疾人士,或者因意外事故及其伤病视力下降乃至失去视觉的残疾人士)更加渴望阅读这个时代最前沿的书籍期刊,鉴于盲文的厚重,不便于携带,印刷量小,延迟性高等缺点,市场上主流的OCR识别器售价相对较高,一种低成本,高识别率的OCR盲人导读仪的研发有相当大的现实意义,其核心算法也有着极其广泛的社会应用:
1.使用OCR进行印刷体版文稿的自动识别录入,这类产品的缺点是对于表格,插图,公式需要手工进行干预。
2图形,图像,公式,文本,中英文交叠等混版复杂版面进行自动切分的印刷识别系统的算法研究提供解决思路。
3邮件自动分拣系统,邮件的自动分拣系统东是邮政系统提高心寒分拣速度和质量的极为有效手段之一国内外已经普遍使用,其核心算法是书写体的识别。
4 手写体表格数据自动录入系统,应用于政府,保险,医疗等个行业的申报表,调查表等表格数据的处理与录入【1】。 。
1.3研究的主要内容和预期目标
该系统致力于实现一种低成本,便携式,易操作,高识别率的简易OCR中文识别系统。根据基于模板匹配的OCR的自身特点,以及现阶段研究水平,调研了中文OCR在各个行业的应用市场,如下对基于模板匹配的盲人导读仪的各个系统和实现原理及算法进行简要讲解。
1.3.1 核心子系统解决方案概述
1. 基于OV5640 500万像素的自动对焦的高清摄像头模组,实现JPEG,BMP高清图像采集存储。
2. 基于大功率NRF2401的无线传图子系统,可以实现一点对多点,单点对单点实时图像采集传输。
3基于VS2010 MFC上位机算法处理子系统,SerialPort串口接收模块,Cimage类进行数据流图像解码编码,微软公司开源MicroSoft Image documentOCR控件作为核心算法将采集解码得到图片文字解码出来,显示到Edit文本框,将文字编码串口发送科科大讯飞模块。
4基于科大讯飞模组XFS5512CE文字语音转码解码芯片将OCR识别的文字进行语音播报,实现文本到语音的转换。
1.3.2 预期目标
1. STM32F103RBT6能正常驱动500万OV5640高清模组,实现图形采集
2. NRF2401能实现无线传图,文字解码信息发送
3.MFC数据流解码JPEG,OCR文字识别,OCR解码发送
4.下位机驱动科大讯飞模块,实现文字解码发送。
2基于模板匹配中文OCR语音导读仪工作原理
2.1 OCR工作原理
与普通印刷体文档是被相比,中文印刷体文档识别在对文档所包含的文字字符识别过程中。一个完整的中文印刷体文档识别系统应包括如下诸多模块:
文档图像预处理。该部分完成对原始文档图像预处理,使得原始文档图像能够达到识别的要求。
文档图像版面分析,该部分实现文档图像中文本,表格和图像等不同区域的分离,并在识别出每个区域的类别后交由不同的处理模块进行进一步的分析和处理。
文档图像中的多字符识别,该部分处理通过文档版面分析得到的文本区域,包括汉字识别和公式识别的模块。汉字识别模块负责包括中文字符在内的所有字符的识别。
文档图像中图形图像暂存模块。该部分负责处理通过文档版面分析得带的图像图像区域。
版面分析过程中,分析得到的文字区域,图像区域和表格区域将被分别切割成单独的图像,其中文字图像区域将送至印刷体汉字识别模块进行处理。与其他的数字图像模式识别应用类似,印刷体的汉字识别的基本过程包括图像预处理。图像分割,图像分割,特征提取,图像分类等过程。图像的预处理通过图像增强,文字字符切割等步骤形成单个汉字字符图像,图像分割则在单个汉字图像中提起汉字轮廓,特征提取则是是依据汉字轮廓提取代表的各个汉字模式的本质的表达形式,即各种特性,形成汉字模板库(可以理解为字典)并存储在计算机中。识别时,图像分类过程将汉字的模式特性和汉字的模板库元素逐一匹配,在用一定的匹配准则进行判别。最后在模板库中找出最接近的位置汉字的模板元素,该模版元素的汉字就是识别的结果。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !