人工智能
一、企业简介
金现代信息产业股份有限公司(以下简称“公司”),是国家鼓励的重点软件企业,国家高新技术企业,深交所创业板上市企业(证券简称:金现代;证券代码:300830)。公司致力于电力、轨道交通、石化、工业制造等行业管理软件的研发与推广,是国内主要的行业信息化解决方案提供商,目前公司产品及服务已遍布全国22个省、5个自治区和4个直辖市,主要客户包括国家电网、南方电网、五大发电集团、国家铁路集团等世界500强企业。
二、案例概述
工程图纸广泛用于火电、核电、水利、建筑、制造业等行业。工程图纸对于设备和建筑故障、隐患的排查十分重要。因此,根据现场信息快速查询工程图纸成为一种广泛需求。而受限于数字化改造的滞后,工程图纸的信息往往保留在纸质图纸或单独的图纸电子文件中,无法通过数据库进行查询,导致调阅一个工程图纸常要花费数天的时间,效率低下。此外,实物化的工程图纸容易受潮和光照影响,保存时间短。因此迫切需要一种技术实现工程图纸的电子化,实现工程图纸信息的结构化查询。虽然在AI技术的不断发展下,通用OCR模型在常规的文档识别准确率上已经取得了极高的准确率。但针对工程图纸中物料编码、元器件编号的文字识别,通用OCR模型在图纸中的文字检测识别中识别准确率不佳,存在误识别、漏识别等问题。造成这种问题主要是因为图纸图像的尺寸很大而文字尺寸很小、文字与符号框贴合较近、部分器件符号容易被误识别为文字、以及文字分布随意方向随意等。
金现代提供的方案使用深度学习、图像处理等关键技术,使用多种策略构建和增广数据集,并自主研发训练文字检测和文字识别模型,解决了小尺寸文字识别、漏识别、误识别等问题,最终提升了图纸中文字检测与识别的准确率和效率,为图纸电子化数据的检索和应用发挥了不可替代的作用。
图1图纸图像示例
图2图纸检测与识别结果
三、应用成效
(1)单张图纸识别速度<1s,提供图纸识别服务接口。
(2)适用于胶片、纸质等不同类型的图纸。
(3)客户图纸查询方式全面接入业务系统。与原有手工查询方式相比,查询速度由数天提升到秒级,效率提升上千倍。
(4)图纸识别准确度>98%。
四、应用场景
本方案在设计研究院等单位中为设计图纸的电子化检索应用发挥了极大的作用,对传统图纸管理服务的转型升级起到了示范作用,有效降低了管理人员数量,提高借阅效率和服务水平,具有广阔的应用推广前景。
五、主要创新点
(1)实现图纸中小目标文本的检测。
(2)结合目标检测技术,解决元器件符号易误识别为文字的问题。
(3)结合图像处理技术,解决堆叠文字检测准确率较低的问题。
(4)构建图纸专用数据集,微调文字识别模型扩增字符识别种类。
六、后续规划
在OCR领域,我们将继续加强人工智能的研究,并结合用户实际需求,积极拓展其在更多领域的尝试和应用,以进一步为企业降低成本、提高效率,并提供更多满意的解决方案。
编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !