科大讯飞夺冠2019年度计算机视觉顶级会议CVPR和ICDAR多项评测

科大讯飞 2019-06-26 4260

描述

科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室（NELSLIP）（以下统称为讯飞-中科大联合团队）在近期举办的计算机视觉顶级会议CVPR 2019和文档分析与识别顶级会议ICDAR 2019上的多项评测任务中获得冠军：

1.在计算机视觉与模式识别国际会议（CVPR 2019）举办的物体检测挑战赛DIW 2019（Detection in the Wild challenge Workshop 2019）上取得Objects365 Tiny Track第一，Objects365 Full Track第三的佳绩；

2. 在文档分析与识别国际会议（ICDAR 2019）举办的多项赛事中，包揽手写数学公式识别挑战赛CROHME（Competition on Recognition of Handwritten Mathematical Expressions）全部两项任务以及场景文本视觉问答挑战赛ST-VQA（Scene Text Visual Question Answering）挑战赛上全部三项任务冠军，此外还取得了街景招牌中文文本识别挑战赛ReCTS（Reading Chinese Text on Signboard）单字识别任务冠军。

这一系列的佳绩标志着科大讯飞在计算机视觉领域的积累日益深厚，始终保持着先进的水平和探索的步伐。

DIW 2019挑战赛

DIW 2019挑战赛由旷视科技与北京智源人工智能研究院共同举办，该项赛事吸引了包括腾讯、百度、字节跳动等300多支队伍参赛，其所采用的Objects365数据集包含63万张图像，高达1000 万人工标注框，覆盖365个日常物体类别，堪称最大通用物体检测数据集。

相比于大家熟知的ImageNet和COCO数据集，Objects365数据集更贴近自然场景，覆盖更多的类别并且提供了更密集的标注，由于数据分布极度不均衡，因此极大增加了比赛的难度，对算法提出了更高的要求。

作为计算机视觉的两项基础任务，物体检测和分割一直以来是业界主流的研究方向。科大讯飞团队在2018年10月刷新了国际自动驾驶权威评测Cityscapes全部两项子任务（驾驶场景语义分割和实例分割）的世界纪录。

在本次DIW2019比赛中，讯飞-中科大联合团队在以往视觉技术积累的基础上，针对该项任务中物体尺度多样性和样本数量分布不均衡的特点，对物体检测的经典框架Faster-RCNN进行针对性改进：混合样本数据增强策略提升网络的泛化能力；多级可变形卷积使得网络的感受野能够更加适应相应尺度下的候选框；级联检测方案逐步提升了候选框的质量。此外针对更具挑战性的Tiny Track任务（样本数量小），迁移Objects365 Full Track模型提升Objects365 Tiny Track的性能，并融合两个赛道模型进一步提升了Full Track的检测效果。

物体检测和分割在工业界同样具有广泛的应用前景，科大讯飞在这两项基础任务上的技术积累不仅确保团队在各项赛事中持续保持竞争力，也为应用落地提供了扎实的技术保障，无论是讯飞翻译机中的图文识别，医疗影像领域中的辅助诊断，以及视频结构化技术中的视频理解等，都蕴含着科大讯飞对核心技术的不懈追求和对应用落地的坚定决心。

CROHME 挑战赛

在2018年的ICPR MTWI图文识别挑战赛中科大讯飞A.I.研究院包揽了全部三项任务的冠军，充分说明了科大讯飞在自然场景文字识别技术上的领先性。本次讯飞-中科大联合团队选择挑战难度更高的手写数学公式识别任务CROHME。该项赛事由美国罗切斯特理工学院（Rochester Institute of Technology）负责承办，吸引了MyScript、三星、 WIRIS（MathType）、中科院自动化所、中山大学等多家在手写数学公式识别领域著名的国内外研究机构参与。

讯飞-中科大联合团队参加了在线手写数学公式识别（Online Handwritten Mathematical Expressions Recognition）和离线手写数学公式识别（Offline Handwritten Mathematical Expressions Recognition）的两项主要任务，这两项任务的不同之处在于，前者的输入为手写数学公式的笔划轨迹，它记录了笔划书写的先后顺序，常应用于实时的在线手写识别应用场景，在线手写识别系统需要采集用户在手机、平板等在线化输入设备上书写的字符轨迹作为系统输入；后者的输入则为手写数学公式的图像，常应用于拍照、扫描等离线手写识别应用场景，该场景下用户只需要将手写字符的照片送入离线手写识别系统中即可完成分析与识别。

在线数学公式（手写轨迹）

离线数学公式（静态图像）

CROHME 2019使用的数据集是由美国罗切斯特理工学院收集和标注的手写数学公式，其中训练集共9993个，验证集共986个，测试集共1199个，此次比赛不仅要求参赛系统识别出公式中的每个字符，还要求参赛系统给出被识别的字符之间的位置关系，因此，相比于常规OCR任务，该任务的难点在于：

1) 位置关系

位置关系不再只是常规OCR任务中单一的左右或者上下的关系，还存在垂直、包含、上下标等多种结构关系以及这些结构关系之间的组合嵌套；

2) 字符尺寸

数学公式中的字符尺寸差异较常规OCR任务更大；

3) 书写风格

书写者的书写风格会使得某些不同字符之间容易产生混淆，且同样的字符由不同书写者书写，不仅字符形态差异可能会很大，对于在线任务来说，其笔划轨迹的顺序也有可能会不一致；

科大讯飞在手写文字识别领域已深耕多年。与将字符识别和位置关系识别分别建模的传统数学公式识别思路不同，科大讯飞使用的参赛系统正是借鉴了手写文字识别技术中基于空间注意力机制的Encoder-Decoder思想，实现了数学公式的字符和位置关系的端到端识别，同时提出了多尺度空间注意力机制以解决由字符尺寸差异较大带来的识别字符丢失问题。此外，针对不同书写者书写风格迥异的问题，提出了空间注意力引导机制和时间注意力机制，从空间和时间两个维度上提升注意力的准确度，最后融合了多种不同模态的信息提升了系统最终决策的效果。

基于雄厚的人工智能核心技术，科大讯飞在应用领域正积极落地。特别在教育领域，以行业领先的高精准手写识别技术、智能评测技术为典型应用代表的智能评卷系统，目前已经在CET、多地中高考中实现了人机结合的智能辅助评分新方式，最大限度的保证了评卷质量。同时，在日常教学环节中，基于对每一个学生个体作业练习测试的精准识别和深度数据挖掘，科大讯飞形成了以数据驱动方式实现的个性化精准教学。通过图文识别、智能评测分析每个学生的知识掌握薄弱环节，针对性地实现个性化学习推荐，让每个孩子回家后有针对自己能力水平的不同家庭作业，让每个老师有更多的时间推动因材施教。

ST-VQA挑战赛

ST-VQA（Scene Text Visual Question Answering）是由CVC（Computer Vision Center）举办的一项视觉问答挑战赛，要求算法能够像人类一样解析图像中实体之间的关系，并正确地回答出问题。这一方面对算法的图像检测和分割等前端技术提出了要求；另一方面还需要算法具备多模态数据融合、理解和推理的能力，是未来人工智能的发展方向之一。

如在下图的场景中为了找出蓝色公交车的目的地，首先需要正确地识别出蓝色公交车的位置，并推理出公交车的目的地显示在公交车前方的电子显示屏上，最后需要算法识别出电子显示屏上的内容。

ST-VQA比赛总共分为三个任务，分别为Task1-Strongly Contextualized、Task2-Weakly Contextualized和Task3-Open Dictionary，这三项任务的不同之处在于Task1会对每张图像给定一个候选词表，Task2会对整个数据集给定一个候选词表，而Task3则没有额外的词表用于辅助答案的预测。这三个任务的难度逐渐增加，讯飞-中科大联合团队参加了全部三项比赛，并包揽冠军。

针对于此次参加的ST-VQA任务，讯飞-中科大联合团队将模型分为视觉理解前端模型和视觉推理后端模型。文本检测和物体检测模型作为前端模型从图像中提取出有效实体，此外针对数据集中的语料少的问题，借鉴了科大讯飞在SQuAD2.0评测任务上采用无监督预训练模型的思想并加以改进，成功融入到了前端模块中。

在后端网络的设计上，团队设计了相应的Encoder-Decoder模型用于融合上述从图像中提取得到的实体信息和问题数据并预测出答案，此外在Encoder-Decoder模型的设计过程中融合了多任务的设计思想，使其能够兼容三项任务，从而使得这三项任务能够同时训练，相互提升。参加ST-VQA比赛，是讯飞在视觉理解以及多模态数据融合方面的前瞻性探索，比赛中使用的技术为公司未来在多模态交互方面的发展打下了基础。

作为亚太地区知名的智能语音与人工智能上市公司，围绕着讯飞超脑，科大讯飞一直秉承技术顶天、产品落地的战略理念，在核心技术上不断创新。基于此，科大讯飞在智能语音、自然语言处理等领域硕果累累，也在视觉场景理解领域获得长足进步，并且积极推动相关赛道技术落地，在教育、医疗、政法等业务上已经取得了很好的成效。未来，讯飞将全面持续推进核心技术的优化迭代与落地应用，努力践行用人工智能建设美好世界的公司使命。

打开APP阅读更多精彩内容