首个基于深度学习的端到端在线手写数学公式识别模型

PCB88475579 2019-09-20 10790

电子说

1.4w人已加入

描述

本文简要介绍 2018 年 5 月被 TMM 录用论文“ Track，Attend and Parse （TAP）： An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作。该论文是 2017 年发表在 ICDAR 上的文章［1］的升级版，主要解决了在线手写数学公式的识别问题。

该论文中介绍的方法获得了国际最大在线手写数学公式比赛 CROHME2019 的冠军，且是在未使用额外数据的情况下超过了有大量额外数据的国际企业参赛队伍，如 MyScript ， Wiris ， MathType 等，突出了该算法较传统数学公式识别算法的优势。

一、研究背景

手写数学公式识别较传统 OCR 问题而言，是一个更复杂的二维手写识别问题，其内部复杂的二维空间结构使得其很难被解析，传统方法的识别效果不佳。随着深度学习在各领域的成功应用，文章［2］［3］首次提出了基于深度学习的端到端离线数学公式算法，并在公开数据集上较传统方法获得了显著提升，开辟了全新的数学公式识别框架。然而在线手写数学公式识别框架还未被提出，论文 TAP 则是首个基于深度学习的端到端在线手写数学公式识别模型，且针对数学公式识别的任务特性提出了多种优化。

二、TAP原理简述

深度学习

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整体结构。 TAP 遵循文章［2］［3］中的做法，将数学公式的树结构识别问题转换成了数学公式 LaTeX 字符串识别问题。这一思路的转换简化了数学公式识别问题，使端到端的识别成为了可能。 TAP 的基本框架为基于注意力机制的编解码模型，也称 Encoder-Decoder 模型［4］，其将输入的轨迹点序列通过 Encoder 编码得到高维特征表达，依靠 Attention 机制找出高维特征中的关键部分以用于解码出当前时刻的 LaTeX 字符，直至解码结束。

TAP 延续了会议文章［1］中的 Encoder 框架，在 Attention 机制上针对在线手写公式识别提出了 Spatial Attention， Temporal Attention， Attention Guider 用于改善 Attention 的对齐以及 Decoder 的解码能力。文章中还利用了在线与离线两个模态之间的互补性进一步提升了手写识别性能。

深度学习

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 机制，除了常用的S patial Attention 外，还采用了T emporal Attention 机制。其中，S patial Attention 利用了A ttention 的历史信息以解决数学公式中多个同样数学字符出现时的对齐混淆问题。

而T emporal Attention 用于处理 LaTeX 中的结构字符的特殊对齐。因为在 LaTeX 的语法规则中，为了重现数学公式语言里的二维空间结构，需要额外有一些特殊的结构字符来形成语法，而这些特殊的结构字符在输入的数学公式中不存在，因而S patial Attention 无法完成对齐，此时则需要T emporal Attention 来补足这个不存在的对齐空缺，既能不干扰S patial Attention 的学习，又能提高D ecoder 的解码能力，进一步提升性能。

深度学习

Fig.3. Illustration of the attention guider

此外， TAP 还采用了A ttention Guider 来强化S patial Attention 的学习，从 Fig 3 中可以看出，在使用了A ttention Guider 来引导S patial Attention 的学习后，S patial Attention 的对齐效果显著提升，十分精确，并且效果也反映到了最终的识别性能上。

三、主要实验结果及可视化效

TABLE 1. The recognition results on CROHME2014.

深度学习

TABLE 2. The recognition results on CROHME2016.

深度学习

由 TABLE 1 、 TABLE 2 来看，文章所提方案在 CROHME2014 和 CROHME2016 公开数据集上取得了 state-of-the-art 的结果，且较传统方法有巨大的提升，验证了该方法的有效性，且 TAP 展示的结果相对于会议版本也有了进一步的提升，体现了H ybrid Attention 在纠正对齐和提升性能处起到了关键作用。

深度学习

Fig.4. Visualization of temporal attention

深度学习

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是对于T emporal Attention 的可视化，可见T emporal Attention 能够很正确的帮助 Spatial Attention 区分结构字符和实体字符。 Fig 5 是对 Hybrid Attention 整体在一个手写数学公式实例上的可视化。 Fig 6 列出了一个手写数学公式在线和离线模态互补性的实例，由于存在倒笔现象，单纯的在线模型无法正确识别该例子，而通过离线模型的融合辅助最终使得这个公式例子被正确识别（由于符号定义过多，更详细的内容请参考原文，链接附后）。

四、总结及讨论

1. TAP-ICDAR 版首次提出了基于深度学习的端到端在线手写数学公式识别模型，将树形结构识别问题巧妙转换成了 LaTe X 字符串识别问题，成功突破了传统方法在该问题上的性能瓶颈，开辟了全新的在线数学公式识别框架。

2. TAP-TMM 相比 TAP-ICDAR 而言，进一步提出了 Hybrid Attention ，不仅提高了 Attention 的对齐准确度，也针对性地处理了 LaTeX 中结构字符的对齐和生成，且效果最终都很好地反映在了最终的识别性能上。此外，通过融合离线模态的全局特性，进一步提升了在线手写数学公式的识别率。

3. TAP 中汇报出来的在 CROHME2014 及 CROHME2016 上的识别率，至今仍是最好的公开结果，相关算法也在 CROHME2019 竞赛上获得了第一名，并且在没有使用额外数据的情况便超越了其他使用大量额外数据的企业队伍。

打开APP阅读更多精彩内容