基于多模态关系注意力机制和大型数据集的离线手写公式识别

刘汉超; 董兰芳; 张信明

doi:10.1007/s11390-022-1987-y

基于多模态关系注意力机制和大型数据集的离线手写公式识别

Multimodal Dependence Attention and Large-Scale Data Based Offline Handwritten Formula Recognition

摘要

摘要:
研究背景 随着社会信息化的发展，人们越来越多的使用计算机处理日常工作和学习上的任务。公式作为一种表达、抽象和定义问题的工具，我们的日常学习和生活中有着广泛的应用，然而由于其复杂的二维结构，导致在计算机中输入公式十分复杂且耗时。虽然手写是人类最自然的信息记录方式，但是手写输入的信息计算机却很难理解。离线手写公式识别的目的就是将人们手写的公式图像转换为计算机可以编辑和理解的格式（如LaTeX字符串）的过程。由于手写字符的随意性以及公式本身复杂的二维结构，离线手写公式识别长久以来是一项极具挑战性的任务。随着近些年深度学习的发展，基于注意力机制的编解码网络极大地推动了离线手写公式识别领域发展，并提高了该领域的识别效果。然而目前的研究工作对于相对简单的公式识别效果较好，而对于具有较长LaTeX字符串标签的复杂公式识别效果相对较差，对于长序复杂公式识别的优化研究暂时也比较少。此外，为了提高识别效果，研究人员设计了越来越精妙而复杂的模型结构，然而现有的训练数据相对较少，往往难以支撑复杂模型的正确训练，模型过拟合逐渐成为了制约该领域发展的瓶颈。
目的我们的工作首先通过构建大型手写公式图像数据集来增强训练数据，降低模型过拟合，提高离线手写公式识别的效果。此外，我们还通过针对长序复杂公式图像的识别优化，达到提高模型可用性，进一步提高公式识别效果的目的。
方法我们构建了一个基于真实场景的手写公式图像数据集HFID，该数据集涵盖了156类常用公式字符，共包含26520张数学、物理和化学领域中的手写公式图像，数据量约为目前本领域中最常用的CROHME (Competition on Recognition of Online Handwritten Mathematical Expressions) 数据集数据量的两倍。此外，我们还设计了一种基于字符多模态关系依赖注意力模块（Multimodal Dependence Attention, MDA），通过该模块抽取公式中字符的多模态特征来表征字符，并以字符多模态特征为输入，利用注意力机制建模公式中字符间的依赖关系，并以该关系辅助公式中字符的识别，提高模型的识别效果。
结果我们在CROHME数据集和HFID数据集中进行了实验。在使用HFID训练集做预训练，使用CROHME训练集进行微调的模型相比未经HFID预训练的模型在CROHME 2014、CROHME 2016和CROHME 2019数据集的识别结果分别由47.70%、50.83%和51.29%提升到58.62%、60.35%和57.80%。在加入MDA模块后，模型在CROHME 2014、CROHME 2016和CROHME 2019数据集中的结果分别提升到59.94%、62.70%和59.38%，在HFID测试集中的结果则由59.12%提升至60.16%。此外，我们对MDA生成的权重图进行了可视化分析，验证了MDA确实能够学到字符的关系依赖。我们还对在不同长度区间的公式识别结果进行了统计，实验结果表明，加入MDA模块后，模型对长序复杂公式的识别效果确实有所提升。最后，在多模型联合的情况下，我们在CROHME 2014和CROHME 2016数据集中分别达到了63.79%和65.24%，是目前在这两个数据集中的最佳识别结果。
结论实验结果表明，本文构建的HFID数据集能够有效的降低模型过拟合影响，进一步提高模型的识别效果。而通过MDA模块学习到的字符依赖关系，确实能够有效提升长序复杂公式的识别效果，并进一步提高模型在离线手写公式识别问题中的表现。在未来的工作中，我们将研究如何将Transformer这一强大的编解码网络应用到离线手写公式识别问题中，以进一步提高模型的识别效果。

Abstract: Offline handwritten formula recognition is a challenging task due to the variety of handwritten symbols and two-dimensional formula structures. Recently, the deep neural network recognizers based on the encoder-decoder framework have achieved great improvements on this task. However, the unsatisfactory recognition performance for formulas with long \text\LaTeX strings is one shortcoming of the existing work. Moreover, lacking sufficient training data also limits the capability of these recognizers. In this paper, we design a multimodal dependence attention (MDA) module to help the model learn visual and semantic dependencies among symbols in the same formula to improve the recognition performance of the formulas with long \text\LaTeX strings. To alleviate overfitting and further improve the recognition performance, we also propose a new dataset, Handwritten Formula Image Dataset (HFID), which contains 25620 handwritten formula images collected from real life. We conduct extensive experiments to demonstrate the effectiveness of our proposed MDA module and HFID dataset and achieve state-of-the-art performances, 63.79% and 65.24% expression accuracy on CROHME 2014 and CROHME 2016, respectively.

HTML全文

参考文献()

施引文献

资源附件()