We use cookies to improve your experience with our site.

基于数据生成和多轮混排训练的离线手写数学公式识别

Synthetic Data Generation and Shuffled Multi-Round Training Based Offline Handwritten Mathematical Expression Recognition

  • 摘要: 1、 研究背景(context)
    数学公式在我们日常生活、学习和工作中有着广泛的应用,然而由于其复杂的二维结构以及不常用的数学符号,在计算机中输入数学公式繁琐而复杂。虽然手写作为人们最自然的输入方式,但是计算机却难以理解,而离线手写数学公式识别的目的就是将手写的数学公式图像转换为计算机能够理解表达的格式,如LaTeX字符串等。离线手写数学公式识别方便了数学公式的输入,这对于文档分析、人机交互和智慧教育都有着重要的意义和价值。近些年随着深度学习的广泛应用,基于深度神经网络的方法较大程度上提高了离线手写数学公式的识别效果,推动了该领域的发展。然而已有的工作往往专注于网络本身的设计与优化,提出了越来越精细而复杂的网络模型,却忽略了数据和训练方法对于模型训练的作用。一般来讲,网络越复杂、层数越深越能够得到更优的识别效果,但这也导致网络对计算资源和计算时间的消耗增大。
    2、 目的(Objective)
    我们的工作主要通过数据增强和优化网络训练策略来降低模型过拟合并增强离线手写数学公式的识别效果。通过应用以上方法使得在不改变网络结构,不增加模型运行计算需求和计算时间的情况下实现离线手写数学公式识别率的提升。
    3、 方法(Method)
    我们提出了一种新的手写数学公式图像生成方法,与已有的数据增强方法相比,该方法可以通过公式中单个字符的替换从而生成具有与原样本不同标签的新样本。此外,我们还提出了一种多轮混排训练策略,通过将整个训练流程分为多轮训练,除第一轮外,每轮将上一轮用到的字符字典打乱混排,采用混排后的字典和上一轮得到的最佳模型进行微调。我们在CROHME (Competition on Recognition of Online Handwritten Mathematical Expressions) 数据集下进行训练和测试,以WER (Word Error Rate)和ExpRate (Expression recognition Rate)为评测标准进行实验验证。
    4、 结果(Result & Findings)
    在使用同一基准模型的情况下,单独采用数据增强方法将模型在CROHME 2014和2016测试集的识别准确率从48.28%和47.34%分别提升到51.12%和49.43%;单独采用多轮混排训练策略可以将模型在以上两个数据集下的识别效果分别提升到56.36%和57.12%,当同时采用以上两种方法时,模型在CROHME 2014和2016的识别率为59.74%和61.57%。这表明我们的方法在单独使用和共同使用时都能有效提升识别效果。然而由于数据量的增加和多轮训练的设计,我们的方法需要更长的时间去完成训练。
    5、 结论(Conclusions)
    实验结果表明,通过数据增强和多轮混排训练策略可以在不修改模型的情况下提高离线手写数学公式识别效果,使得模型在部署应用时可以在不增加计算需求和计算时间的得到更优的识别结果,能够节省模型部署和应用时的计算资源。接下来我们会研究我们的方法在其他任务(如中/英文本识别等)中的有效性,并进一步从理论上分析多轮混排策略的工作原理。

     

    Abstract: Offline handwritten mathematical expression recognition is a challenging optical character recognition (OCR) task due to various ambiguities of handwritten symbols and complicated two-dimensional structures. Recent work in this area usually constructs deeper and deeper neural networks trained with end-to-end approaches to improve the performance. However, the higher the complexity of the network, the more the computing resources and time required. To improve the performance without more computing requirements, we concentrate on the training data and the training strategy in this paper. We propose a data augmentation method which can generate synthetic samples with new LaTeX notations by only using the official training data of CROHME. Moreover, we propose a novel training strategy called Shuffled Multi-Round Training (SMRT) to regularize the model. With the generated data and the shuffled multi-round training strategy, we achieve the state-of-the-art result in expression accuracy, i.e., 59.74% and 61.57% on CROHME 2014 and 2016, respectively, by using attention-based encoder-decoder models for offline handwritten mathematical expression recognition.

     

/

返回文章
返回