We use cookies to improve your experience with our site.

一种新的语义类提取方法及在对话系统语言模型自适应中的应用

A Novel Similarity Measure to Induce Semantic Classes and Its Application for Language Model Adaptation in a Dialogue System

  • 摘要: 在大词表连续语音识别引擎中,统计语言模型(常为N元语法)可以用大量的语料来训练,并且被有效的应用。对于一个新的对话系统,常把通用语料来训练的语言模型与领域内语料训练的模型进行插值做语言模型自适应,但我们必须面对的问题是没有或只有极少领域内语料来训练语言模型。一种获得领域内语料的方法是人工写语法,再生成语料。 但是,人工写语法费时费力,还需要领域内相关知识,难以涵盖全面且不易扩展。因此,本研究考虑用语义类的提取的方法来生成语料,最后进行语言模型的自适应,从而提高语音识别正确率。从对话中提取语义类在九十年代中期就受到了较多关注。早期工作之一有Gorin等采用自动的方法获取对话语言片断。后来Arai等进一步研究到在流利话语中用Kullback–Leibler (KL)距离对相似短语进行聚类。Meng和Siu采用了半自动的方法从未标注的语料中提取对话结构并用于自然对话理解,主要用的是KL散度和互信息量。Pargellis 等人用了相似方法(还有另外三种相似度计算)来提取语义类,并比较语义类的领域独立性和跨领域的概念。KL距离是前人最常用的度量方法,而我们在本文中提出的一种基于同现概率的语义类提取方法在正确率,召回率,以及F1度量上都优于KL距离。其基本思想是,两个词具有的共同上下文越多,其就越相似。用最小值来表示同现的意义。通过迭代,不仅具有相同上下文的词对被提取,具有相似上下文(这些上下文词对在之前迭代中被认为相似)的词对也被提取。通过用基于同现概率的语义类提取方法迭代提取的语义类和结构,生成了大量的语料,用这些语料进行语言模型自适应,从而提高了语音识别正确率。在非提取所用数据的数据集上,字识别正确率从85.2%提高到91%。实验结果说明对话新领域的语料不足问题可以通过语义类提取后得到的模板,生成领域相关语料的方法来有效解决。我们提出的方法是跨领域,跨语言的。可以扩展到新的领域和别的语言,具有通用性。

     

    Abstract: In this paper, we propose a novel co-occurrence probabilities based similarity measure for inducing semantic classes. Clustering with the new similarity measure outperforms the widely used distance based on Kullback-Leibler diver-gence in precision, recall and F1 evaluation. In our experiments, we induced semantic classes from unannotated in-domain corpus and then used the induced classes and structures to generate large in-domain corpus which was then used for language model adaptation. Character recognition rate was improved from 85.2% to 91%. We imply a new measure to solve the lack of domain data problem by first induction then generation for a dialogue system.

     

/

返回文章
返回