We use cookies to improve your experience with our site.

一种处理端到端任务型对话中无监督对话状态跟踪的多段预测网络

Unsupervised Dialogue State Tracking for End-to-End Task-Oriented Dialogue with a Multi-Span Prediction Network

  • 摘要:
    研究背景 本文主要研究端到端任务型对话系统,这种系统被广泛地应用在人们的生活中,如百度的小度、苹果的Siri等。端到端的任务型对话系统需要联合处理对话状态跟踪(Dialogue State Tracking, DST)和回复生成两个任务。传统的方法通常采用有监督的范式设计端到端任务型对话系统。这种范式从人工标注的语料中学习DST,然而,语料的标注成本很高,并且费时费力。此外,现有的标注语料只能覆盖少数的领域,不能覆盖现实世界中的广泛领域。这会增加端到端任务型对话系统的开发成本并影响这些系统的可扩展性。
    目的 我们的研究目标是,通过开发一种端到端任务型对话系统中的无监督对话状态跟踪方法,以降低任务型对话系统开发成本。此外,我们还需要开发一种自动地获取本体中的值的方法,以减少人工标注值的成本,进一步地降低对话系统的开发成本。
    方法 我们提出了一种多段预测网络,具体来说,首先,我们提出一种新的分割-合并复制机制,该机制可以捕获对话中的长距离依赖关系,从而自动提取多个文本段作为候选值。基于这些候选值,我们设计了一种基于语义距离的聚类方法从候选值中获得每个槽的值和提及。最后,我们进一步提出了基于本体的强化学习方法,该方法使用每个槽的值和提及来鼓励模型产生准确的对话状态,从而实现了无监督的对话状态跟踪。
    结果 我们的方法在两个单领域和两个多领域数据集上都取得了非常好的性能,超过了之前的无监督对话状态跟踪方法。此外,我们在低资源的医疗领域构建了一个新的中文对话数据集,在这个数据集上的实验进一步证明了我们方法的可扩展性。
    结论 为了在端到端任务型对话中进行无监督对话状态跟踪,本文提出了一种多段预测网络。该方法不使用标注的对话状态和标注的值,仍然能够自动提取槽-值对作为对话状态。具体而言,我们设计了一种分割-合并复制机制捕获对话历史和回复之间的长距离依赖关系,以生成候选值。此外,我们提出了一种基于语义距离的聚类方法,以获得每个槽的准确值和提及。我们进步一提出了一种基于本体的强化学习方法,它利用聚类得到的值和提及来鼓励模型为每个槽生成相关的值。通过这种方法,我们将基于本体的强化学习方法的期望与分割合并复制机制的期望相融合,以优化槽值对的概率,从而生成准确的对话状态。在单领域和多领域任务型对话数据集上的实验结果表明,我们的方法取得了显著的提高。此外,在相同的性能要求下,我们的无监督方法节省了大量的标注工作。我们构建了一个新的医学领域的对话数据集,进一步证明了该方法的可扩展性。

     

    Abstract: This paper focuses on end-to-end task-oriented dialogue systems, which jointly handle dialogue state tracking (DST) and response generation. Traditional methods usually adopt a supervised paradigm to learn DST from a manually labeled corpus. However, the annotation of the corpus is costly, time-consuming, and cannot cover a wide range of domains in the real world. To solve this problem, we propose a multi-span prediction network (MSPN) that performs unsupervised DST for end-to-end task-oriented dialogue. Specifically, MSPN contains a novel split-merge copy mechanism that captures long-term dependencies in dialogues to automatically extract multiple text spans as keywords. Based on these keywords, MSPN uses a semantic distance based clustering approach to obtain the values of each slot. In addition, we propose an ontology-based reinforcement learning approach, which employs the values of each slot to train MSPN to generate relevant values. Experimental results on single-domain and multi-domain task-oriented dialogue datasets show that MSPN achieves state-of-the-art performance with significant improvements. Besides, we construct a new Chinese dialogue dataset MeDial in the low-resource medical domain, which further demonstrates the adaptability of MSPN.

     

/

返回文章
返回