We use cookies to improve your experience with our site.

像中国古代诗人一样创作:学会生成有韵律的中文古诗

Composing Like an Ancient Chinese Poet: Learn to Generate Rhythmic Chinese Poetry

  • 摘要:
    研究背景 作为人类历史灿烂文化遗产的一部分,诗歌是语言表达的高级形式,因为它涵盖了情感、观点和故事等信息。诗人严格按照古典诗格式创作出既满足韵律审美又满足语义要求的高度凝练的格式化内容,用以表达自己的情感和观点。举例而言,格律诗是中国古典诗的常见类型,其就采用了平/仄声调以及韵律来确保古典诗的优美。虽然古典诗类型众多,但绝句和律诗是中国古典诗中最为流行的类型。与其他文学形式相比,绝句有三点需要注意:1)结构化约束,每首绝句有四行,每行有七个字;2)声调,每个字都有特定的声调(如平或仄),同时每首绝句遵守一个特定的声调模式。一般而言,对于五言或七言绝句,主要存在四种常见的声调,即阴平、阳平、上声和去声;3)韵律,绝句中第二行和第四行的最后一个字必须是同一个韵律类型。在如此严格的限制下,那些写得好的绝句被认为充满了韵律之美。这也是为什么诗歌写作(尤其是极具韵律的中国古典诗歌)对人类而言是一项很难的任务,更别说是通过计算机来进行诗歌自动创作。因此,相比于现代语言中其他相关任务而言,中国古典诗歌自动生成对人工智能而言仍是一项极具挑战的任务。
    目的 通过对已有工作的调研发现,在古典诗生成中仍然有两个主要问题需要被解决:1)大多数生成模型都是一阶段生成模型,没有打磨优化的过程;2)这些模型很少考虑古典诗本身的约束,如声调、韵律等。直觉上而言,很多中国古代的诗人倾向于先写一首满足韵律美学要求的草稿,然后再基于语义推敲打磨草稿;也有一些诗人倾向于先基于语义写一首草稿,再基于韵律美学完善草稿。本文旨在通过模仿学习人类的诗歌创作过程,以进一步提升诗歌生成的质量,涵盖语义与美学两个维度。
    方法 受人类诗歌创作过程启发,本文提出了一个两阶段网络(即受限的推敲生成网络,简写为RPG)来自动生成中文古典诗歌。相比之前的诗歌生成模型,本文所设计的网络具有一个两阶段解码器。其中,第一阶段解码器生成一首符合美学(或者语义)的草稿,第二阶段解码器基于语义(或美学)来打磨草稿以生成最终的完善稿。基于每个解码阶段的重心不同,本文所提出的两阶段网络可以设计为两个对称的方法,即美学到语义(简写为AtoS)方法和语义到美学(简写为StoA)方法。
    结果 相比于现有工作,本文所提出的两个方法能够确保所生成的诗歌更符合语义和美学上的要求。实验结果也表明了不管是在自动评价指标上,还是在人工专家评价指标上,本章所提出的方法都具有明显的优越性,尤其是在声调和韵律相关指标上。具体而言,在专家人工评估结果上,本文方法不管是在诗意层面还是连贯性上都比既有方法相对提升10%以上;在自动化评估指标如BLEU值上,本文方法也比现有方法相对提升10%以上。
    结论 通过借鉴人类古典诗创作过程,本文提出了一种能够生成质量更高的中国古典诗的受限推敲网络机制,该机制采用一种迭代的方式来打磨诗歌的美学和语义。与之前研究不同,本文所提出的网络具有一个二阶段的网络结构,其中每个阶段关注古典诗的不同方面,即分别关注古典诗的语义或美学。因此,RPG网络能够更为准确地模仿人类的古典诗创作过程,并能够生成质量更高的中文古典诗。在众多评估指标上进行了实验以较为全面地衡量RPG网络模型的效果,实验结果表明不管是在人工评价指标还是自动评价指标上,RPG模型效果都明显优于对比模型,即能够生成质量更高的中文古典诗。本文为自然语言生成领域提供了一种新思路。在后续的工作中,可以考虑引入更多的约束(如拼音)、设计自适应的推敲过程以及基于本文所设计的网络尝试半结构化或者非结构化的自然语言生成任务。

     

    Abstract: Automatic generation of Chinese classical poetry is still a challenging problem in artificial intelligence. Recently, Encoder-Decoder models have provided a few viable methods for poetry generation. However, by reviewing the prior methods, two major issues still need to be settled: 1) most of them are one-stage generation methods without further polishing; 2) they rarely take into consideration the restrictions of poetry, such as tone and rhyme. Intuitively, some ancient Chinese poets tended first to write a coarse poem underlying aesthetics and then deliberated its semantics; while others first create a semantic poem and then refine its aesthetics. On this basis, in order to better imitate the human creation procedure of poems, we propose a two-stage method (i.e., restricted polishing generation method) of which each stage focuses on the different aspects of poems (i.e., semantics and aesthetics), which can produce a higher quality of generated poems. In this way, the two-stage method develops into two symmetrical generation methods, the aesthetics-to-semantics method and the semantics-to-aesthetics method. In particular, we design a sampling method and a gate to formulate the tone and rhyme restrictions, which can further improve the rhythm of the generated poems. Experimental results demonstrate the superiority of our proposed two-stage method in both automatic evaluation metrics and human evaluation metrics compared with baselines, especially in yielding consistent improvements in tone and rhyme.

     

/

返回文章
返回