We use cookies to improve your experience with our site.

中文信息处理技术发展现状与未来展望

Chinese Information Processing and Its Prospects

  • 摘要: 本文应国家自然科学基金委约稿,较全面地综述了中文信息处理领域主要研究分支近年来的研究进展和成果。在改革开放以来的二十多年发展历程中,通过包括国家自然科学基金在内的国家级科研计划资助,我国中文信息处理研究得到了快速发展。本文介绍了国内中文句法分析、中文语义分析、机器翻译、信息检索、信息抽取、中文语音识别与语音合成等方面的最新研究成果,并提出了相关方向今后的研究重点和若干需要关注的问题。中文信息处理研究近年来广泛采用或借鉴了模式识别和统计机器学习领域的方法,如隐马尔科夫模型、最大熵模型、期望最大化算法、支持向量机方法、神经网络方法、条件随机场方法等,形成了中文信息处理的相关理论和经典方法。中文句法分析的基础是自动分词、词性标注和命名实体识别。浅层句法分析主要指包括语块识别,其方法主要有:基于规则的方法、基于统计的方法、基于实例的方法和多种策略融合的方法等。国内在中文句法分析方面探索了一系列方法,包括基于合一运算的汉语句法分析方法、各种基于统计的汉语句法分析方法、汉语依存句法分析方法等。中文树库的建设还有待进一步加强。中文动词次范畴化的研究主要研究了汉语动词次范畴化现象的语言学理论和汉语动词SCF信息的自动获取技术,并获得了目前国内外同类研究的最优性能。词义消歧以语料库为主要知识源,根据对已标注语料的利用分为无指导、有指导和半指导的方法。国内研究者探索了基于实例、无指导学习方法、互信息计算、词汇向量空间、基于依存分析与贝叶斯分类模型结合等各种方法。中文语义分析研究在汉语语义表达框架及语义分析方法、中文意合网络、概念层次网络理论、逻辑语义、广义配价模式等方面取得了进展。我国研究者自八十年代中期以来,对于基于规则、基于实例、基于统计的机器翻译方法进行了广泛探索。基于规则方法为可实用化的机器翻译系统奠定了基础。国内对统计机器翻译的研究相对起步晚,但研究者具有浓厚的兴趣,其中基于句法的统计翻译实验取得了很大进展。中文搜索引擎已经广泛提供互联网信息的自动收集、过滤、检索导航等服务。中文信息检索的主要研究包括索引单元和检索模型等研究。我国研究者在这两个方面均进行了探索,在跨语言信息检索方面主要侧重于中英两种语言之间的双向跨语言检索研究。中文语音识别在经典的隐马尔科夫模型基础上又提出了一系列改进模型,如分割模型、聚类模型、双语声学模型等。以PSOLA方法为基础的中文语音合成技术取得了很大成功。

     

    Abstract: The paper presents some main progresses and achievementsin Chinese information processing. It focuses on sixaspects, i.e., Chinese syntactic analysis, Chinese semantic analysis,machine translation, information retrieval, information extraction, andspeech recognition and synthesis. The important techniques and possiblekey problems of the respective branch in the near future are discussedas well.

     

/

返回文章
返回