构建一个教育领域知识图谱并将知识点链接到维基百科
Constructing an Educational Knowledge Graph with Concepts Linked to Wikipedia
-
摘要: 1、研究背景(Context):
近年来MOOC广泛的普及率也伴随着高达91%的辍学率。规模化、分散化的在线教育资源给用户带来了信息过载、资源选择的难题,课程和学习需求的不匹配是高辍学率的根本原因。能否帮助学习者尤其是缺乏相应学习背景的学习者,迅速了解资源概况、找到与个人学习需求相匹配的课程已经成为MOOC发展的瓶颈。
2、目的(Objective):
构建一个MOOC资源的知识图谱,以结构化的形式记载MOOC资源详情,描述MOOC平台、MOOC、教师、院校等概念及之间的联系,同时抽取MOOC丰富语义表达的知识点,融合概念检索为用户提供高效率的跨平台资源检索服务。最后根据MOOC资源属性详情分析MOOC之间的先修关系,为学习者提供高质量的学习路径建议。
3、方法(Method):
本文按照知识建模、知识获取、知识融合、知识存储的顺序构建一个知识图谱。知识建模方面,利用Protégé构建本体,定义MOOC、MOOC平台、教师、院校、知识点等五个类别和它们之间的关系;知识获取方面,利用爬虫获取主流MOOC平台上的资源详情作为数据,从MOOC详情属性抽取知识点并利用词向量与对应的维基百科条目链接以提供标准语义,从MOOC属性中抽取先修关系描述并根据文本匹配得出MOOC之间的先修关系并用多叉树生成学习路径;知识融合方面,根据文本相似度对不同平台的教师、院校进行实体消歧,避免数据冗余;知识存储方面,将知识图谱存储于Neo4j图数据库。
4、结果(Result&Findings):
本文构建的MOOC资源知识图谱共收录了4个MOOC平台、9312门MOOC、604个院校、18671位教师和24188个知识点,共计52779个实体,各个实体都具有丰富的属性。基于MOOC属性挖掘出2197条MOOC之间的先修关系。最终知识图谱包含超过30万个三元组。
5、结论(Conclusions):
为了有效组织在线教育资源并展现MOOC的内部特征,本文构建了迄今为止最大的一个MOOC类知识图谱来表示和存储MOOC相关实体的详细信息。提取了大量的知识点链接到维基百科条目来丰富MOOC的语义表示,根据挖掘出的先修关系形成学习路径为普通学习者提供有效的指导。丰富的MOOC资源及属性可用于其他MOOC相关的研究,如MOOC内容分析、辍学率改良等。未来的研究方向将是不断更新MOOC资源属性,提高知识点与维基百科条目链接的准确性。
Abstract: To use educational resources efficiently and dig out the nature of relations among MOOCs (massive open online courses), a knowledge graph was built for MOOCs on four major platforms:Coursera, EDX, XuetangX, and ICourse. This paper demonstrates the whole process of educational knowledge graph construction for reference. And this knowledge graph, the largest knowledge graph of MOOC resources at present, stores and represents five classes, 11 kinds of relations and 52 779 entities with their corresponding properties, amounting to more than 300 000 triples. Notably, 24 188 concepts are extracted from text attributes of MOOCs and linked them directly with corresponding Wikipedia entries or the closest entries calculated semantically, which provides the normalized representation of knowledge and a more precise description for MOOCs far more than enriching words with explanatory links. Besides, prerequisites discovered by direct extractions are viewed as an essential supplement to augment the connectivity in the knowledge graph. This knowledge graph could be considered as a collection of unified MOOC resources for learners and the abundant data for researchers on MOOC-related applications, such as prerequisites mining.