We use cookies to improve your experience with our site.

数据仓库建模过程中一种自适应的模式分类方法

An Adaptive Approach to Schema Classification for Data Warehouse Modeling

  • 摘要: 数据仓库模型设计是数据仓库建设过程中复杂任务之一,设计人员不仅需要理解大量的业务需求,还需要熟悉企业已有操作型数据源系统的数据状况。由于已有数据仓库建模方法存在一些不足,如Inmon推崇的数据驱动 (data-driven)方法仅关注数据源系统数据,而忽视了企业最终用户的业务需求,所以需要较高水平的数据仓库专家来设计数据仓库逻辑数据模型;而Kimball所提倡的业务驱动(demand-driven)数据仓库建模方法仅强调满足各个业务部门的业务需求,从而导致该方法设计的数据仓库逻辑模型可能难以满足整个企业级的需要,并且,这种方法未考虑数据源问题,所以设计出的数据仓库可能会出现没有充分底层数据支持的情况。为弥补上述方法中的不足,我们提出了数据驱动与业务驱动相结合的一种数据仓库建模方法,该方法主要以数据源业务特征分析为基础,即把数据源数据表(即文中所谈的模式元素(schema elements))基于数据仓库主题(subjects)分类,这种方法充分综合了数据驱动和业务驱动两种方法的优点,可以把数据源系统的数据与企业用户的业务需求有效结合起来。在以前工程实践中我们主要采用手工方法来对模式元素进行分类,但是,为了减少数据仓库建模过程中的人工劳动,研究模式元素自动分类十分必要和有意义。本文基于信息检索研究领域中的语义背景向量(context vector)和TF*IDF计算模型的启发,结合主题和模式元素自身特点分别定义了主题背景向量(context vector of subject)与模式元素背景向量(context vector of schema element),并利用向量之间的夹角余弦相似度来度量它们之间的相似程度。但该方法的一个核心问题是如何构建主题背景向量,本文利用自适应技术(adaptive)构建主题背景向量。具体过程是在模式元素进行预处理的基础上,先让领域专家手工标记一小部分模式元素,然后再根据标记结果建立主题背景向量初始值,以此再从模式元素集合中随机抽取到的模式元素进行分类;基于新的分类结果调整各个主题背景的项(items)和权重(weights),并在下一时刻利用更新后的主题背景向量进行分类,这样不断进行循环计算,直到各个主题背景向量收敛,可最终得到数据仓库各个主题的背景向量。为验证该方法的有效性,文中利用实际数据仓库项目中遇到的模式先通过两种不同途径建立了主题的背景向量——手工构建与自适应方法构建,并对模式元素进行分类。试验证明,该方法可有效构建主题背景向量,且其分类效果要优于基于手工建立的主题背景向量的分类效果。

     

    Abstract: Data warehouse (DW) modeling is a complicated task,involving both knowledge of business processes and familiarity withoperational information systems structure and behavior. Existing DWmodeling techniques suffer from the following majordrawbacks --- data-driven approach requires high levels of expertise andneglects the requirements of end users, while demand-driven approachlacks enterprise-wide vision and is regardless of existing models ofunderlying operational systems. In order to make up for thoseshortcomings, a method of classification of schema elements for DWmodeling is proposed in this paper. We first put forward the vectorspace models for subjects and schema elements, then present an adaptiveapproach with self-tuning theory to construct context vectors ofsubjects, and finally classify the source schema elements intodifferent subjects of the DW automatically. Benefited from the resultof the schema elements classification, designers can model andconstruct a DW more easily.

     

/

返回文章
返回