数据仓库中数据组织和管理的研究
来源:保捱科技网
维普资讯 http://www.cqvip.com 第2O卷第7期 2002矩7Yt 情 报 科 学 Vo1.2O.No.7 July,2002 ・信息系统:与 网绛・ 数据仓库中数据组织和管理的研究 王 菲 (上海市黄埔区永宁街66号404,上海200025) 摘 要 本文着重论述了在数据仓库中如何利用索引技术和对数据库质量的划分来组织和管理数据,以达 到对数据仓库性能的优化。 关键词 数据仓库 索引技术数据质量 Research on Database Organization and Management in Data Warehouse Wang Fei (Yongning Street Number 66,404 Huangpu District,Shanghai,Shanghai20OO25) Abstract This articie discusses how to use indexing and rating data quality to organize and manage data, which are in order to optimize the efficiency of the data warehouse system. Keywords Data warehouse Indexing Data quality 1 索引技术 数据仓库的灵魂就在于灵活性和不可预测访 问,因此索引技术是很重要的。在数据仓库中,存 在贯穿整个开发过程的足量数据来支持对现实数据 1.2 哈希索引 哈希索引解决了分离路径长度和数据项的难 题,哈希算法把基本的算术操作应用到键值上,把 键值分配到特定的存储桶,接着这些存储桶轮流由 分区使用,确保数据在这些小分区之间平均分布。 1.3 位图索引 如果索引的列是包含唯一值或是接近唯一值 时,就适于使用B树索引。但表中某行的基数远小 于行的数量时,B树索引就不适合了,位图索引就产 生了。它是一组o/3字符,在一列中,每一种可能 作出索引决策,有了这一实际数据的容量,我们就 能容易的评估出索引的有效性并逐个测试那些有助 于提高性能的索引。 1.1 B树索引 B树索引表示平衡树索引,它的重新索引项的 路径长度是不变的,几乎存在一致的、恒定的响应 时间。 存在自己唯一的位图。表中每一记录都被分配一个 在位图中的相对位置或者是一个值(O或1),表明 每一个记录是否出现了不同的值。它适合于那些只 读、低基数的应用。 1.4 Bit—Wise索引技术 Bit—Wise索引在数据存储的方式上与传统的 RDBMS完全不同,它是按列存储数据的.即所谓的 磁盘存储块上的索引项称为“页”。从按顺序排 列的列表中建立树的逻辑属性,即在索引页中添加 项,然后再把它分为两半,这两半本身也是按顺序 排列的,当添加项的时候,项自动在这两个部分之 间进行分配。数据页包含着实际的数据值,叶子页 包含着顺序页序号的项一一存储数据的物理媒体 ——以及物理页上的相对行号。 在B树索引中,一个非常重要的变量就是建立 “对数据进行垂直分割”。它在位图索引基础上扩充 存放了该字段中的不同取值。Bit—wise索引足“数 据驱动”的,有I F、HG、HNG和FP四类: (1)I F索引(I owFast,低基数):对每一属性 在键值基础上的分区索引。分区索引是一种特殊的 B树索引。在这种索引中,表根据一定范围的键值. 分解成若干小部分(分区)。利用时间进行分区是常 用的方法。 收稿日期:200l O1 2O 的每一个不同的值都建立一个位图,而位图中的每 个Bit的位置都对应于相应的rowID.只需扫描 维普资讯 http://www.cqvip.com 728 情 报 科 学 2O卷 一次位图就可对所有的rowID进行定位,可以大大 降低被扫描数据的数量,对集函数运算几乎不需要 对实际的数据值进行存取,对AND和OR逻辑运 算效率也极高。 例如:Select count(*)from customers where state一‘AL’and class=‘A’ State—AK State=AL … State—NY 0 0 1 0 01 1: ; 0 1 1 。0 1 00 。1 先对‘AL’和‘A’的位图索引进行AND运算, 再将所的结果的全部“1”相加,即可得满足条件的 顾客总数。 Date Store State Class Sales A A B A A B B A 这种索引适于:有较少的唯一值数(<1ooo); 有SUM、AVG和COUNT,速度很快;索引占用空 间为原始数据的2O ~2O0 。 (2)HNG索引(HighNonGroup,高基数) 将属性列的域值按照某种方式进行垂直分割, 然后以二进制位图的形式存储。例如: 销售量 销售量的二进制表示 这种索引所需的存储空间很少,只是原始数据 空间的10 ~2O ,采用“混合位图”的方式进行 存储,这样系统只需一次I/O操作便可读取全部索 引。 例如典型查询:Select sum(sales)from CUStomers #1bits on 1+#2bits on 2+#4bits on 4+# 8bits on 8・・・・・・L A L T L 从 札盯从 盯从 T L 一6*1+4*2+4*4+4*8=62 它适用于:唯一数值较多(>lOOO)时;字段类型 是货币、日期等;用在Aggregates,Range Searches 中;索引占用空间为原始数据的1O ~2O 。 (3)HG索引(HighGroup,高基数) 这一类型索引是由B树类型索引和HNG类型 索引组合而成的。适用于:唯一值数较多(> 1ooo)或与数值类型的字段做连接;某字段是唯一 键;次字段用在连接操作中;用在SELECT DISTINCT,C0UNT(DISTINCT),GR0UP BY 中的字段;索引占用空间为原始数据的100 ~ 600 。 (4)FP索引(FastProjection) 这类索引是由LF和HNG类型索引组成的,先 用LF索引对行进行筛选,然后用HNG索引进行集 函数的计算。 如:select sum(sales)from customers where state一‘AL’and class一‘A’ 执行该查询时,所有操作都在索引上进行,而 不用对表进行存取,大大提高了查询速度。 这种索引适合于:仅在SELECT语句中出现的 字段;出现在UKE子句中的字段;即席连接(在查 询时处理)中出现的字段;要参与字段与字段的运 算;索引占用空间为原始数据的1O0 ~600 。 一1 1 1 1 S一e一一 弛 弛 一札m从盯~一A A B A S一S一一 0 u 维普资讯 http://www.cqvip.com 7期 数据仓库中数据组织和管理的研究 729 图1显示了简单的数据仓库质量模型。质量目 2数据质量的管理和划分 作为一个决策信息支持系统,数据仓库必须提 标是定义在数据仓库对象类型上的抽象的需求;质 量维用于划分质量目标和质量因素,此外它还用于 定义质量因素和目标的词汇表;度量因素代表实际 的度量值;质量因素之间的相关性也存储在仓库中; 质量目标被一组能被实际质量因素所回答的问题所 定义的。 供高质量的数据和服务。一致性、准确性、可访问 性、有效性和可执行性是数据仓库使用者所要求的。 数据质量被定义为“适于使用”。数据质量有高度的 主观特性,必须对不同的用户采用不同处理方式。我 三类不同的质量因素: (1)主要质量因素:风险承担者的简单估计或 们使用一种“目标提问方法”(GQM),来分析不同 质量目标产生的不同质量因素的内在联系。GQM 方法把高度主观的质量目标映射成一组可度量的相 互联系的质量因素。质量原型:数据质量在数据仓 库中非常重要,我们把它并入原型法,这样质量模 输入算法得出直接的度量。 (2)派生的因素:是“问题解决”技术的输出 结果,可被作用在主要因素上的函数得到。 (3)设计选择:调节算法的参数值、控制策略 和目标以适合于解决特定问题。 型就成为元数据库的一部分,质量信息精确的与结 构对象相连。 数据仓库的不同使用者对数据质量有不同的要 求,如表1所示。 根据以上对数据质量的分析,产生如下的数据 质量管理方法,如图2所示。 评价 分析或提高 = 二] 三 把阿素值填 入质量方案 蚌运{ 矗 定义 : 分解缸杂 对象 定义对象.窭 侧和疆性 经验鞭动 “函数” 皇 定义度请 标准 发理/求精 新/lI函数 II图1数据仓库质量模型 分析驱动 |自致 期壤的/ 口I接受的值 二 计算 在GQM模型中,高层用户的需求被模型化为 目标,质量度量值表达了对象属性的度量。目标和 度量之间的关系是通过质量要求提问建立的。 表1数据质量表 I为产 皇 得刊质 舛萱c值 图2数据质量管理方法 维普资讯 http://www.cqvip.com 730 情 报 科 学 20卷 数据仓库设计者 评价 模型质量(设计一致性、设计效率) 数据仓库数据源和模型 曩篙 软件质量(执行效率与模型和其它约束条件的一致性) 软件包 元数据质量 DW组件缉程人员 评价 理懈 整体软件质量 元数据 数据仓库组件 元数据 数据源 提高 老系统风险承担者 评价 理懈 元数据可访同性 数据质量报表 系统有效性 提高 源操作型系统 参考文献 3 数据仓库数据组织与管理技术 的未来发展 未来的发展将使数据库厂商明确推出数据仓库 1 [_美j I OU Agost.数据仓库技术指南.人民邮电出版社, 2()O1 2 [美]w H.Inmon.Building the Data Warehouse.机械工 业出版社,2000 引擎,作为服务器产品与数据库服务器并驾齐驱,带 有决策支持扩展的并行关系数据库有发展潜力 总之,数据仓库是一项基于数据管理和利用的 综合性技术和解决方案,它将成为数据库市场的新 一3 王 珊,等.数据仓库技术和联机分析处理.科学出版 衬,1 999 4 P 2t ̄lOS Vailiadis,Morrane Bouzeghoub and Chrstoph QIllx.Towards QualityUsageNo.2 —Oriented Data Warehouse .knd Evolution.Information Systems Vo1.25. 轮增长点,同时也成为下一代应用系统的重要组 成部分。数据仓库对于广大计算机用户,包括中国 用户并不遥远。它看得见、摸着得、买得到。相信 大家必能在数据仓库实施和使用中获得满意的效 果 5 Alan Benander,Barbara Benander,Adam Fadlalla,an({ Gregor?r James.Data Warehouse Administration and Manag ̄ nle Tlt.Information Systems Management,winter 2(;00 (责任编辑:刘凤勤) (上接第689页) 亿日元增至1 994年的9500亿日元;欧共体由1 994年到 2000年将投资230亿法朗,另由私营部门投资41oo亿法朗: 韩国也计划从1 995年到2000年投资1.96万亿韩元用于开 发信息技术,另投资300亿韩元培养信息化专门人才。显然, 经济信息化正改变着发达国家的投资结构。对发展中国家来 费品和消费劳务的产出总量和结构信息化,消费重心从商品 的多少、大小、轻重等硬性需求,转向美观、轻巧和质量 (包括品种、规格、档次)等软性需求;二是信息产业将创造 出新消费投向选择和消费内部结构,消费重心由物质材料构 成的单一硬件产品转向物质与精神并重的多样需求,前者使 说,经济信息化水平直接影响着对国际投资动向的把握能 力,成为今后改善投资环境的标准之一。 衣食住行消费与收入成正比,使精神或文化享受、旅游和服 务消费与收入成正比,占越来越大的比重。后者则使信息商 品逐渐为人们所接受,并成为人们Et常生活中所不可缺少的 需求。 第二,就业结构的信息化。这是指社会劳动力在国民经 济中的分布和构成上对经济信息化的反映。就业结构信息化 的趋势,一是因就业结构在其他方面的变化与劳动力所分布 产业的信息化呈现强相关性,使劳动力转移向信息产业集 中;二是因传统产业信息化程度提高而对就业者要求具备越 第四,资源结构信息化。这是指自然资源的开发加工对 信息化的反映。资源结构信息化趋势,一是非物质形态的社 会财富,即信息资源,相对材料和能源资源成为一种战略资 源。信息资源开发和利用程度已成为衡量一国经济发展水平 和综合国力的重要标志。二是各种经济自然环境以及人类社 会形成并不断增长的人口、劳动力、知识、技术、文化、管 来越多的信息知识和信息技能,使劳动力中可从事信息开发 和信息服务的人数增加。前者反映的是一定时期就业结构信 息化的程度,后者反映的是一定时期就业结构信息化的水 准。当然,信息技术的推, 会使自动化程度提高而出现结构 性失业,但长远看信息产业的扩张将带动相关产业的发展并 理等,凡是能进一步有利于生产或使用价值提高的要素,都 蛮为资源结构要素。前者使信息成为重要的经济资源;后者 使信息资源成为支持经济增长的力量,即在信息产品和相关 生产中,信息比重高于所耗材料和能源的比重。 创造新的就业机会,开辟多种新职业,从而使劳动力需求量 大增,提高社会就业率。 第三,消费结构信息化。这是指消费总体中消费类型和 水平对经济信息化的反映。消费结构信息化的趋势, 是消 总之,从国家经济诸要素结构看,经济信息化的渐进过 程确是沿经济系统的各种结构扩张的。 (责任编辑:孙晓明)