保捱科技网
您的当前位置:首页银行监管部门数据集市系统的设计与实现

银行监管部门数据集市系统的设计与实现

来源:保捱科技网
银行监管部门数据集市系统的设计与实现

南京航空航天大学 硕士学位论文

银行监管部门数据集市系统的设计与实现 姓名:孟雅珍 申请学位级别:硕士 专业:管理科学与工程 指导教师:方旭升 20061201

南京航空航天大学硕士学位论文 I 摘 要

银监会的正式成立,意味着中国的金融监管又向前迈进了一大步,同时也对银

监会监管信息化提出了更高的要求。监管信息化涵盖了银监会业务的各个方面,其中

非现场监管作为银行监管的一种重要方式,主要通过对银行数据、报表和有关资料,

对银行经营业务进行风险监管和评价。实现非现场监管信息系统,可以帮助银监会运

用成熟的监管模式和风险评价方法,对银行经营业务进行更科学地监管,提高监管效

率,辅助监管决策。本文在此背景下研究和开发了以银监会监管一部为原型的非现场

监管信息系统。

非现场监管信息系统实质是一个决策支持系统(DSS),主要供监管人员浏览银行

报表,进行各种数据分析,识别风险并对风险进行评价。通过对银行监管业务的分析,

考虑银监会现有信息化基础,本文主要采用数据集市和 OLAP 分析技术来实现监

管一部的非现场监管信息系统。数据集市是部门级应用的数据仓库,具有更强的实用

性,针对部门需求开发,也是目前 DSS系统普遍采用的实现方法。OLAP支持对银行

数据的快速查询及分析,是非现场监管系统的核心应用。

本文首先分析了数据仓库、数据集市及 OLAP 技术的研究现状,了解了它们各自

的优缺点,总结了其在实现 DSS系统的作用。同时,对银监会的银行监管业务作了详

细的调研,归纳总结了非现场监管系统的需求。需求分析指出报表浏览、数据分析、

指标预警、风险评价是系统的核心功能需求。在需求分析的基础上,本文作了详细的

系统设计,将监管业务按照内容分成了 8 个主题域,每个主题域下都有相应的分析对

象,并提出了风险监管指标体系。基于 Web 的非现场监管数据集市系统采用了 J2EE

平台进行系统开发,实现系统的三层架构。在底层数据库上,运用星型模式实现

数据模型,自行开发了 ETL数据抽取转换工具。在前台数据展现上,采用了 BRIO作

为商业智能应用,实现数据分析。在决策支持上,系统实现了对银行的风险评价

体系。银行监管部门数据集市系统的实现,基本满足了银监会部门非现场监管要的要

求。

本文研究结果表明,基于数据集市的决策支持系统在银行监管信息化建设中具有实

际意义,是可行的,并可为其他部门监管信息化或银行内部监管提供借鉴;数据集市

作为一种支持 DSS的底层技术,具有很好的优势,值得推广应用。 关键词:数据集市,OLAP,ETL,DSS,商业智能,非现场监管,风险评价体系银行监管部门数据集市系统的设计与实现

II Abstract

The establishment of China Banking Regulatory Commission CBRC means that the

system of banking supervision in china makes great development, and it set a higher

requirement to the imformatization of CBRC. The imformatization of CBRC covers every

side of supervision business. The off-site regulation, as an important way of banking

regulation, supervises the bank business and evaluates the risks by the data, reports and

relative information. Off-site Regulation Information System using mature supervision

model and method of risk evaluation will help CBRC do the supervision more scientific,

improve its efficiency, and support the decision making. This paper design and implement an

Off-site Regulation Information System by data mart for CBRC Dep1The Off-site Regulation Information System is a decision support system DSS in

essence, it provides some function such as report viewing, data

analyzing, risk recognizing

and assessment. After analyzing CBRC’s business and considering its imformatization

foundation, the paper develops the Off-site Regulation Information System using Data Mart,

OLAP technology. Data mart is an especial data warehouse applying for department level. It

has higher practicability, is developed especially for department’s requirement, and is

recognized as the common technology to implement DSS. OLAP stands for Online

Analytical Processing, supports the rapid inquiries and multidimensional analysis of bank

data; it is the core application of system

Firstly, the paper analyzes the current situation of data warehouse, data mart and OLAP,

discusses their advantages and disadvantages, and points out its function in developing DSS

system. At the same time, this paper makes the detailed investigation to CBRC, and

summarizes its requirement to system. The demand analysis indicates that the report

browsing, data analysis, indicator pre-warning, and risk assessment are the system core

function demands. Then on the base of demand analysis, this paper makes detailed system

design, puts forward supervision indicator system, and divides supervision business into 8

subject areas. There are many analysis objects under subject area. At last, web-based system

off-site regulation information system is developed by J2EE platform, using Star join to

implement multidimensional data model, and using BRIO as business intelligence

application to multidimensional data analysis. Otherwise, the ETL tool is developed to

transfer data from data warehouse to data mart. As a DSS, the system achieves to realize the

banking risk evaluation. The data mart system has satisfied the basic off-site supervision

requirement of the CBRCThe results of this paper show that the DSS based on the data mart has practical value in

the imformatization of CBRC. It is feasible and can provide reference to other regulation

department or bank internal control. Data mart, as a bottom technology supporting DSS, has

its predominance in imformatization, and values to be wider appliedKey Words: data mart OLAP ETL DSS BI off-site supervision risk evaluation

system承诺书

本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本学 位论文的研究成果不包含任何他人享有著作权的内容。对本论文所涉及的 研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。 本人授权南京航空航天大学可以有权保留送交论文的复印件,允许论 文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或其他复制手段保存论文。 保密的学位论文在解密后适用本承诺书 作者签名: 日 期:

南京航空航天大学硕士学位论文 1

第一章 绪论

1.1项目背景及意义2003 年,第十届全国人民代表大会第一次会议通过了《关于机构改革方案

的决定》,决定设立中国银行业监督管理委员会(以下简称银监会)。

银监会主

要职责是统一监管银行、金融资产管理公司、信托投资公司及其他存款类金融机构,

维护银行业的合法、稳健运行[1]。2003年 4月 28日起,银监会正式履行职责。这意味

着银监会作为一个新的机构,履行银行业监管的职责,从中国人民银行分离出来,

金融监管形成了银行、保险、证券分业监管的框架。同时,银监会的成立将迅速提高

中国银行监管的专业化水平,增强银行业风险内控监管,推进银行业公司治理机制的

建设和完善,确保金融机构安全、稳健、高效运营,推动我国银行业尽快提高国际竞

争力,提高监管效率和权威性。

银行监管包括了金融机构的监管,但是其主要的监管对象是国内的商业银行。银监

会对商业银行的监管主要分为市场准入监管和市场运营监管[2]。市场准入监管主要指依

据法定标准,批准金融机构法人或其分支机构的设立。市场运营监管主要是指对银行

业务的监管,以及时发现、识别、评价和纠正商业银行的业务营运风险。市场运营监

管主要 2种方式:现场监管和非现场监管[3]。

现场监管是指监管部门派出检查组或者专人直接深入到金融机构对其业务、风险等

诸方面进行一种实地检查活动[4]。传统的现场监管是银行监管的主要手段和方法,在维

护金融业稳定、保证国家金融的执行、打击金融犯罪方面发挥了重要的作用。但

是传统的现场监管也存在着一定的弊端,比如现场监管缺乏计划性、持续性、相对稳

定的周期性、约束性,也不能解决信息不对称问题,检查内容不够完整,有时还会出

现负效应。因此,非现场监管应当发挥更大的作用,和现场监管一起作为银行业监管

的两驾马车,并驾齐驱,才能使银行业监管更加完善和高效。

非现场监管是指银监会对于各行报送的数据、报表和有关资料,以及通过其他渠道

(如媒体、定期会谈等)取得的信息,进行加工和综合分析,并通过一系列风险监管

和评价指标,对各商业银行的各种风险做出初步评价和早期预警[4]。非现场监管能够及

时和连续监测商业银行的经营和风险状况,有助于明确现场检查的对象和重点,合理

分布监管力量,提高监管质量和效率。

《中华人民共和国银行业监督管理法》第 23条规定,银行业监督管理机构应当对

银行业金融机构的业务活动及其风险状况进行非现场监管,建立银行业金融机构监督

管理信息系统,分析、评价银行业金融机构的风险状况。由此可见,建立银行业监管

部门的非现场监管系统也十分必要的,已经成为了银行监督管理机构的必须执行的任

银行监管部门数据集市系统的设计与实现 2

务。为此银监会启动了“1104工程”,专门负责有关银监会信息系统事宜。 1998 年起,中国人民银行开始对国内商业银行实行非现场监管。但是从非现场监

管的结果看,非现场监管效果并不理想,存在着诸多问题,如:非现场监管指标体系

设计不合理,监管技术落后,信息共享率低,监管资料报送内容多,且以手工方式收

集资料,效率和质量均不高,未建立科学的风险评价体系[5][6][7][8]。以上反映出来的问

题使得建立新的自动化、智能化的非现场监管信息系统迫在眉睫。本课题就是在这样

的背景下提出来的。银监会下设 15部门,其中监管一部承办对原国有商业银行的监管

工作。本课题就以监管一部为研究对象,以建立适应新情况满足新要求的非现场监管

信息系统为目标,运用更多的先进的信息技术,借鉴成熟的监管模式指标和方法,建

立全新的部门级应用系统,不仅可以完成监管一部的非现场监管工作,并且具有一定

的可移植性,适用于其他监管部门或银行内控部门。

鉴于银行监管部门繁杂和海量的数据,数据口径维度众多,数据量极其庞大,采用

数据仓库技术来实现系统是最佳的选择。数据集市是针对部门级应用数据仓库,可以

在数据仓库的基础上增加具有部门特色的功能需求[9]。因此,数据集市也就是银监会监

管一部实现非现场监管信息系统的最佳选择。

数据仓库是由//.om在上世纪 90年代初正式提出的,随着研究的深度和广度

的不断扩大,数据仓库技术已经延伸至数据集市、OLAP技术、数据挖掘等方面内容,

数据仓库也成为了计算机技术、信息技术的一个重要发展领域[10]。起初的数据仓库是

为了解决数据量庞大和有效信息贫乏之间的矛盾,即“数据丰富,信息贫乏”而提出

来的一种新的“数据库技术”,在实际应用的过程中,数据仓库发挥了更大的超出预想

的效果,数据仓库技术由此得到了大力的发展和推广。数据仓库是一个面向主题的、

集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策制定过程[11]。

数据仓库是管理信息和分析应用最有效的方式,数据仓库技术与其他软件的有机结合,

可以有效地为企业进行风险管理、绩效评估、盈利分析和客户关系管理[12]。数据仓库

从多个信息源中获取原始数据,经数据转换清洗、整理加工后,存储在数据仓库的内

部数据库中,通过数据仓库访问工具,向数据仓库的用户提供统一、协调和集成的信

息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。与传统的数据

库技术相比,数据仓库为决策分析提供了更好的支持,跳出了传统的联机事务的范畴。

数据仓库技术在需要进行大型数据分析、决策支持的行业的发展尤其迅速,银行即是

该种行业之一,适合和需要运用数据仓库技术[13]。

数据集市是建立在数据仓库的基础之上的,是支持某一部分或者特定的企业需求的

决策支持系统(DSS)应用的数据集合。它相当于部门级的数据仓库,小型的,面向

部门的和工作组的数据仓库,数据集市中一般包含有关某一特定业务领域的数据,其

数据仍然具有数据仓库中数据的特点,数据集市的结构和数据仓库类似,但具有更强

的实用性,往往针对特定部门开发,其作用主要是为该部门的策略者提供有效、真实

南京航空航天大学硕士学位论文 3

的信息[14]。因此,如何有效正确的展示和分析数据集市中的数据成为数据集市中的一

个重要问题。OLAP(On-line Analytical Processing)联机分析处理主要解决了这一问题。

1993年,有“关系数据库之父”之称的 //.d首次提出了 OLAP的概念[12][15][16],

它专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。

它可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,

并以直

观的、容易理解的形式将查询结果提供给决策人员,使他们迅速、准确地掌握需要的

信息。OLAP 可以快速响应客户的需求,在线生成各种分析图表,并可以以视角

展示。分析是 OLAP 的一大特色,数据以多个维度进行展示,并且支持上钻下钻

旋转等多角度的查看数据。

数据仓库、数据集市、OLAP技术等日用发展成熟的技术为银行业监管部门建立非

现场监管信息系统提供了有力的技术支持[15]。本文将在这些信息技术的基础上,分析

目前系统存在问题,充分采集系统需求,掌握最新的银行监管理论与标准,并据此建

立一个合乎要求的非现场监管数据集市系统,满足监管需求,提高监管质量与效率。

1.2 研究内容

本文主要是以银监会部门级数据仓库??数据集市为目标,在银监会提供需求的基

础上,分析和设计能满足需求的非现场监管数据集市系统。其主要研究的内容有以下

一些方面:

1)正确和深入理解数据仓库、数据集市的含义,把握两者的框架结构以及异同点,

总结数据仓库和数据集市的设计方法,比较并选择适应监管部门要求的开发方法,以

此指导数据集市系统的开发过程;

2)收集和挖掘银行监管部门的需求,认真分析该需求,根据银行监管的实际业务

内容,得到需要进行监管的各类数据、报表,把这些数据根据需求进行合理的分类,

分主题进行分析设计,并收集数据的各种维度;

3)监管指标体系的设计。理解银行监管的意义并落实在系统开发的过程中,改善

原有的监管指标体系,使之更加全面,可以涵盖银行监管的各个方面,全面掌控银行

经营业务信息。同时,新指标体系要能够更加科学,在指标计算上采取国际标准。另

外,指标体系要去能够便于数据集市系统的实现;

4)数据集市系统设计研究。对目前的各种数据集市的开发方法进行比较,选择适

合该系统并且能够实现的方法。在具体的设计环节上,充分考虑客户需求和现有的技

术,选择最佳设计方案。系统设计主要包括系统功能模块设计和逻辑设计及

数据数据

库设计,也是整个系统能够稳定运行的关键所在,这对系统业务和信息技术提出了双

重的要求。

6)ETL策略研究。ETL是数据集市的重要组成部分,它决定了集市中数据源的来

银行监管部门数据集市系统的设计与实现 4

源,正确程度,频率,是保证数据集市正确有效工作的基础。在 ETL的设计中要充分

考虑各种异常情况,使之具有更强的稳健性,可扩展性,确保系统日后在灾难性事故

之后的恢复,方便升级等。

7)OLAP联机分析和 BI商业智能的应用研究。OLAP是实现数据分析的工具,如

何有效、人性化的展示数据是本文重点研究的问题之一。BI 商业智能是让系统能够自

动的管理和监测某些指标或数据,对于高层领导者,这是系统的亮点,也是本文的工

作重点。

1.3本文研究意义及创新点

银监会是新成立的机构,主要负责对银行业的监督与管理。监管职能从中国

人民银

行分离出来之后,分工将更加明确,更加专业,要求也更高。非现场监管信息系统作

为非现场监管的主要手段和实施基础,可以支持银监会更好的实现非现场监管的功能

和职责,实现自动化的采集、分析、展示和加工有效数据,采用多种分析方法对各行

数据进行自动分析,识别风险,自动对风险进行评级,实现预警机制。数据集市系统

可以使监管工作从大量的人工作业中解脱出来。高效、正确、直观的分析数据有助于

决策者更加科学的判断与决策。非现场监管信息系统讲全面、准确地的监管各银行数

据,充分发挥非现场监管的作用,让我国的银行业监管水平在信息技术的支持下进入

更深的层次,向国际化水平靠拢。

本文的创新点主要体现在对非现场监管信息系统的设计上。本文收集了来自银监会

的需求,参考近年来的研究成果,将最新的非现场监管指标体系和风险评价体系加入

到系统中,并得以实现,完成基础的决策支持功能。监管指标及风险评价体系主要从

银行经营业务出发,按照信用风险、流动性风险、市场风险、资本充足、盈利性等几

大部分分别进行监管和评价。

在数据集市的设计上,根据目前已有的系统,相应地进行数据库设计,并制定了合

理的数据抽取方案,尽可能地减少了 ETL过程中数据需要转换、清洗的程序,在保证

数据质量的同时减少了 ETL运行时间,提高其效率。

同时,该数据集市系统集成了相关应用系统,一次登陆可以在多个系统中切换。在

数据展示上,采用了可视化图表形式,具有良好的交互性和可操作性,能够展示经过

处理的各种上报数据。数据的展示上也能够收放自如,支持上转下转旋转等

数据的操作。

南京航空航天大学硕士学位论文 5

第二章 数据集市及相关技术概念 2.1数据仓库的概念

数据仓库是一种优化管理、提供决策支持的数据解决方案,它并不是一个新的平台,

而是一个新的概念;它也并不是对传统数据库的替代,而是在传统数据库的

基础上对

数据进行重新组织,以支持决策分析。 2.1.1 产生背景

近半个世纪以来,数据管理技术经历了三个发展阶段,分别是人工管理阶段、文件

系统阶段和数据库系统阶段[11]。而数据仓库则是数据库技术的进一步发展。

传统的数据库技术是以单一的数据资源即数据库为中心,处理工作主要的划分为两

大类:操作型处理和分析型处理,以操作型处理为主。操作型处理也叫事物处理,它

实现了大量日常事务处理的电子化,减少了业务人员的工作量,从而大大提高了工作

效率,它主要是为企业的特定应用服务的注重响应时间、数据安全性和完整性。分析

型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传统数据库系统

优于日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多

样化的要求。操作型处理和分析型处理的分离成为必然[17][18][19]。 随着数据库技术的应用和发展,建设一个综合的,面向分析的环境,来更好支持决

策分析,从而形成了数据仓库技术Data Warehousing,简称 DW。数据仓库综合了多

种信息技术的运算环境,将全部的运行数据汇集到一个系统中,再将其转换成为面向

主题的形式,使终端用户可以从历史角度进行对其进行查询和分析[20]。随着数据仓库

技术的发展,相关的分析工具也随之发展。其中联机分析处理Online Analytical

Processing, OLAP和数据挖掘(Data Mining, DM都是基于数据仓库的分析工具。OLAP

主要用来对数据仓库中的数据进行多方位的展示与分析。DM 则用来在海量数据

中挖掘潜在的、隐藏的规律和知识[21]。 2.1.2 概念及主要特点

数据仓库概念首先是由美国科学家,被誉为数据仓库之父的 W. H. Inmon于 1990

年在其著作《Building the Data Warehouse》中提出。书中给出的定义是:数据仓库就是

面向主题的、集成的、非易失的稳定性、随时间不断变化的数据集合,用以支持经营

管理中的决策制定过程。

数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是指用户

使用数

据仓库进行决策时所关心的重点方面,是一个在较高层次上将企业信息系统中的数据

银行监管部门数据集市系统的设计与实现 6

综合、归类并进行分析利用的抽象[22]。每一个主题都对应一个宏观的分析领域,比如

银行经营情况、风险情况、盈利性情况等。而面向主题是指数据仓库中的信息是针对

主题区域,为主题进行决策而提供信息。

数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这

是建立数据仓库的关键步骤[14]。因为数据仓库中的数据往往来自于不同的操作事务数

据库,而这些数据库中的数据可能存在编码不一致性的问题,因此要求数据在进入数

据仓库前,必须要进行一致性处理,使之遵循通用的编码规则。另外还要把原始数据

由面向应用的特性转变成面向主题的特性,从而满足业务的需要,减少数据的冗余

[23][24]。

数据仓库的稳定性是指数据仓库反映的是已成为历史的数据,而不是日常事

务处理

产生的数据,数据经加工和集成进入数据仓库后,大部分操作为查询和插入,而修改,

删除等操作则较少执行,并且数据一般都会被长期保存。

数据仓库是不同时间的数据集合,数据仓库的数据应该随着时间的推移而发生变化

[11]。为适应决策分析的需要,数据仓库中的数据时限要远远长于操作型环境中的数据。

数据仓库中需要不断增加新的历史数据内容,删除不再需要、年代久远的数据,而数

据仓库中的一些统计性数据要随着仓库中数据的变化而变化的。 2.1.3 目前应用状况作为一个新的研究领域,数据仓库的研究和应用得到了广泛的关注,也很快成为数

据库市场一个新的增长点。国外有许多厂家和公司如 IBM, oracle. NCR和Microsoft等

有实力的公司在这个领域进行了深入的研究,相继推出了自己的数据仓库解决方案。

但是,数据仓库技术体系还没有成熟,数据仓库技术还没有达到数据库技术的成熟度

和易用性,目前市场上的数据仓库产品都是基于一个通用的技术平台设计的,虽然能

解决不同用户的分析需求,但没有将特殊领域的商业逻辑与数据仓库技术集

成,因而

分析效果不可能达到峰值,所以目前数据仓库技术的发展仍处于积累阶段[25]。

当今世界充满了激烈竞争,正确及时的决策是企业生存和发展的最重要环节,因此

很多企业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。据统计 2000年

全球 500 家大企业中有 50%的企业已经实施数据仓库或部门级的数据集市,特别是在

电信、银行、零售业、航空、铁路运输、邮政等传统数据密集型行业。 在我国,数据仓库市场启动较晚,主要由于当时我国的应用基础尚不完善及企业意

识不足。但随着我国信息化建设的逐渐完善和应用意识的提高,许多行业如电信、金

融、税务等逐步认识到数据仓库技术对于企业宏观发展所带来的巨大经济效益,纷纷

建立起数据仓库系统。但和国外相比,国内的数据仓库市场还不成熟,主要的原因有

以下几个方面:首先,建设数据仓库的前提是要有大量的数据,特别是历史数据。其

次,数据仓库应用主要是一个建立的过程,实践性非常强,而国内真正能够完整实施

南京航空航天大学硕士学位论文 7

数据仓库方案的人才严重匾乏,因此制约了国内数据仓库市场的发展。第三,目前数

据仓库工具基本国产的,由于东西文化差异,数据表现不符合国内客户要求,必须重

新定制开发应用界面,从而延长了建设周期。

根据 IDC公司的调查,数据仓库的总体投资回报率在 401%左右,投资回收期在 2-3

年之间,可见数据仓库能带来的巨大经济效益,它的发展前景不可限量。在中国,数

据仓据的前景也必定相当广阔。 2.2 数据集市 2.2.1数据集市的由来

数据仓库是面向企业的,可以容纳企业各方面的异构数据,在设计数据仓库时必须

考虑到全企业的数据、功能需求,因此建立数据仓库的工作范围和成本常常是巨大的,

而且建设周期非常长,是高代价项目[14]。这对于中小型企业来说,往往是不可能接受

的。因此,市场期待出现紧密集成,在部门级能够应用,支持决策分析的“小型数据

仓库”,数据集市就应运而生[26]。另外一种说法是,企业级的数据仓库主要负责了对数

据的采集,集成要求,即取得并存储了分析所需的数据,但是每个部门的分析不同,

所需要的数据不同,而分析数据往往比较稳定,如果每次都从数据仓库中取得数

据,那么代价很大,会造成数据仓库不堪重负。为了满足部门级的数据分析要求,就

产生了数据集市。数据集市是数据仓库的一个子集,所存储的数据有本部门所需分析

的内容决定,每个数据集市的 OLAP的设计也往往不同[26]。据统计,全世界对数据仓

库总投资的一半以上均集中在数据集市上。

数据集市是一种更小、更集中的数据仓库,是为企业提供分析商业数据的一条廉价

途径。它是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门

级的应用[10]。它相当于部门级的数据仓库,小型的,面向部门的和工作组的数据仓库,

数据集市中一般包含有关某一特定业务领域的数据,其数据仍具有数据仓库数据的特

点,不同的数据集市可以分布在不同的物理平台上,也可以逻辑的分布于同

一物理平

台上。它的灵活使的数据集市可以的实施,因而决策人员可以快速获取信息[10]。

因此,数据集市的主要特点可以概括为:规模小、有特定的应用、面向部门,由业

务部门定义设计和开发,业务部门管理和维护能快速实现、成本较小、投资快速回收、

工具集的紧密集成、提供更详细的、预先存在的、数据仓库的摘要子集[21][26][27]。

2.2.2 数据集市的分类

根据数据集市数据来源或建立方法不同,可以把数据集市分为 2种:从属数据集市

和数据集市。从属数据库数据源于数据仓库,每个数据集市的数据均能保持

一致,数据的完整性、及时性、一致性等都有强大的数据仓库作为保证;数据仓

银行监管部门数据集市系统的设计与实现 8

库的数据直接来源于应用环境,从各源数据环境中提取各种异构的数据,数据的完整

性、一致性要有数据集市的 ETL程序来提供和保证,而且每个部门在数据格式等方面

很难保持一致,结构不稳定,和理想的“众多的数据集市可以在日后适当的时候集成

成为数据仓库”的目的有一定的距离和难度[14]。以下两图清楚的表明了 2 种数据集市

在数据源、结构方面的区别。 图 2.1从属数据集市 图 2.2数据集市 2.3 数据仓库与数据集市比较 2.3.1 性能比较

数据集市是一种更小、更集中的数据仓库,在数据结构上看,两者的数据是一致的,

真是两者的结构也极其相似。但是,数据仓库和数据集市之间毕竟是不同的,本文从

一下几个方面对数据仓库和数据集市进行了比较,分析了两者的相似及不同之处,为

本文顺利正确的建立部门数据集市打下良好的基础。详细情况见下表。 表 2.1数据仓库与数据集市比较数据仓库 数据集市 范围 企业 部门 主题 多个 单个主题 数据源 多 相对较少

大小 一般大于 100GB 在 100GB之内 支持决策用户 企业高层 部门领导

数据模型 符合数据库范式 (至少第三范式) 方法 星形连接结构

数据 粒度化 综合的统计的 Data Base Data Base Data Base Data Base

Data Mart Data Mart Computer Computer Laptop 源数据 数 据集市 Data Base Data

Base Data Base Data Base

Data Warehouse Data Mart Data Mart Computer Computer Laptop 源数据 数据仓库 从属数 据集市

南京航空航天大学硕士学位论文 9

需要解释一下上表的“数据模型”这一项。目前在国内,很多数据仓库在被建立的

时候就使用了星型结构。所谓的星型连接Star-Join是指用来管理载入的某个实体的大

量数据的设计结构[11],下图给出了一个星型连接最简单的例子。 图 2.3一个简单的星型连接

星型连接的的“订单”被称作“事实表”,其他周围的实体,如“销售商”、“顾

客”等被称为“维度表”。但是这样的数据模型事实上比较适合数据集市的建立而非数

据仓库。数据仓库应该用规范化方法来建立,所谓的规范化方法是指 //.d提出的

规范化理论。规范化方法可以带来灵活性,能很好的适用于粒度化的数据,同时与数

据模型相匹配。数据集市在很大程度上是根据需求形成的,首先需要了解在数据集市

上进行处理的需求。一旦这些需求已知,就可以将数据集市建成一个最有效的星型连

接结构。但是数据仓库与此有着本质的不同,因为数据仓库是为了一个非常大的群体

服务的,它对于任何一个需求集合而言,性能和便捷性都不是最优的。数据仓库是根

据企业信息需求而非部门信息需求建立的。因此对于数据仓库建立星型连接将是一个

错误,因为这样最终结果是数据仓库在牺牲所有其他群体利益的代价中对一个群体实

现了最优。在数据集市中,创建和使用星型连接可以为决策支持系统的处理优化数据。

通过预连接数据和建立有选择的数据冗余,可以大大简化和调整被访问和分析的数据,

得到性能上的提高。

数据仓库和数据集市数据粒度也是不一样的,数据仓库中的数据是粒度化的,不同

时期的数据粒度是各异的。一般而言,近期数据按高粒度方式存储,年代久远的数据

按低粒度方式存储[22]。而在数据集市中的数据是紧凑和综合的,也即数据粒度不会太

高,已经是属于统计数据,而数据粒度一般是统一的。数据必须周期性的从数据仓库

或者其他数据源环境转移到数据集市,这种数据转移需要对数据进行一系列的选择、

清洗、转换、重组过程,也即 ETL过程。 订单 ID 订单数据 订单数据 销售商 ID 非关键字数据 顾客 ID 非关键数据 订单 ID

非关键数据 产品 ID 非关键数据 销售商 ID 销售商数据 销售商数据 顾客 ID 顾客数据 顾客数据 订单 ID 订单数据 订单数据 产品 ID 产品数据 产品数据 订单 销售商 顾客 发货 产品

银行监管部门数据集市系统的设计与实现 10

2.3.2 优缺点分析 数据仓库:

数据仓库构造的是企业级的决策支持环境。数据仓库是基于整个企业的数据模型建

立的,它面向企业范围内的主题。数据仓库是一种管理技术,它将分布在企业网络中

不同站点的商业数据集成到一起,为决策者提供各种类型的、有效的数据分析,起到

决策支持的作用。

数据仓库的缺点是建造过程漫长,并且实现成本巨大,对于中小企业难以忍受[27]。

数据集市:

数据集市是一种更小、更集中的数据仓库,是为企业提供分析商业数据的一条廉价

途径。各个部门可以根据自己的需要建立自己的数据集市,速度快,代价小[27]。一般

说来,数据集市中的星形连接结构、数据库技术、对数据的预处理,都可以加快

数据分析的速度,是最优的。

数据集市的缺点是数据不一致和平台的异构问题。数据集市由各个部门根据本部门

的需求建立的,各部门对同一数据的运用和看法不一,而部门之间的数据集

市没有约

束容易导致数据不一致性[17]。平台的异构问题是指各部门的数据集市拥有自己的

硬件平台、软件平台、数据和应用程序,使得数据不易共享。 2.4 OLAP联机分析处理 2.4.1基本概念

联机分析处理 OLAP 的概念首先由数据库创始人 //.d 于 1993 年提出。而后

OLAP理事会OLAP Council进一步对其做出了准确的定义:联机分析处理OLAP是一

种软件技术,它使分析人员、经理和执行官能够迅速、一致、交互的从各方面观察信

息,以达到深入理解数据的目的[12]。OLAP 既是一种面向数据的分析方法,也是一种

交互式的决策辅助方法。由系统辅助决策者发现问题,找到切入点。OLAP 能够对用

户的大部分要求迅速做出反应,OLAP 系统能处理与应用相关的任何逻辑分析和统计

分析,用户不需要专门的编程,就可以定义新的计算方法,将其作为分析的一部分。

OLAP 系统应能提供可视化用户界面,能够提供包括电子表格、图表在内的多种显示

方式。把信息直观、简洁、明了的显示给用户[15]。 2.4.2 分析

性是 OLAP最重要的属性。系统必须能够提供对数据分析的视图和分析,

包括对层次维和多重层次维的完全支持。在一个 OLAP 系统中,信息被抽象为立

方体Cube,它包括了维Dimension和度量Measure。而用户可以对这个立方体进行

切片、上钻、旋转等操作,从而对信息进行有效的分析[15]。下面介绍 OLAP 分析

南京航空航天大学硕士学位论文 11

中的维、维层次、数据集、数据单元、维度量值等基本概念和切片、切块、钻取、

旋转等基本操作。 2.4.2.1基本概念 维

维是人们观察数据的特定角度[12]。例如,监管部门会关注银行贷款随着时间推移

而产生的变化情况,这是从时间的角度来观察贷款情况,所以时间就是一个维度时间

维。一个维的取值称为维成员。

维的层次

人们观察数据的某个特定角度即某个维还可以存在细节程度不同的多个描述方

面,我们称这多个描述方面为维的层次[12]。一个维往往具有多个层次,例如描述时间

维时,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年

就是时间维的层次;同样,城市、地区、国家等构成了地理维的多个层次。 数据集

数据集是决策支持的支柱,也是 OLAP 的核心,有时也称为立方体或超立方

体[12]。数据集可以用一个数组来表示,例如,监管部门所关心的银行资产负

债情况的数据集可以表示为:(时间,银行机构,报送口径,科目,金额)这样就

可以用方法来表示具体的数据了。 数据集的度量值

在数据集中有一组度量值,这些值是基于数据集中事实表的一列或

因篇幅问题不能全部显示,请点此查看更多更全内容