保捱科技网
您的当前位置:首页数据采集系统关键模块的研究与设计实现

数据采集系统关键模块的研究与设计实现

来源:保捱科技网
第7卷第4期2007年2月

科学技术与工程

Science科学Technology技术and与Engineering工程

Vol.7c

No.4Feb.2007

1671-1815(2007)04-0620-032007Sci.Tech.Engng.7卷

数据采集系统关键模块的研究与设计实现

童庆勇

王盼卿

李晓辉

贺天章

(军械工程学院计算机工程系,石家庄050003)

摘要数据采集系统是一类很重要的软件,往往设计用作采集海量和复杂数据条目。大数据量数据采集系统在性能上有很高

的要求,特别是在处理方式和效率上。通过对数据采集活动中关键业务流程的研究,分析并设计了该系统关键模块,实现了高效、准确地数据采集工作的要求。关键词

数据采集系统

数据采集

关键模块

中图法分类号

TP274;文献标识码B

数据采集系统,主要完成数据收集、汇总、整理等工作,常常面对复杂、海量的数据对象,器材编码所涉及的数据就是这种情况。器材编码是一项标准化、规范化的重要工程,意义重大,对数据采集系统准确性和效率的要求都很高。本文描述的是应用于某领域器材类目编码工程的数据采集系统,并分析其关键技术问题和设计实现了其关键模块。

块是提供导入功能的数据接收模块和提供数据冗余检查的数据处理模块。数据接收模块主要考虑的是高效率导入问题,冗余检查模块主要考虑效率以及人机结合检查排除冗余的问题。

2.1

关键模块的设计实现

系统的数据流程

器材数据由基层单位整理并转化为规定格式

1关键模块的分析

该领域器材类目数量巨大,涉及几乎现有所

的电子表格(EXCEL),通过电子表格向数据库导入,导入时同时检查电子表格格式,即数据规范与否。如果发现错误行,将记录错误行号,系统通知其返回修改。图1为描述整个数据流程的简图。

有主要国民经济工业门类,编码本身是一个十分艰巨和长期的工程,在本文不作讨论。本文只讨论为编码提供数据支持的数据采集系统。首先,现实的情况是原始数据分散在各个器材管理部门,由于器材用途的差异、部门间管理水平的差异以及部门间软硬件设施的差异,使得对原始数据管理水平差异很大。有的已经实现了很好的数据库管理,有的只用简单的电子表格进行管理,有的还未开始对器材条目整理和管理。其次,由于器材本身可能是标准件或共用件,在设备之间存在大量重复,在管理部门之间也存在交叉;同时由于生产企业、管理部门各方面原因,使得部分器材的名称、件号、规格型号等的不规范,导致部分重复情况无法,通过计算机排除。

从以上分析可以看出,该数据采集系统关键模

2006年10月10日收到

图1数据导入模块数据流程简图

系统录入模块可以把数据直接录入到数据库,适合未整理的器材数据以及向数据库新增加条的目的,对已经实现计算机管理的器材数据,则通过数据导入模块完成;录入模块还可用于已导入数据

4期童庆勇,等:数据采集系统关键模块的研究与设计实现

621

条目的修改、增减。下级部门采集数据并处理完毕后,通过系统生成包含器材数据的数据库文件,上报给上级器材管理部门;上级器材管理部门使用汇总功能,将数据汇总,经处理后向更上一级上报数据。下面这段代码作用就是汇总由下级上报的数据。

iftableNo<NumofAllTablethen//将表名读出

tables:=tables+AllTable[tableNo]+','elsetables:=tables+AllTable[tableNo]+')';

connectstr:=user+'/'+pass+'@'+server;//数据库登录命令

linecmd:='imp'+connectstr+tables+'file="""'+datafile+'"""ignore=y';

//Oracle读数据文件操作命令

result:=WinExecAndWait32(linecmd,SW_HIDE);//执行命令并返回结果

逐条添加:N1(EN2+C);整条插入:N1(C+D);中间表:N1C'+D。

E和D取决于所采用的计算机软硬件,C和C'与

数据表大小相关,数据表越大,则它们越大。实践表明,在相同计算机软硬件环境下,当目标数据表为空,待导入电子表格数据1万条,三种导入方法所需约120s、约300s;当目标数据时间分别为:约45s、

表数据为20万条,待导入电子表格数据1万条,所需约300s、大于30min。可见采用时间分别为约60s、

中间表的导入方法效率很高,而且受目标数据表大小的影响不大。

采用中间表导入的前提是每次导入的器材数据都归属一个类属,这样只需在目标数据表进行一次惟一性检查,避免每条数据都进行,极大提高了效率。

ifresult<>0then

Application.MessageBoxMB_ICONERROR);

('接收数据失败!','出错',

2.2采用中间表技术的数据导入模块的实现前文已经提到过,该领域器材数量巨大,这

2.3冗余数据处理模块的设计实现

冗余数据处理模块为器材编码工作提供规范

对导入模块的可靠性、速度和效率提出了很高的要求。如何设计出可靠性好、速度快的导入模块,关系整个系统的成败。数据导入过程中主要有以下几点影响导入效率,电子表格的读取方式、目标数据表的大小以及向目标数据表的写入方式。

电子表格单页数据超过一万条以后,逐个读出电子表格的数据项效率较低。解决办法是通过一个特殊二维数组变量将电子表格数据区域整块读入,这样从电子表格中读取数据转化到从这个数组空间取数据,速度得到很大提高。

数据导入的速度也受目标数据表的大小的影响,但不同的方法受影响的程度却不一致,可采用的方法有[1]:

向数据表逐条添加,并为每个数据项赋值;用带参数的SQL语句逐条将条目插入到表尾;先将数据插入中间表,在中间表上处理数据的惟一性,然后再整体插入到目标数据表末尾,插入成功后清空中间表。

假设检查数据惟一性每条需要时间为C,C、C'分别指在目标表和中间表中检查的耗时,在数据表末尾进行一次插入需要时间为D,为一个数据项赋值所需时间为E,数据条目和数据项分别为N1、那N2。么三种方法分别耗时为:

化、无冗余数据。冗余处理的主要对象是器材中的通用器材和共用器材。

标准件是标准化的器材,有规范的名称、规格型号、件号等,通过这几个字段就可以惟一区分一种器材。系统根据判定器材名称、规格型号、件号是否完全相同,相同的判定为冗余条目,保留其中一条,其余作相应处理后从条目中去除。

共用件是同时使用在几个或一类设备上的器材。由于其并不是标准化的器材,部分共用器材在名称、规格型号、件号的不够规范,不能完全通过计算机准确判断。为了保证数据的准确性,需要专业人员通过使用系统来完成排除。为最大限度提高处理效率,系统提供主要字段排序功能、搜索功能,专业人员使用这些功能可以快速地判定那些相似条目是否为冗余数据,从而进行处理。

专用件是使用在单个型号设备上的器材。在导入模块设置不能重复导入一个型号的设备,即可保证专用件的惟一性。

3结束语

通过对器材编码需求以及实际数据采集工作

的详细分析,研究并设计了数据采集系统。本文简

(下转第628页)

628

科学技术

与工程7卷

术,增强CRM的功能。

12

王扶东,李兵,薛劲松,等.FastassociationrulemininginCRM.北京:中国科学院研究生院学报,2004;(3):358—365

考文献

45

佟强,周园春,阎保平.关联规则挖掘算法.西安:微电子学与计算机,2005;(6):68—72

JiaweiHan,KamberM.Dataminingconceptsandtechniques.北京:机械工业出版社,2001

钱旭潮,袁海波,丁源.企业客户关系管理.北京:科学出版社,

HanJ,PeiJ,YinY,etal.Miningfrequentpatternswithoutcandidategeneration.In:ProceedingsoftheACM-SIGMODInternationalConferenceManagementofData.Dallas,TX,2000;1—12

2004

ResearchandApplicationofConstraint-basedAssociationRuleMining

ZHANGRu,YANGZhi-yi

(CollegeofSoftwareandMicroelectronics,NorthwesternPolytechnicalUniversity,Xi′an710065,P.R.China)

Usingassociationruleminingcanfindtheassociationfromhugeamountofdatainbusinessor

otherfiled.Itprovidestheimportantinformationtodecision-making.ApplyingassociationruleminingtoCRMcandeepentheanalyticfunctionofCRM.Accordingtotheenterprises′needsandthecharacteristicsofcross-selling,aconstraint-basedFP-growthalgorithmispresentedafteranalyzingtheconstraint-basedassociationrulemining.Theapplicationofconstraint-basedassociationrulemininginCRMcaneffectivelysupportenterprisestomakemerchandiseplanning.

[Keywords]constraint-basedassociationruleminingcustomerrelationshipmanagementcross-selling!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!(上接第621页)

述了数据导入模块和冗余处理模块涉及到的主要技术难题及其解决方法,其中对采用中间表的数据导入技术有着极高的数据导入的效率,希望可以作为该领域类似工程技术的参考方法。

[Abstract]

参考文献

DateCJ.Anintroductiontodatabasesystems(seventhedition).北京:机械工业出版社,2000

ResearchandDesignoftheKeyModulesofDataCollectionSystemTONGQing-yong,WANGPan-qing,LIXiao-hui,HETian-zhang

(DepartmentofComputerEngineering,OrdnanceEngineeringCollege,Shijiazhuang050003,P.R.China)

[Abstract]Datacollectionsystemisoneimportantkindofsoftware.Itisalwaysdesignedforthemagnanimity

orcomplexitydataobject.Magnanimitydatacollectionsystemisrequiredgreatinperformance,especiallyindealingmodeandefficiency.Throughtheresearchofkeyoperationflowindatacollection,keymoduleshavebeenanalyzedanddesigned,whichachievehighefficiencyandnicetyrequirementinthedatacollectionwork.[Keywords]datacollectionsystemdatacollectionkeymodules

因篇幅问题不能全部显示,请点此查看更多更全内容