保捱科技网
您的当前位置:首页时间序列的快速相似性搜索改进算法

时间序列的快速相似性搜索改进算法

来源:保捱科技网
用技术 太原科技2010年第3期可 0 凹凰阅 S@0—可匡@ 黪霉鍪餮鞣豢霉毒巷毳囊鏊囊囊穗 疆甏繇赣毽《囊毫鼍毯强誊琵罄l §l毫馥疆|§ 鼋罄强l魏g 毯饕《繇l l|臻《鏊薯 。 一。 曩薯≯l臻魏蕾I |≯1% 文章编号:1006--4877(2010)03—0090—02 时闻赢 缺 镓 索改进 冰 刘利松,闫光辉,黄成,杨霞霞 (兰州交通大学电子与信息工程学院,甘肃兰州730070) 摘要:针对时序数据进行相似性挖掘方法的研究,提出一种寻找已知序列的所有相似性子序列的方法,用该方法 对数据模拟.结果表明该算法提高了查询性能。 关键词:相似性挖掘:时间序列:数据挖掘 中图分类号:O211 文献标志码:A 时间序列是指按时间顺序排列的一种数据,在 D(A, )= “时间序列”这一学科所研究的范围内,广义地指 三 组有序的随机数据【”。一般来说,时间序列的相似性 A Wi*BW I( 厶-A YR )-(BYLi-BYR )I. i=1 搜索可以分为两类:全序列搜索和子序列搜索闭。 1.2时间序列分段线性表示 在判定两时序的相似度上还会遇到一些问题, 时间序列分段线性表示(PLR)是将时间序列 如高频噪声、时间轴上伸缩等,对于这些问题已提 数据基于时间表示成多段相邻的近似直线。在数据 出很多算法.如离散傅立叶变换四,离散小波变 挖掘领域,PLR表示已经在下面一些领域得到应 换 ,滑动平均聚集近似方法同等。笔者引用时间序 用:一是支持快速相似性搜索;二是支持时间序列 列分段表示思想,以某省电力公司ERP系统业务量 新的距离度量。包括模糊查找、加权序列、DTW距 统计数据为研究对象,提出一种快速相似性搜索的 离、信息反馈等;三是支持文本和数据序列。 优化算法。 2算法描述 1 时间序列相似性度量 2.1 s7算法及其改进算法 相似性度量是衡量两个序列相似性的依据,是 基本搜素算法的本质就是搜索时序Q沿着被搜 相似性查找的基础。下面分别从时间序列距离度量 索时序R滑动,当Q与尺中子序列相匹配时计算 和时间序列分段表示来介绍。 其相似距离。Eamonn Keogh曾提出的S7算法,有 1.1时间序列距离度量 效地解决了效率和时间轴方向的伸缩问题。但是, 1.1。1欧式类距离 s7算法的执行效率较低,大部分时间都在构造表, 给定两个时间序列, (I l= ),Y(I l,I=m),当 因此.王晓哗等人在其基础上提出了计算两个不等 /.t ̄-m的,它们之问的Euclidean距离定义为 长序列相似性算法,但该算法在排列组合时间序列 厂 ————一 倾角上花费了大量时间,为此笔者在降低此算法的 E(X,Y)=、/∑(V i=1 xi-yi) . 时间复杂度方面作了一些研究,提出了一种快速搜 1.1.2 PLR常用距离 索算法。 一个时间序列,将其线性分割为 段,用大 2.2快速搜索算法 写字母A来表示:A=fAXL,AXR,AYL,AYR, 输入数据。时间序列5。和5:,伸长和收缩范围 A }。对于第i段A ,A =(A 厶,AXR ,AYL , s 0,相似性距离 0。 AYR ,AW )分别为第i段的起点横坐标,起点纵 输出数据。若相似,则输出相似子序列的起始 坐标,终点横坐标,终点纵坐标,第 段的权重。 点和相似性距离。 则距离D(A. 定义为 算法描述。步骤1:比较S 和S:的长度,较长 【基金项目1兰州市科技计划项目(60873196) 收稿日期:2010—01—05;修回日期:2010—02—06 作者简介:刘利松(1985一),男,陕西成阳人,在读硕士,主要从事数据挖掘研究,E-mail:lisong_liu@163.corn。 ・9D・ 应用技 太原科技 201 0年第3期 凰D 凰 圆@0— 匡@嗍 鬻 ≯| 冀∞}l §蠹§謦 l一一羹毒。一鼍%l§ 疆琵 § 壤 露譬| 整誊蕾l曩嚣l巷gl整§鏊罄 |謦 l甏 的标记为 (长度为 ),较短的标记为Q(长度 为Ⅳ);R和Q的倾角相应地标记为r和q。步骤 2:标记出Q两端的端点位置,左端子段记作 , 右端子段记作 ,计算尺 和尺 的时间差,当两 表1中C1,C2,C3,C4,C5指该电力公司下 属的5家公司,由表1可以看出,C2和C3的业务 统计数据和cl相似,c4与c5相似。由于C1和 c2这两个公司的业务发生时间及业务量的起伏相 似.可以认为其在人力资源管理上的管理方式也是 者的时间差刚好等于Ⅳ时,记录此子时间序列为 R 。步骤3:计算最大伸长和收缩角 和 ,基 于以下公式:0 = 一 , =O-e;标记其为 (g ,g 一)和(9R ,gR~)。将 中满足此范 围的记作 。步骤4:计算Q和R 的相似性距 类似的。这样,当其中一家公司改进业务管理方 法.就可以被与其他相似的公司所借鉴。 4结束语 对时间序列数据挖掘的研究越来越受到重视, 其在金融分析和科学实验分析等方面的应用也越来 越广泛。笔者基于S7算法的思想,对时间序列的 相似性搜索算法提出改进,克服了以前此类方法在 时问复杂度上的不足,实验过程中表现比较好的 性能 参考文献: [1】杨叔子,吴雅.时间序列分析的工程应用【M【.武汉:华中理 工大学出版社,1991. 【2] Faloutsos C,Ranganathan M,Manolopoulos Y.Fast Subse— quence Matching in Time Series Databases[C】//Proceedings ofACM SIGM0D.1 994. 离,如果相似性距离小于 ,则输出D及R中R 的起点.否则输出“NULL”。算法示意图见图1。 图1 时序Q沿 滑动 3应用实例 以某省电力公司下属各供电及超高压公司ERP 系统的人力资源模块维护员工工资业务的业务量统 计数据为例,使用ABAP开发平台,采用本文提出 的算法进行相似性搜索数据挖掘。该实验中记录业 务量数据482个,经分段处理,划分成31个子段, 所有子段直线的倾斜角集合为尺;搜索时序Q有5 [3】 Agrawal R,Faloutsos C,Swamia.Efifcient similarity search in sequence databases【C]//Proceedings of 4th International Conference on Foundations of Data Organiza——tion and Algorithms.Berlin:Sp ringer2Verlag,1993:69—84. 【4】 Chakrabarti K,Ortega—Binderberger M,Porkaew K,et a1. Similar Shape Retireval in MARS[C]//Proceedings of IEEE International Conference on Mulimedia and Expo.t 个子段,直线倾斜角集合为Q。设占=3, =5,实 验结果见表1。 表1相似性计算结果 公式编号 C1 C2 Berlin:Springer—Verlag,2000:709—712. C2 2.12 C3 4.43 3.27 c4 nuU null C5 null nH11 [551 YibK,FaloutsosC.FastTime SequenceIndexingforArbi— trary LP Norms【c】//Pr0ceedings of the 26th Intenartional Conference on Very Large Databases(VLDB).Cairo,Egypt: Morgan Kaufi ̄aann,2000:385-394. C3 C4 nuu null 4 51 (责任编辑张怀琴) Improved Algorithm of Fast Similarity Search of Time Series Liu Li-song,Yan Guang-hui,Huang Cheng,Yang Xia-xia (College of Electronic,Lanzhou Jiaotong University,Lanzhou 730070,China) Abstract:In this paper,to direct research of time series data using method of similar mining,the authors put for- ward a method of similar subsequence of given sequence.The results indicated that the algorithm improved query performance. Key words:similar mining;time series;data mining ・9 ・ 

因篇幅问题不能全部显示,请点此查看更多更全内容