数据挖掘-WEKA 实验报告四
姓名及学号 : 杨珍 班级 : 卓越计科1301 指导老师 : 吴珏老师
1
2
一、关联规则(掌握weka中Apriori算法的使用)
1)加载weather.arrf文件(如果有数值型属性,必须进行离散化),选择Apriori算法进行关联规则挖掘。对挖掘结果进行分析。 (1)Apriori核心算法过程如下:
过单趟扫描数据库D计算出各个1项集的支持度,得 到频繁1项集的集合。 连接步:为了生成,预先生成,由2个只有一个项不同的属于的频集做一 个
(k-2)JOIN运算得到的。
剪枝步:由于是的超集,所以可能有些元素不是频繁的。在 潜在k项集的某
个子集不是中的成员是,则该潜在频繁项集不可能是频繁的可以从中移去。 通过 单趟扫描数据库D,计算中各个项集的支持度,将中不满足支持度的项
集去掉形成。
通过迭代循环,重复步骤2~4,直到有某个r值使得为空,这时算法停止。
在剪枝步中的每个元 素需在交易数据库中进行验证来决定其是否加入,这里的验证过程 是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺 点。
目前,几乎所有高效的发现关联规则的并行数据挖掘算法都是基于Apriori算
法 的,Agrawal和Shafer 提出了三种并行算法:计数分发(Count Distribution)算法、数据分发(Data Distribution)算法和候选分发(Candidate Distribute)算法。
(2)以weka软件自带的wether.nominal.arff样本为数据样本.
3
(2)选择Associate选项卡里面的Apriori算法进行关联规则分析
(3)点击参数文本框,在参数选项卡设置参数如下
4
算法属性设置:
1.car:如果设为真,则会挖掘类关联规则而不是全局关联规则。 2.classindex: 类属性索引。如果设置为-1,最后的属性被当做类属性。 3.delta: 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。
4.lowerBoundMinSupport: 最小支持度下界。
5.metricType: 度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。
在 Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是:
5
a)Lift : P(A,B)/(P(A)P(B)) Lift=1时表示A和B。这个数越大(>1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度. b)Leverage :P(A,B)-P(A)P(B)
Leverage=0时A和B,Leverage越大A和B的关系越密切
c) Conviction:P(A)P(!B)/P(A,!B) (!B表示B没有发生) Conviction也是用来衡量A和B的性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大, A、B越关联。 6.minMtric :度量的最小值。 7.numRules: 要发现的规则数。
8.outputItemSets: 如果设置为真,会在结果中输出项集。 9.removeAllMissingCols: 移除全部为缺省值的列。
10.significanceLevel :重要程度。重要性测试(仅用于置信度)。
11.upperBoundMinSupport: 最小支持度上界。 从这个值开始迭代减小最小支持度。
12.verbose: 如果设置为真,则算法会以冗余模式运行。 (4)点击左侧 start按钮执行,执行结果如下
(5)运行结果分析:由运行结果可知,总共有14个数据项,5个属性项
6
Minimum support: 0.15 (2 instances) %最小支持度0.15,即最少需要2个实例 Minimum metric : 0.9 %最小度量<置信度>: 0.9 Number of cycles performed: 117%进行了17轮搜索生成了频繁1项集,频繁2项集,频繁3项集,和频繁4项集
Best rules found: 最佳规则
2)加载美国国会投票记录文件vote.arrf,使用Apriori算法进行数据挖掘,并对结果进行分析。
7
(1)vote的属性
(2)同样选择Apriori算法进行关联规则分析
8
其中435个数据实例,17个属性
Minimum support: 0.45 (7718 instances) %最小支持度0.45,即最少需要196个实例
Minimum metric : 0.9 %最小度量<置信度>: 0.9 Number of cycles performed: 11%进行了11轮搜索同样生成了1、2、3、4总共4个频繁项集,10条最佳规则
9
3)市场购物篮分析:加载supermarket.arrf文件,选择Apriori,算法进行关联规则挖掘,对结果进行分析,看看能发现什么有趣的规则。 (1)打开文件
(2)supermarket的属性
10
(3)执行结果分析
总共4627个数据项,217个属性项。
Minimum support: 0.15(7718 instances) %最小支持度0.15,即最少需要4267个实例
Minimum metric : 0.9 %最小度量<置信度>: 0.9 Number of cycles performed: 17%进行了17轮搜索11
生成了10个最佳规则
二、思考与分析
1、对于具有高支持度和高置信度的规则,请在购物篮领域举出一个实例,并指出这些规则是否是主观上有趣的。
在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润。
对超市为例进行基于关联规则的购物篮分析,以找出强关联规则,为超市商品摆放提供依据,有利于超市指定交叉销售策略,应用关联规则挖掘,可以有效地发现商品之间的有趣关联,在此基础上之地的综合性交叉销售策略,将有助于提高零售企业的销售业绩和客户满意度,进而提高企业的竞争力.
12