Apriori 算法及应用关联分析中的一些基本概念?项集(itemset) :包含 0个或多个项的集合? K- 项集:一个包含 K个数据项的项集?支持度计数(support count) :一个项集的出现次数就是整个数据集中包含该项集的事务数。(支持度) ?频繁项集:若一个项集的支持度大于等于某个阈值?关联规则:是形如 A→B的蕴涵表达式, A 和B都是属于数据集集合 I,并且 A∩B为空。?支持度( support ):是数据集中包含 A∪B(即 A和B二者)的百分比。?置信度( confidence ):是数据集中包含 A 事务同时包含 B事务的百分比。 Support(A → B)=support_count(A ∪ B)/N Confidence(A → B)=support_count(A ∪ B)/ support_count(A) 关联规则挖掘算法可分为两个步骤: ⑴产生频繁项集:发现满足最小支持度阈值的所有项集,即频繁项集。⑵产生规则:从上一步发现的频繁项集中提取大于置信度阈值的规则,即强规则。 Apriori 算法基于 Apriori 算法的单维布尔数据流程图 Apriori 算法应用(1) 问题的形式化描述: 设: I={i 1,i 2…i m}是全部项的集合; 数据集 D是事务的集合,包含 N个事务; D中每个事务 T是项的集合,使得 T包含于 I;每个事务有一个标识符,称为 TID 。 Apriori 算法应用(2) 政务问答数据集 D Apriori 算法应用(3) 频繁项集的发现过程 Apriori 算法应用(4) 关联规则的生成
apriori算法及应用 来自淘豆网m.daumloan.com转载请标明出处.