聚类分析(Cluster Analysis)
知识要点:
1、什么是聚类分析?
2、理解聚类分析的基本思想
3、聚类分析的相似性度量
4、系统聚类法( Hierarchical Cluster )和快速聚类(k-means)的基本思想
5、结合SPSS软件进行案例分析
6、聚类分析的应用
zf
1
例1:谁经常光顾商店,谁买什么东西,买多少?
按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类
这样商店可以….
识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)
刻画不同的客户群的特征(如用性别、年龄等变量来刻画)
聚类分析的应用:无处不在
为什么这样分类?
有何好处?
因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。
挖掘有价值的客户,并制定相应的促销策略:对经常购买酸奶的客户;对累计消费达到12个月的老客户。
针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!
zf
2
例2:谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!
这样银行可以……
制定更吸引的服务,留住客户!比如:
一定额度和期限的免息透资服务!
百盛的贵宾打折卡!
在他或她生日的时候送上一个小蛋糕!
zf
3
如何实现聚类? ---聚类分析的基本思想和方法
1、什么是聚类分析?
聚类分析: 是根据“物以类聚”的道理,对样品或指标进行分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强的一种多元统计分析方法。
聚类分析的目的:把相似的研究对象归成类;即:使类内对象的相似性最大化和类间对象的差异性最大化。
问题的关键:如何刻画研究对象(样品或指标)间的相似性?有哪些方法可以实现研究对象的分类呢?
zf
4
系统聚类(又称为层次聚类Hierarchical cluster):凝聚式系统聚类、分解式系统聚类
非系统聚类(又称为非层次聚类non- hierarchical cluster ):如K-均值法(快速聚类法)
2、聚类分析的方法
zf
5
凝聚式
分解式
以系统聚类法为例
zf
6
二、相似性度量
1、相似性的度量指标:
相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-1,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;
距离:变量或样本间的距离越近,说明其相似性越高,应归为一类;距离越远则说明相似性越弱,应归为不同的类。
样本分类(Q型聚类)常以距离刻画相似性
指标分类(R型聚类)常以相似系数刻画相似性
zf
7
常用距离:
1)明考夫斯基距离(Minkowski distance)
明氏距离有三种特殊形式:
1a)绝对距离(Block距离):当g=1时
zf
8
1b)欧氏距离(Euclidean distance):当g=2时
1c)切比雪夫距离:当时
zf
9
例:横轴代表重量(单位:kg),纵轴代表长度(单位:cm)。有四个点A,B,C,D,见图。
明氏距离及其特殊形式的缺陷
zf
10
SPSS数据的聚类分析 来自淘豆网m.daumloan.com转载请标明出处.