2017年11月11日
1 /73
Chapter 9:聚类分析
广东商学院信息学院胡建军
2017年11月11日
2 /76
教学目的、要求
1、熟悉聚类分析的相关概念
2、了解聚类分析的常用算法
3、掌握最短路径法
2017年11月11日
3 /76
教学重点及难点
聚类分析中的数据处理和最短路径聚类分析算法
2017年11月11日
4 /76
Outline
聚类的基本概念与要求
对象间的相似性度量
常用聚类算法
分层聚类算法
最短距离法
最长距离法
结束语
2017年11月11日
5 /76
Outline
聚类的基本概念与要求
对象间的相似性度量
常用聚类算法
分层聚类算法
最短距离法
最长距离法
结束语
2017年11月11日
6 /76
What is Cluster Analysis?
Cluster analysis
Grouping a set of data objects into clusters
将一个对象集合分组成为由类似的对象组成的多个类别的过程被称为聚类。
Cluster: 物以类聚,人以群分(客观的共性)
Similar to one another within the same cluster
Dissimilar to the objects in other clusters
2017年11月11日
7 /76
Class VS Cluster
分类(Class):要求有训练数据集,是有监督的;目标数据集中存在的类别是已知的,要做的是将每一记录分别属于哪一类标记出来。(示例式学习)
聚类(Cluster):不需要训练数据集,是无监督的;在预先不知道目标数据集中到底有多少类的情况下,希望将所有的记录分成不同的类别。(观察式学习)
2017年11月11日
8 /76
Typical Application
Clustering is unsupervised classification: no predefined classes 无监督分类
Typical applications
As a stand-alone tool to get insight into data distribution
As a preprocessing step for other algorithms
. 先聚类,然后不同类别时用不同的噪声平滑;
先聚类,找出孤立点数据,剔除噪声
2017年11月11日
9 /76
General Applications of Clustering
Pattern Recognition 模式识别(或区别)
对生物基因进行聚类,获得对种群中固有结构的认识。
Spatial Data Analysis 空间数据分析
create thematic maps in GIS by clustering feature spaces
detect spatial clusters and explain them in spatial data mining
Image Processing 图像处理
Economic Science (especially market research) 市场分析
对顾客聚类,不同的的消费群体不同的服务策略;
对购买特征进行聚类,知道某类顾客的购物特征,从而用不同的销售策略投其所好。
2017年11月11日
10 /76
Examples of Clustering Applications应用实例
Marketing: Help marketers discover distinct groups in their customer bases, and then use this knowledge to develop targeted marketing programs 客户类型与服务
Land use: Identification of areas of similar land use in an earth observation database 地理区域
Insurance: Identifying groups of motor insurance policy holders with a high average claim cost 保险
City-planning: Identifying groups of houses according to their house type, value, and geographical location 城市规划
Earth-quake studie
10聚类分析 来自淘豆网m.daumloan.com转载请标明出处.