下载此文档

第六章__聚类分析.pdf


文档分类:高等教育 | 页数:约44页 举报非法文档有奖
1/44
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/44 下载此文档
文档列表 文档介绍
数据挖掘第六章聚类分析

聚类(
)是一个将数据集划分为若干组( )或类()的
过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象
是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。通常就
是利用(各对象间)距离来进行表示的。许多领域,包括数据挖掘、统计学和机
器学习都有聚类研究和应用。
本章将要介绍对大量数据进行聚类分析的有关方法;同时也还将介绍如何根
据数据对象的属性来计算各数据对象之间的距离(不同)。有关的聚类方法(类
型)主要有:划分类方法、分层类方法、基于密度类方法、基于网格类方法和基
于模型类方法。此外本章的最后将要介绍利用聚类方法进行异常数据(
)
检测的有关内容。
  
将一组()物理的或抽象的对象,根据它们之间的相似程度,分为若干
组(

);其中相似的对象构成一组,这一过程就称为聚类过程(
)。
一个聚类()就是由彼此相似的一组对象所构成的集合;不同聚类中对象
是不相似的。就是从给定的数据集中搜索数据项()之间所存在的有价值
联系。在许多应用,一个聚类中所有对象常常被当作一个对象来进行处理或分析
等操作。
聚类分析是人类活动中的一个重要内容。早在儿童时期,一个人就是通过不
断完善潜意识中的分类模式,来学会识别不同物体,如:狗和猫,或动物和植物
等。聚类分析已被应用到许多领域,其中包括:模式识别、数据分析、图像处理
和市场分析等。通过聚类,人可以辨认出空旷和拥挤的区域,进而发现整个的分
布模式,以及数据属性之间所存在有价值的相关关系。
聚类分析的典型应用主要包括,在商业方面,聚类分析可以帮助市场人员发
现顾客群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征
的顾客组群。在生物方面,聚类分析可以用来获取动物或植物所存在的层次结构
( 

),以及根据基因功能对其进行分类以获得对人群中所固有的结构更
深入的了解。聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况
的区域。此外还可以帮助分类识别互联网上的文档以便进行信息发现。作为数据
挖掘的一项功能,聚类分析还可以作为一个单独使用的工具,来帮助分析数据的
 
数据挖掘第六章聚类分析
分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。当然聚
类分析也可以作为其它算法(诸如:分类和定性归纳算法)的预处理步骤。
数据聚类分析是一个正在蓬勃发展的领域。聚类分析所涉及的领域包括:数
据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。由于各应用
数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃
的研究课题。
作为统计学的一个分支,聚类分析已有多年的研究历史,这些研究主要集中
在基于距离的聚类分析方面。许多统计软件包,诸如:-、 和,
都包含基于-均值、-中心等其它许多聚类分析工具。
在机器学习中,聚类分析属于一种无(教师)监督的学习方法。与分类学习
不同,无(教师)监督学习不依靠事先确定的数据类别,以及标有数据类别的学
习训练样本集合。正因为如此,聚类分析又是一种通过观察学习方法(  

 
),而不是示例学习(  
  )。在概念聚类方法中,仅当
一组对象可以由一个概念所描述时,这些对象方才能构成一个类。这与基于几何
距离表示相似程度并进行聚类的传统聚类方法有所不同。概念聚类方法主要包含
两部分内容:()发现适当的类;()根据每个类形成相应的特征描述,与在分
类学习中的方法类似。无论如何最大程度地实现类中对象相似度最大,类间对象
相似度最小是聚类分析的基本指导思想。
在数据挖掘中,大多数工作都集中在发现能够有效、高效地对大数据库进行
聚类分析的方法上。相关的研究课题包括:聚类方法的可扩展性、复杂形状和复
杂数据类型的聚类分析的有效高效性、高维聚类技术,以及混合数值属性与符号
属性数据库中的聚类分析方法等。
聚类分析是一个富有挑战的研究领域,有关每一个应用都提出了一个自己独
特的要求。以

第六章__聚类分析 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数44
  • 收藏数0 收藏
  • 顶次数0
  • 上传人管理资源吧
  • 文件大小0 KB
  • 时间2011-09-16