第七章数据挖掘算法——分类
分类
分类的概念
基于距离的分类方法
Bayesian Classification
Classification by Back Propagation
Support Vector Machines
Associative Classification: Classification by association rule analysis
Lazy Learners (or Learning from your Neighbors)
Other Classification Methods
Prediction
Accuracy
Summary
分类的基本概念
分类是指将数据映射到预先定义好的群组或类。
在分析测试数据之前,类别就已经被确定了,所以分类统称被称作有指导的学习。
分类算法要求基于数据属性来定义类别。分类算法通常通过观察已知所属类别的数据的特征来描述类别。
分类的基本概念
分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。
为了识别乘客是否是潜在的恐怖分子或罪犯,机场安全摄像站需要对乘客的脸部进行扫描并辨识脸部的基本模式(例如双眼间距、嘴的大小及形状、头的形状),然后将得到的模式与数据库中的已知恐怖分子或罪犯的模式进行逐个比较,看看是否与其中的某一模式相匹配。
分类步骤
,描述预定的数据类集或概念集
数据元组也称作样本、实例或对象。
为建立模型而被分析的数据元组形成训练数据集。
训练数据集中的单个元组称作训练样本,假定每个元组属于一个预定义的类,由一个称作类标号(classlabel)的属性确定。由于提供了每个训练样本的类标号,因此也称作有指导的学习。
通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。
分类步骤
2. 使用模型进行分类
首先评估模型(分类法)的预测准确率。
将已知的类标号与该样本的学习模型类预测比较
准确率等于测试集的样本中被模型正确分类的百分比
测试集应该与训练集的内容相互独立,否则会出现过分适应的情况
如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。
(1) 模型的构建
Training
Data
Classification
Algorithms
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
Classifier
(Model)
NAME
RANK
YEARS
TENURED
Mike
Assistant Prof
3
no
Mary
Assistant Prof
7
yes
Bill
Professor
2
yes
Jim
Associate Prof
7
yes
Dave
Assistant Prof
6
no
Anne
Associate Prof
3
no
(2) 利用模型分类
Classifier
Testing
Data
Unseen Data
(Jeff, Professor, 4)
Tenured?
有指导 vs. 无指导的学习
有指导的学习(分类)
指导: 训练数据是已经被标注好类标号的数据,用来进行有指导的分类。
新数据是基于训练集进行分类的。
无指导的学习(聚类)
训练数据的类标号不可知
是观察式学习
基于距离的方法
基于决策树的方法
基于神经网络的方法
基于规则的方法
常用分类方法
软件销售培训 来自淘豆网m.daumloan.com转载请标明出处.