该【数据挖掘概念与技术CHAPTER6-分类ClassAdva 】是由【fanluqian】上传分享,文档一共【59】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘概念与技术CHAPTER6-分类ClassAdva 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。1
Chapter 6. 分类: Advanced Methods
贝叶斯信念网络
后向传播分类 Classification by Backpropagation
支持向量机 Support Vector Machines
Classification by Using Frequent Patterns
Lazy Learners (or Learning from Your Neighbors)
其他分类方法
Additional Topics Regarding Classification
Summary
贝叶斯信念网络
2
Bayesian belief networks (又称为 Bayesian networks, probabilistic networks): 允许变量子集间定义类条件独立
(有向无环) 因果关系的图模型
表示变量间的依赖关系
给出了一个联合概率分布
Nodes: 随机变量
Links: 依赖关系
X,Y 是Z的双亲, Y is the parent of P
Z 和 P间没有依赖关系
没有环
3
贝叶斯信念网络: An Example
Family
History (FH)
LungCancer
(LC)
PositiveXRay
Smoker (S)
Emphysema
Dyspnea
LC
~LC
(FH, S)
(FH, ~S)
(~FH, S)
(~FH, ~S)
CPT: Conditional Probability Table for variable LungCancer:
显示父母的每个可能组合的条件概率
从CPT推倒 X的特定值得概率
训练贝叶斯网路:几种方案
4
Scenario 1:给定网络结构和所有变量观察:只计算CPT
Scenario 2: 网络结构已知, 某些变量隐藏: 梯度下降法(贪心爬山), ., 沿着准则函数的最速下降方向搜索解
权重初始化为随机值
每次迭代中,似乎是对目前的最佳解决方案前进,没有回溯
每次迭代中权重被更新,并且收敛到局部最优解
Scenario 3: 网络结构未知, 所有变量可知: 搜索模型空间构造网络拓扑
Scenario 4: 未知结构, 隐藏变量: 目前没有好的算法
D. Heckerman. A Tutorial on Learning with Bayesian Networks. In Learning in Graphical Models, M. Jordan, ed.. MIT Press, 1999.
5
Chapter 6. 分类: Advanced Methods
Bayesian Belief Networks
Classification by Backpropagation
Support Vector Machines
Classification by Using Frequent Patterns
Lazy Learners (or Learning from Your Neighbors)
Other Classification Methods
Additional Topics Regarding Classification
Summary
用反向传播分类
6
反向传播: 一种神经网络学习算法
最早是由心理学家和神经学家开创的,开发和测试神经元计算模拟
神经网络: 一组连接的输入/输出单元,其中每个连接都与一个权重关联
通过调整权重来学习, 能够输入元组的正确类别标号
又被称为连接者学习connectionist learning
3
2
1
4
5
神经网络作为分类器
7
弱点
学习时间很长
需要很多参数(常靠经验确定), 如网络的结构
可解释性差: 很难解释权重和网络中“隐藏单元”的含义
优势
对噪音数据的高承受能力
分类未经训练的模式的能力
非常适合处理连续值的输入/输出
成功地应用于现实数据, ., 手写字符识别
算法是固有并行的
已经发展了一些从训练好的神经网路提取规则的技术
多层前馈神经网络
8
输出层
输入层
隐藏层
Output vector
Input vector: X
wij
多层前馈神经网络
9
网络的输入对应于每个训练元组的测量属性
输入同时传给称作输入层的单元
加权后同时传递给隐藏层
隐藏层的数目是任意的, 通常只有一个
最后一个隐藏层的输出权重后作为输入传递给称为输出层,此处给出网络的预测
前馈feed-forward: 权重都不反馈到输入单元或前一层的输出单元
从统计学观点, 网络进行一个非线性回归;给定足够的隐藏单元和训练数据, 可以逼近任何函数
定义网络拓扑
10
一旦一个训练好的网络其准确率达不到要求时,用不同的网络拓扑和初始值重新训练网络
对于离散值,可重新编码,每个可能的值一个输入单元并初始化0
确定网络拓扑: 给定输入层的单元数, 隐藏层数(if > 1), 每个隐藏层的单元数, 输出层的单元数
规格化训练元组的输入值 [—]
输出, 如果涉及超过两个类别则一个输出单元对应一个类别
数据挖掘概念与技术CHAPTER6-分类ClassAdva 来自淘豆网m.daumloan.com转载请标明出处.