标准文档
数据挖掘期末复习资料
2009-02-2120:38:37|分类:念书笔记|标签:|字号大中小定阅
题型:填空(20空)、判断(20分)、简答(5个:预办理方法、决议树、朴实贝叶斯过程、
其他一体。HAVINGCOUNT(*)>=minsup为冰山条件
Motivation
:
v由于立方体单元在多维空间中的散布经常是稀疏的,因此大量的立方体空间可
能被大量拥有很低胸怀值得单元占有。
v仅需物化数据立方体单元的一小部分——那些知足阈值的单元
v减少计算数据立方体中不重要的齐集单元的负担。
五、数据库房和数据库有什么区别和联系?
1、数据库房中的数据时间期限要远远长于操作型系统中的数据时间期限
操作型系统含有“目前值”数据,时间期限一般是60-90天;数据库房从历史的角度提供信
息,其中的数据只是是一系列某一时刻生成的复杂的快照,时间期限往常是5-10年
2、数据库房中的键码结构
数据库房中的重点结构,隐式或显式地包含时间元素
操作型系统的键码结构可能不包括时间元素
3、反响时间变化的
4、数据库房是非易失的
数据库房老是物理地分别寄存数据
数据库房中不进行操作型环境中的数据更新
数据库房不需要事务办理、恢复和并发控制体制
数据库房往常只要要两种数据接见:数据的初始化妆入和数据接见
4、相对稳定的
数据预办理
一、数据预办理包括哪些过程——数据清理、数据集成、数据变换和数据规约
二、对于每种预办理过程都有哪些方法,办理的思想是怎么样的,比方针对缺失值有哪些方法?针对数据规范化有哪些方法?数据清理中怎样办理噪声数据等。
标准文档
数据清理:就是用其例程经过填写空缺的值,平滑噪声数据,辨别,删除孤立点,并解决不一致来清理数据。其基本方法为:
(1)空缺值
1)忽略元组,2)人工填写空缺值
3)使用一个全局常量填充空缺值,比方用一个常数
(Unknown)来替换所有空缺的值。
4)使用属性的平均值填充空缺值
5)使用与给定元组
属同类的所有样本的平均值
6
)使用最可能的值填充空缺值,
能够使用回归,或判断树
确定推理获得
(2)噪声数据:一个测量变量中的随机错误或偏差。能够用以下方法
1)分箱
包括按箱平均值平滑,即就是将属性值根据等深,
比如每箱3个进行分箱,然后
用这三个值的平均值代替箱中的值。近似有按箱均值平滑,按箱边界平滑;
Price的排序后数据(indollars):4,8,9,15,21,21,24,25,26,28,29,34
*
区分为等频箱:-
箱1:4,8,9,15-
箱2:21,21,24,25-
箱3:26,28,29,34
*
用箱均值圆滑:-
箱1:9,9,9,9
-箱2:23,23,23,23
-箱3:29,29,29,29
用箱边界圆滑:-Bin1:4,4,4,15-Bin2:21,21,25,25-Bin3:26,26,26,
34
2)回归,让数据适合一个
大数据挖掘期末复习资料 来自淘豆网m.daumloan.com转载请标明出处.