大数据挖掘期末复习资料
大数据挖掘期末复习资料
1/8
大数据挖掘期末复习资料
标准文档
数据挖掘期末复习资料
2009-02-2120:38:37|分类:读书笔录|标签:|字号大中小定阅
题型:填山立方体的相关观点
仅计算知足最小支持度阈值的单元,这类部分物化的单元称为冰山立方体。HAVINGCOUNT(*)>=minsup为冰山条件
大数据挖掘期末复习资料
大数据挖掘期末复习资料
2/8
大数据挖掘期末复习资料
Motivation
:
大数据挖掘期末复习资料
大数据挖掘期末复习资料
8/8
大数据挖掘期末复习资料
v因为立方体单元在多维空间中的散布经常是稀罕的,所以大批的立方体空间可
能被大批拥有很低胸襟值得单元占有。
v仅需物化数据立方体单元的一小部分——那些知足阈值的单元
v减少计算数据立方体中不重要的齐聚单元的负担。
大数据挖掘期末复习资料
大数据挖掘期末复习资料
8/8
大数据挖掘期末复习资料
五、数据库房和数据库有什么差别和联系?
1、数据库房中的数据时间限期要远远擅长操作型系统中的数据时间限期
操作型系统含有“当前值”数据,时间限期一般是60-90天;数据库房从历史的角度供给信
息,此中的数据只是是一系列某一时辰生成的复杂的快照,时间限期平时是5-10年
2、数据库房中的键码构造
数据库房中的要点构造,隐式或显式地包含时间元素
操作型系统的键码构造可能不包含时间元素
3、反响时间变化的
4、数据库房是非易失的
数据库房总是物理地分别存放数据
数据库房中不进行操作型环境中的数据更新
数据库房不需要事务办理、恢复和并发控制体系
数据库房平时只需要两种数据接见:数据的初始化妆入和数据接见
4、相对牢固的
数据预办理
一、数据预办理包含哪些过程——数据清理、数据集成、数据变换和数据规约
二、关于每种预办理过程都有哪些方法,办理的思想是怎么样的,比目标对缺失值有哪些方法?针对数据规范化有哪些方法?数据清理中怎样办理噪声数据等。
大数据挖掘期末复习资料
大数据挖掘期末复习资料
8/8
大数据挖掘期末复习资料
标准文档
数据清理:就是用其例程经过填写空缺的值,圆滑噪声数据,鉴别,删除孤立点,并解决不一致来清理数据。其基本方法为:
(1)空缺值
1)忽略元组,2)人工填写空缺值
3)使用一个全局常量填补空缺值,比方用一个常数
(Unknown)来代替全部空缺的值。
4)使用属性的平均值填补空缺值
5)使用与给定元组
属同类的全部样本的平均值
6
)使用最可能的值填补空缺值,
可以使用回归,或判断树
确立推理获取
(2)噪声数据:一个丈量变量中的随机错误或误差。可以用以下方法
1)分箱
包含按箱平均值圆滑,即就是将属性值依据等深,
比方每箱3个进行分箱,尔后
用这三个值的平均值取代箱中的值。近似有按箱均值圆滑,按箱界线圆滑;
Price的排序后数据(indollars):4,8,9,15,21,21,2
大数据挖掘期末复习资料 来自淘豆网m.daumloan.com转载请标明出处.