第一章
数据挖掘的概念及其特点
数据挖掘
概念:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
数据挖掘(从数据中发现知识)
特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)
数据挖掘的核心(KDD)是什么?
知识挖掘(KDD) 数据挖掘与知识发现
从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识
数据清理: (这个可能要占全过程60%的工作量)
数据集成
数据选择
数据变换
数据挖掘(选择适当的算法来找到感兴趣的模式)
模式评估
知识表示
数据挖掘的体制结构。
数据挖掘的主要方法(能够区分)常用模式
分类预测的说明:比如:按气候将国家分类,按汽油消耗定额将汽车分类
导出模型的表示: 判定树、分类规则、神经网络
可以用来预报某些未知的或丢失的数字值
聚类分析的说明:例:对WEB日志的数据进行聚类,以发现相同的用户访问模式
孤立点分析的说明
(应用)信用卡欺诈检测/移动电话欺诈检测/客户划分/医疗分析(异常)
第二章
数据仓库的概念(特点就在概念里)
数据仓库是一个(1)面向主题的、(2)集成的、(3)随时间而变化的、(4)不容易丢失的数据集合,支持管理部门的决策过程.
OLAP(联机分析处理)和OLTP(联机事务处理)的区别
1、用户和系统的面向性:面向顾客(事务) VS. 面向市场(分析)
2、数据内容:当前的、详细的数据(事务)VS. 历史的、汇总的数据(分析)
3、数据库设计:实体-联系模型(ER)和面向应用的数据库设计(事务) VS. 星型/雪花模型和面向主题的数据库设计(分析)
4、数据视图:当前的、企业内部的数据(事务)VS. 经过演化的、集成的数据(分析)
5、访问模式:事务操作(事务)VS. 只读查询(但很多是复杂的查询)(分析)
6、任务单位:简短的事务 VS. 复杂的查询
7、访问数据量:数十个 VS. 数百万个
8、用户数:数千个 VS. 数百个
9、数据库规模:100M-数GB VS. 100GB-数TB
10、设计优先性:高性能、高可用性 VS. 高灵活性、端点用户自治
11、度量:事务吞吐量 VS. 查询吞吐量、响应时间
多维数据模型
在多维数据模型中,数据以数据立方体(data cube)的形式存在
数据立方体允许以多维数据建模和观察。它由维和事实定义
维是关于一个组织想要记录的视角或观点。
每个维都有一个表与之相关联,称为维表。
多维数据模型围绕中心主题组织,该主题用事实表表示
事实表包括事实的名称或度量以及每个相关维表的关键字
事实指的是一些数字度量
一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。
几种常见的概念模型
星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。
雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。
事实星座(Fact constellations): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座(fact constellation)
一种数据挖掘查询语言DMQL
一种是立方体定义,一种是维定义
立方体定义(事实表)
define cube <cube_name> [<dimension_list>]: <measure_list>
维定义(维表)
define dimension <dimension_name> as (<attribute_or_subdimension_list>)
概念分层的概念
一个概念分层定义一个映射序列,将低层概念映射到更一般的高层概念
多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:
多维数据模型上的OLAP操作
上卷(roll-up):汇总数据
通过一个维的概念分层向上攀升或者通过维规约
当用维归约进行上卷时,一个或多个维由给定的数据立方体删除
下钻(drill-down)
数据挖掘知识点整理 来自淘豆网m.daumloan.com转载请标明出处.