下载此文档

数据分析岗位笔试题目总结.docx


文档分类:管理/人力资源 | 页数:约17页 举报非法文档有奖
1/17
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/17 下载此文档
文档列表 文档介绍
阿里巴巴
1、异常值是指什么?请列举1种识别连续型变量异常值的方法?
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观
测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测 定值.
常见的异常值检验方法如下:
基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于深度的方法
t检验:按照t分布的实际误差分布范围来判别异常值 ,首先剔除一个可疑值, 然后按t分布来检验剔除的值是否为异常值。
狄克逊检验法:假设一组数据有序x1vx2<…<xn,且服从正态分布,则异常值最 有可能出现在两端x1和xn。
表l狄克松检脸统计量计算公式为
数据个数M
统计量D
舟为可疑值D
叫为可疑值"
3< z? < 7
g - .v()
(耳一斗J / g —召)
8£/?^10
<xi -斗科)
11
(耳-叫”(©■】一%)
(兀一©7”(耳一耳)
(坷一工1”(耳7 —xj
(兀—心7”(兀—%}
格拉布斯检验法:与狄克逊检验法思想一样,其检验公式为:
若最小值热爰可疑的,则检验统计f 式由工是均值、丫是标准
即工一丄£旳汕=」亠£(%二y・
M 卜1 Vn-i(-1
指数分布检验:
设一组测景数据为指数分布,为了检验数据中是否存在异常值,将其按大 小顺序排列’即斗兰隔兰心兰…检验最小值或最犬值是否为异常值的检验方法 如下;
当样本量必100时,计算统计量几产儿,£舌及G产和乞兀
r=j 1=1
)和样本数量",通辻査表得到7;冋及亿⑴ 力别对应的临界值7;畑”一⑴和監⑴(/•若©町a?;「叩dm时,认为%为异常值; 皆©⑴《几訂@)时,认为斗为异常值
SPSS和R语言中通过绘制箱图可以找到异常值 ,分布在箱边框外部;
2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
聚类分析(cluster analysis) 是一组将研究对象分为相对同质的群组
(clusters) 的统计分析技术。聚类分析也叫分类分析(classification analysis)
或数值分类(nu merical taxo no my)。聚类与分类的不同在于,聚类所要求划分的 类是未知的。
聚类分析计算方法主要有: 层次 的方法(hierarchical method)、划分方法(partitioning
method)、基于 密度的方法(density-based method)、基于 网格的方法(grid-based method)、基 于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度 量。常见的聚类方法有:K-pototypes算法,K-Means算法,CLARANS算法(划分方法), BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN 算法(基于密度的方法), CLIQUE算法(综合了基于密度和基于网格的算法) ;
k-means算法的工作过程说明如下:首先从 n个数据对象任意选择k个对 象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相 似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再 计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程 直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数 .k个聚
类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
其流程如下:
从n个数据对象任意选择k个对象作为初始聚类中心;
根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的 距离;并根据最小距离重新对相应对象进行划分;
(3) 重新计算每个(有变化)聚类的均值(中心对象);
(4) 循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。
优点:本算法确定的K个划分到达平方误差最小。当聚类是密集的,且类 与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和 高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,K是聚类中心,t 是迭代的次数。
缺点:1. K是事先给定的,但非常难以选定; 类结果有较大的影响。
数据标准化技术
是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制, 将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 常用的方法有:
(1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以 该要素的数据的总和,即
Xj-

数据分析岗位笔试题目总结 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数17
  • 收藏数0 收藏
  • 顶次数0
  • 上传人suijiazhuang2
  • 文件大小111 KB
  • 时间2020-11-18
最近更新