下载此文档

数据解析总结岗位笔试题目总结.doc


文档分类:通信/电子 | 页数:约26页 举报非法文档有奖
1/26
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/26 下载此文档
文档列表 文档介绍
数据分析岗位笔试题目总结
阿里巴巴
1、异常是指什么?列1种型量异常的方法?
异常(Outlier)是指本中的个,其数明偏离所属本的其余。在数理里一般是指一中与平均的偏差超两倍准差的定.
常的异常方法如下:
基于的方法也有诸多弊端,第一,容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。
5..Apriori算法和信息熵
信息熵是数学中一个抽象的概念,他表示了信息源的不确定度,
这里不妨把信息熵理解成某种特定信息的出现概率,当一种信息出现
概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更
数据分析岗位笔试题目总结
高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。
支持度:Support(A->B)=P(AUB)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。
置信度(Confidence)的公式式:Confidence(A->B)=P(A|B)。
置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置
信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说
明A的出现与B是否出现关系不大。
H(x)=E[I(xi)]=E[log(2,1/p(xi))]=-∑p(xi)log(2,p(xi))
(i=1,2,..n),单位是bit.
其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大.
数据分析岗位笔试题目总结以频繁项集{I1,I2,I3}为例产生强xx规则,最小置信度为40%
(1)频繁项集{I1,I2,I3}的非空子集有{I1,I2},{I1,I3},{I2,
I3},{I1},{I2},{I3}
数据分析岗位笔试题目总结产生强xx规则
{I1,I2}=>I3
confidence=support({I1,I2,I3})/support({I1,I2})=2/4=
{I1,I3}=>I2confidence=support(I1,I2,I3)
/support(I1,I3)=2/4=
{I2,I3}=>I1confidence=support(I1,I2,I3)
/support(I2,I3)=2/4=
I1=>{I2,I3}confidence=support(I1,I2,I3)
/support(I1)=2/6=
I2=>{I1,I3}confidence=support(I1,I2,I3)
/support(I2)=2/7=
I3=>{I1,I2}confidence=support(I1,I2,I3)
/support(I3)=2/6=
则强xx规则为:{I1,I2}=>I3;{I1,I3};{I2,I3}=>I1
3、根据要求写出SQL(没有学习过,之后的学习中需要补)
表A结构如下:
Member_ID(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(只有一天的数据))
数据分析岗位笔试题目总结URL(访问的页面地址,字符型)
要求:提取出每个用户访问的第一个URL(按时间最早),形成一
个新表(新表名为B,表结构和表A一致)
参考答案:
createtableBasselectMember_ID,min(Log_time),URLfromAgroupbyMember_ID;5、用户调研
某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
试验需要为决策提供什么样的信息?
按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
根据三类客户的数量,采用分层比例抽样;
需要采集的数据指标项有:客户类别,改进计划前xx消费次数,改进计划后xx消费次数;
数据分析岗位笔试题目总结选用统计方法为:分别针对A、B、C三类客户,进行改进前和后
的周消费次数的,两独立样本T-检验
常见的抽样方法有哪些?常用的有以下六种类型:
简单抽样(Simplesampling)
即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如:按照“抽签法”、“

数据解析总结岗位笔试题目总结 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数26
  • 收藏数0 收藏
  • 顶次数0
  • 上传人秋天学习屋
  • 文件大小52 KB
  • 时间2022-07-10