DC共享平台——数据分析岗笔试面试题本材料是由DataCastle从谷歌、微软、facebook、百度等企业的网络公开招聘题中进行精选,并附上详细解析,适合应聘数据分析岗位的求职者,未经同意不得转载,请联系zhengchengzhuang@提前沟通,未经授权的转载会联系法务进行处理。,K-NN最近邻方法在():B解析:样本呈团状颇有迷惑性,这里应该指的是整个样本都是呈团状分布,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。,10个红球和17个白球。每次可以从中取两个球出来,放置在外面。那么至少取________次以后,一定出现过取出一对颜色一样的球。:A解析:考虑最坏的情况,前10次取出的都是红球+白球的组合,后5次取出的都是黑球+白球的组合,最后只剩下两个白球,则再取1次必取出相同颜色的球,因此总计16次。(由小到大),元素比较次数最少的是(),32,40,90,80,46,21,,40,21,46,69,94,90,,32,46,40,80,69,90,,69,80,46,21,32,94,40答案:C解析:插入排序的原理是将第i个数插入到已经排列好的数据中,因此原序列越有序,,召回率,F1值的描述,错误的是?,,、召回率和F值取值都在0和1之间,数值越接近0,,引入了F1分数答案:C解析:对于二类分类问题常用的评价指标是精准度(precision)与召回率(recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:TP——将正类预测为正类数FN——将正类预测为负类数FP——将负类预测为正类数TN——将负类预测为负类数由此:精准率定义为:P=TP/(TP+FP)召回率定义为:R=TP/(TP+FN)F1值定义为:F1=2PR/(P+R)精准率和召回率和F1取值都在0和1之间,精准率和召回率高,F1值也会高,不存在数值越接近0越高的说法,应该是数值越接近1越高。,特征变量是X,类别标签是C,它的一个假定是:()(C),(X|C)是高斯分布答案:C解析:::B解析:SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数7.(多选)数据清理中,处理缺失值的方法是?:A,B,C,D解析:数据清理中,处理缺失值的方法有两种:删除法:1)删除观察样本2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差查补法:均值插补、回归插补、,如果同时加入L1和L2范数,会产生什么效果(),:A解析:L1范数具有系数解的特性,但是要注意的是,L1没有选到的特征不代表不重要,原因是两个高相关性的特征可能只保留一个。需要通过交叉验证,确定哪个特征重要。为什么L1,L2范数可以防止过拟合呢?在代价函数后面加上正则项,L1即是Lasso回归,L2是岭回归但是它为什么能防止过拟合呢?奥卡姆剃刀原理:能很好的拟合数据且模型简单模型参数在更新时,正则项可使参数的绝对值趋于0,使得部分参数为0,降低了模型的复杂度(模型的复杂度由参数决定
数据分析面试题1 来自淘豆网m.daumloan.com转载请标明出处.