下载此文档

大数据时代统计学面临的机遇与挑战.docx


文档分类:论文 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
大数据时代统计学面临的机遇与挑战
大数据给统计学带来了机遇、挑战和紧迫感。描述大 数据的环境,利用大数据的目的和大数据带来的变革;介绍 国内外有关大数据的研究动向;探讨大数据包含的信息,大 数据的预处理、抽样和分析方法。
大数据抽样数据大数据时代统计学面临的机遇与挑战
大数据给统计学带来了机遇、挑战和紧迫感。描述大 数据的环境,利用大数据的目的和大数据带来的变革;介绍 国内外有关大数据的研究动向;探讨大数据包含的信息,大 数据的预处理、抽样和分析方法。
大数据抽样数据分析
一、大数据及其目的
狭义地讲,大数据是一个大样本和高维变量的数据集合 针对样本大的问题,统计学可以采用抽样减少样本量,达到 需要的精度。关于维数高的问题,需要变量选择、降维、压 缩、分解。但认知高维小样本存在本质的困难。广义地讲, 大数据涵盖多学科领域、多源、混合的数据,自然科学、人 文社会、经济学、通讯、网络、商业和娱乐等各领域的数据 集相互重叠连成了一片数据的海洋。各学科之间数据融合和 贯通,学科的边界己重叠和模糊。大数据涉及各种数据类型, 包括文本与语言、录像与图像、时空、网络与图形。
二、大数据的信息和问题
大数据是多源异质的、覆盖不同范围的数据。为了融合 各种数据,需要对数据来源、数据的获取方式和数据描述进 行形式化,以支撑数据分析。大数据来自多种渠道,存在抽
样偏倚、随机的和非随机的误差、无意的和有意的错误。数 据收集的准则与数据分析和决策的准则不相符合,有些数据 不是原始数据,而是推断的结果,数据的循环使用导致偏差 和噪音被放大。数据量大不一定有用的信息多,大量的含偏 差数据甚至会破坏信息。应意识到分析大数据也许会得到虚 假知识,而自己却不知情。在大数据环境下,收集数据的人 也许不清楚未来使用数据的人要做什么;使用数据建模的人 也许不清楚数据是如何得到的;使用模型的人也许不知道模 型是从什么数据得出来的。因此,难免人们会根据自己的意 图过分地解释模型,超出了原始数据所包含的信息范围。
获取的数据也可能存在选择偏倚,如医院就诊的病人和 使用互联网的人不能代表研究总体。大数据难免存在不响应 和缺失数据,有些数据是随机缺失的、非随机缺失的,因为 敏感问题或隐私问题而缺失的。不同研究收集不同的、有重 叠变量的数据集。数据本身含有的信息是有边界的,决定了 数据分析解释的范围。模型只是数据信息的精练,不能向外 延展数据的信息。
三、大数据的处理、抽样与分析
(一)数据的预处理 大数据的预处理包括数据清洗、不完全数据填补、数据 纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据 源。统计机构的数据是经过严格抽样设计获取的,具有总体 的代表性和系统误差小的优势,但是数据获取和更新的周期 长,尽管调查项目有代表性,但难以无所不包。而互联网数 据的获取速度快、量大、项目繁细,但是难以避免数据获取 的偏倚性。将统计机构的数据作为金标准和框架对互联网数 据进行矫正,将互联网数据作为补充资源对统计机构的数据 进行实时更新,也许是解决问题的一个思路。研究利用多源 数据的重叠关系整合多数据库资源的方法,多种专题
(panels) 的数据可以相互联合,实现单一专题数据不能完成的目标。
(二) 大数据环境的抽样 大数据的抽样方法有待研究,“样本”不必使用所有“数
据”

大数据时代统计学面临的机遇与挑战 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人niupai11
  • 文件大小11 KB
  • 时间2022-06-07