大数据时代统计学面临的机遇与挑战
大数据给统计学带来了机遇、挑战和紧迫感。描述大 数据的环境,利用大数据的目的和大数据带来的变革;介绍 国内外有关大数据的研究动向;探讨大数据包含的信息,大 数据的预处理、抽样和分析方法。
大数据抽样数据大数据时代统计学面临的机遇与挑战
大数据给统计学带来了机遇、挑战和紧迫感。描述大 数据的环境,利用大数据的目的和大数据带来的变革;介绍 国内外有关大数据的研究动向;探讨大数据包含的信息,大 数据的预处理、抽样和分析方法。
大数据抽样数据分析
一、大数据及其目的
狭义地讲,大数据是一个大样本和高维变量的数据集合 针对样本大的问题,统计学可以采用抽样减少样本量,达到 需要的精度。关于维数高的问题,需要变量选择、降维、压 缩、分解。但认知高维小样本存在本质的困难。广义地讲, 大数据涵盖多学科领域、多源、混合的数据,自然科学、人 文社会、经济学、通讯、网络、商业和娱乐等各领域的数据 集相互重叠连成了一片数据的海洋。各学科之间数据融合和 贯通,学科的边界己重叠和模糊。大数据涉及各种数据类型, 包括文本与语言、录像与图像、时空、网络与图形。
二、大数据的信息和问题
大数据是多源异质的、覆盖不同范围的数据。为了融合 各种数据,需要对数据来源、数据的获取方式和数据描述进 行形式化,以支撑数据分析。大数据来自多种渠道,存在抽
样偏倚、随机的和非随机的误差、无意的和有意的错误。数 据收集的准则与数据分析和决策的准则不相符合,有些数据 不是原始数据,而是推断的结果,数据的循环使用导致偏差 和噪音被放大。数据量大不一定有用的信息多,大量的含偏 差数据甚至会破坏信息。应意识到分析大数据也许会得到虚 假知识,而自己却不知情。在大数据环境下,收集数据的人 也许不清楚未来使用数据的人要做什么;使用数据建模的人 也许不清楚数据是如何得到的;使用模型的人也许不知道模 型是从什么数据得出来的。因此,难免人们会根据自己的意 图过分地解释模型,超出了原始数据所包含的信息范围。
获取的数据也可能存在选择偏倚,如医院就诊的病人和 使用互联网的人不能代表研究总体。大数据难免存在不响应 和缺失数据,有些数据是随机缺失的、非随机缺失的,因为 敏感问题或隐私问题而缺失的。不同研究收集不同的、有重 叠变量的数据集。数据本身含有的信息是有边界的,决定了 数据分析解释的范围。模型只是数据信息的精练,不能向外 延展数据的信息。
三、大数据的处理、抽样与分析
(一)数据的预处理 大数据的预处理包括数据清洗、不完全数据填补、数据 纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据 源。统计机构的数据是经过严格抽样设计获取的,具有总体 的代表性和系统误差小的优势,但是数据获取和更新的周期 长,尽管调查项目有代表性,但难以无所不包。而互联网数 据的获取速度快、量大、项目繁细,但是难以避免数据获取 的偏倚性。将统计机构的数据作为金标准和框架对互联网数 据进行矫正,将互联网数据作为补充资源对统计机构的数据 进行实时更新,也许是解决问题的一个思路。研究利用多源 数据的重叠关系整合多数据库资源的方法,多种专题
(panels) 的数据可以相互联合,实现单一专题数据不能完成的目标。
(二) 大数据环境的抽样 大数据的抽样方法有待研究,“样本”不必使用所有“数
据”
大数据时代统计学面临的机遇与挑战 来自淘豆网m.daumloan.com转载请标明出处.