论大数据的数据来源与采集
【摘要】大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,-1个百分点。如何保证数据采集的有效性,正确合理的大数据采集与治理给予其重要支撑.
【关键词】大数据的来源 大数据的采集手段 数据质量
大数据的来源多样,如商业数据、互联网数据、,产生速度越来越快的大数据,且使得这些来自各个途径的的大数据协同起来,达到有效利用,、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程. 在维克托·迈尔舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
大数据的来源与采集方式.
首先,来源多样是大数据的一个重要且普遍的特征,,由于计算机对数据描述的特殊性,获取数据的过程就是计算机中0-。即对现实世界的测量、人类的记录和计算机生成。、传感器数据、科研数据、社会安全监控网络数据、,且规模大,更新快,,所以数据模式清晰,数据语义明确。虽然规模通常不大,且增长速度较慢,但数据价值密度大
.必须指出的是,其中的微博、微信等为代表的人类用户在使用信息系统过程中的记录行为数据,由于缺少数据管理人员的维护及先天的数据缺陷,因此数据质量不高,,这类数据的模式固定、规模可控,且数据质量高.
数据的采集
数据采集(DAQ),总的来说就是从真实世界中获得原始数据的过程,即从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析、处理。 由于网络带宽、传感器节点能量、网站TOKEN等资源的限制,我们需要设计出高效的数据采集技术从而在有限的资源内实现其价值最大化。且由于资源的限制,数据采集不可能获得采集对象的全部信息,使得我们也必须要设计出准确的数据采集技术,,我们可以把数据采集分为两大类:基于拉(Pull-based)的方法和基于推(Push-base)的方法。即数据由集中式或分布式的代理机主动获取和数据由源或者第三方推向数据汇聚点.
数据采集的方法主要有以
论大数据的数据来源与采集 来自淘豆网m.daumloan.com转载请标明出处.