大数据课堂测验93832简述大数据的来源与数据类型大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。2、大数据产生的三个阶段(1)被动式生成数据(2)主动式生成数据感知式生成数据3、、大数据的特征4V1OVolume,Variety,Value,Velocity,On-Line5、适合大数据的四层堆栈式技术架构6、大数据的整体技术和关键技术大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。7、新一代数据体系的分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。8、EDC系统的定义临床试验电子数据采集(ElectricDataCapture,EDC)系统,在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心(Sites)直接远程收集临床试验数据的一种数据采集系统。9、EDC系统的基本功能数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。10、EDC系统的优点(1)提高了临床研究的效率,缩短了临床研究周期(2)通过逻辑检查提高了数据质量(3)对研究质量的监测更加方便11、大数据采集的数据来源大数据的三大主要来源为商业数据、互联网数据与传感器数据。12、网络数据采集和处理的四个主要模块网络爬虫(Spider)、数据处理(DataProcess)、URL队列(URLQueue)和数据(Data)。13、大数据集成在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。14、数据集成时应解决的问题数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。15、网络数据处理的四个模块及主要功能分词(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和数据,如图2-17所示。这四个模块的主要功能如下。1)分词:对抓取到的网页内容进行切词处理。2)排重:对众多的网页内容进行排重。3)整合:对不同来源的数据内容进行格式上的整合。4)数据:包含两方面的数据,SpiderData和DpData。16、大数据建模概念大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。17、大数据分析模式分类根据实时性,可分为在线分析和离线分析根据数据规模,可分为内存级、BI级和海量级根据算法复杂度的分类18、大数据建模流程定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。19、大数据建模应遵循的规律以业务目标作为实现目标业务知识是每一步的核心做好数据预处理试验对寻找解决方案是必要的数
大数据课堂测验 来自淘豆网m.daumloan.com转载请标明出处.