通用大数据存储与分析处理平台-Hadoop.docx


文档分类:IT计算机 | 页数:约314页 举报非法文档有奖
1/314
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/314
文档列表 文档介绍
通用大数据存储与分析处理平台-Hadoop通用大数据存储与分析处理平台总体建设方案(Hadoop)目录1 Hadoop 概述 Hadoop能做什么 特点 软件设计 Hadoop中的文件格式 机架感知 Hadoop知识学习篇 RPC Avro、Thrift Java接口 FileSystem总结 文件读取过程/文件写入过程 Hadoop均衡器 Hadoop存档 数据完整性 压缩 序列化【优点】 序列化框架 MapReduce过程中的序列化与反序列化 √HDFS数据结构 MapReduce框架 MapReduce工作机制 推测执行【优点】 重用JVM【优化】 IDS 输入格式 输出格式 计数器 √排序技术 √连接 DistributedCache √作业链接 √默认的MapReduce作业 集群规范 网络拓扑[优点] 环境设置 守护进程的关键属性 安全性 安全模式 fsck工具 日常维护 Hadoop知识总结篇 Hadoop通信协议总结 通过日志掌握Hadoop运行过程(HDFS/MAPREDUCE) MapReduce配置调优 MapReduce过程配置 应用程序运行JOB Hadoop源码篇 22 Accumulo 43 海量数据查询支撑分系统 Dremel 概述 软件设计 一句话总结 Drill 概述 Tez Impala*** Tajo*** 序列化框架与RPC Avro Protocol Thrift 缓存 154 算法研究***** BloomFilter 集合表示和元素查询 错误率估计 最优的哈希函数个数 位数组的大小 总结 BitMap(BitSet) BitMap的基本思想 Map映射表 位移转换 扩展 Bit-Map的应用 Bit-Map的具体实现 哈希算法 二叉树 堆与堆排序 双层桶划分 trie树 外排序 565 海量数据处理思路 Bloomfilter Hashing bit-map 堆 双层桶划分 数据库索引 倒排索引(Invertedindex) 外排序 trie树 866 经典博文 88从Hadoop框架与MapReduce模式中谈海量数据处理 前言 第一部分、mapreduce模式与hadoop框架深入浅出 架构扼要 Mapreduce模式 Hadoop框架 Hadoop的组成部分 第二部分、淘宝海量数据产品技术架构解读—学习海量数据处理经验 淘宝海量数据产品技术架构 92mapreduce的二次排序SecondarySort 95Hadoop概述Hadoop能做什么1、搜索引擎(DougCutting 设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。2、大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。3、大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。4、科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。大数据存储海量数据批量处理:排序、连接ETL(去重、转化)数据挖掘日志处理用户细分

通用大数据存储与分析处理平台-Hadoop 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数314
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yzhqw888
  • 文件大小14.19 MB
  • 时间2019-08-24
最近更新