下载此文档

大数据框架整理.docx

文档分类：IT计算机 | 页数：约11页举报非法文档有奖

1/11

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/11 下载此文档

文档列表 文档介绍

大数据框架整理
　　大数据离线部分
　　一、HDFS
　　1：HDFS的架构部分及工作原理
　　NameNode：负责管理元素据，将信息保存在内存中
　　DataNode：保存数据，以块的形式保存。启动后需要定时的向NameNode发送心跳，报告自身存储的块信息
　　2：HDFS的上传过程
　　3：HDFS的下载
　　4：NameNode的元数据安全机制
　　以记日志的形式将每一个操作写在磁盘的日志文件中，然后借助Secondary NameNode的checkpoint功能将fsImage和日志进行合并。
　　重点：记住checkpoint工作过程
　　5：如果服务器的磁盘坏了，如何挽救数据？
　　路径为本地磁盘路径和nfs网络磁盘路径。
　　6：hdfs集群中，受到拓展瓶颈的是NameNode还是Datanode?
　　是NameNode，因为DataNode不够可以很方便的水平拓展，而工作的NameNode只有一个，他的存储能力完全取决于他的内存，所以。。。。，
　　但是其实NameNode一般不会成为瓶颈，因为一个块记录的元数据信息大小约为150B，如果每一个块大小为128M的话，那么15G的NameNode内存可以存储12PB的数据。
　　7：datanode明明已启动，但是集群中的可用datanode列表中就是没有，怎么办？
　　已经不是处女，在她的Data目录下，已经有其他NameNode的标记，这个NameNode不认。
　　8：文件下载到window中，为什么会报错？
　　默认使用操作系统的内核进行磁盘数据的写入，也就是需要一个winutil的工具，而默认的安装包中不提供，所以需要编译源码或者设置为使用Java的进行磁盘写入。
　　9：hadoop的HA（高可用）
　　二、MapReduce
　　1：MapReduce中， -> map -> shuffle -> reduce的过程
　　2：MapReduce中，job提交的过程
　　3：自定义Javabean作为数据，需要extends writableandCompareble接口。
　　4：自定义outputformat，进行不同方向的处理。
　　5：MapReduce的一些应用场景
　　1、排序并且求 TOPOne 和TOPN
　　2、求某个用户前几个月的总流量，并且选择出流量前几名的用户。
　　3、reduce端的join
　　4、map端join
　　5、求共同好友问题
　　三、hive
　　1：什么是hive？
　　一个将sql转化为MapReduce程序的、单机版的、数据仓库工具。通过关系型数据库（mysql等）来记录表元数据信息。真正的数据在HDFS中。
　　Hive利用HDFS存储数据，利用MapReduce查询分析数据
　　，都是基于Spark处理了。
　　安装的时候，需要注意jline的版本冲突。
　　2：如何启动？
　　3：执行的sql的形式
　　hiveshell、 hive -e "sql命令"、 hive -f "一个包含着很多SQL语句的文件"
　　4：hive的创建表操作
　　内部表、外部表就差连个关键字（external 和 location）
　　分区表、分桶表
　　5：hive查询表
　　join
　　动态分区
　　分组查询
　　复杂的那个累计报表操作。
　　6：hive自定义函数（UDF）
　　四、sqoop
　　利用hadoop的map端进行数据的并行导入导出。
　　安装在HDFS上，配置HDFS的路径和Hive路径即可。
　　五、flume
　　1：agent：sources 、 channel 、 sinks
　　2：sources：exec、spooldir、arvo （加一个拦截器）3：channel：men 、 disk4：sinks：arvo 、HDFS、kafka
　　5：flume安装在数据源这一边。
　　6：如何自定义拦截器？class myiterceptor implements Iterceptor
　　//里面有一个静态的公共内部类。
　　public static class mybuilder implements
　　7：如何实现flume的多级连接，以及如何实现高可用？
　　大数据实时storm部分
　　storm
　　1:storm是一个实时的计算框架，只负责计算，不负责存储。它通过spout的open和nextTuple方法

大数据框架整理来自淘豆网m.daumloan.com转载请标明出处.