MapReduce技术在日志分析中的研究应用
摘要: Hadoop技术的核心框架MapReduce非常适用于日志分析系统,并具有良好的易用性和可扩展性。文章将MapReduce的日志处理技术应用于某项目平台的日志数据分析中,以实验结果证明了MapReduce能较好地解决Web日志处理单机所面临的效率低下问题,能更好地整合计算机资源。
中国论文网/8/view-
关键词: Hadoop; MapReduce; Web日志; 日志分析
中图分类号: 文献标志码:A 文章编号:1006-8228(2017)06-26-03
Research and application of MapReduce in log analysis
Lin Yong, Wu Chong, Yan Meng, Peng Minjia
(Zhejiang Topcheer Information Technology Co.,Ltd., Hangzhou, Zhejiang 310006, China)
Abstract: Hadoop MapReduce is very applicable to log analysis system, and has good usability and scalability. In this paper, the MapReduce log processing technology is applied to the log data analysis of a project platform, and the experimental results show that MapReduce can solve the low efficiency problem of processing Web log with single machine, better puter resources.
Key words: Hadoop; MapReduce; Web log; log analysis
0 引言
Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,哪些网页需要优化等相关信息。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。当数据量每天以10G、100G增长的时候,单机处理能力已经不能满足需求。我们就需要增加系统的复杂性,用计算机集群,存储阵列来解决。在Hadoop出现之前,海量数据存储,和海量日志分析都是非常困难的。只有少数公司掌握着高效的并行计算、分步式计算、分步式存储的核心技术。Hadoop的出现,大幅度地降低了海量数据处理的门槛,让小公司甚至是个人都有能力搞定海量数据,Hadoop非常适用于日志分析系统[1]。
1 Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed Fil
MapReduce技术在日志分析中的研究应用 来自淘豆网m.daumloan.com转载请标明出处.