史上最全的“大数据”学习资源(上)
本文章来自于阿里云云栖社区
摘要: 当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据,
当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。
为了帮助大家更好深入了解大数据,云栖社区组织翻译了GitHub Awesome Big Data资源,供大家参考。本资源类型主要包括:大数据框架、论文等实用资源集合。
在本次分享中,虎嗅网联合创始人韩祖利将为大家分享虎嗅网云上架构实践经验,包括如何打造高效图片系统、如何做好主动式缓存管理,以及使用云服务的经验。同时,也会从一个老司机的角度分享如何做好系统架构设计。
资源列表:
关系数据库管理系统(RDBMS)
框架
分布式编程
分布式文件系统
文件数据模型
Key -Map 数据模型
键-值数据模型
图形数据模型
NewSQL数据库
列式数据库
时间序列数据库
类SQL处理
数据摄取
服务编程
调度
机器学习
基准测试
安全性
系统部署
应用程序
搜索引擎与框架
MySQL的分支和演化
PostgreSQL的分支和演化
Memcached的分支和演化
嵌入式数据库
商业智能
数据可视化
物联网和传感器
文章
论文
视频
关系数据库管理系统(RDBMS)
MySQL:世界最流行的开源数据库;
PostgreSQL:世界最先进的开源数据库;
Oracle 数据库:对象-关系型数据库管理系统。
框架
Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统);
Tigon:高吞吐量实时流处理框架。
分布式编程
AddThis Hydra :最初在AddThis上开发的分布式数据处理和存储系统;
AMPLab SIMR:用在Hadoop MapReduce v1上运行Spark;
Apache Beam:为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言;
Apache Crunch:一个简单的Java API,用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务;
Apache DataFu:由LinkedIn开发的针对Hadoop and 和Pig的用户定义的函数集合;
Apache Flink:具有高性能的执行时间和自动程序优化;
Apache Gora:内存中的数据模型和持久性框架;
Apache Hama:BSP(整体同步并行)计算框架;
Apache MapReduce :在集群上使用并行、分布式算法处理大数据集的编程模型;
Apache Pig :Hadoop中,用于处理数据分析程序的高级查询语言;
Apache REEF :用来简化和统一低层大数据系统的保留性评估执行框架;
Apache S4 :S4中流处理与实现的框架;
Apache Spark :内存集群计算框架;
Apache Spark Streaming :流处理框架,同时是Spark的一部分;
Apache Storm :Twitter流处理框架,也可用于YARN;
Apache Samza :基于Kafka和YARN的流处理框架;
Apache Tez :基于YARN,用于执行任务中的复杂DAG(有向无环图);
Apache Twill :基于YARN的抽象概念,用于减少开发分布式应用程序的复杂度;
Cascalog:数据处理和查询库;
Cheetah :在MapReduce之上的高性能、自定义数据仓库;
Concurrent Cascading :在Hadoop上的数据管理/分析框架;
Damballa Parkour :用于Clojure的MapReduce
史上最全的“大数据”学习资源(上) 来自淘豆网m.daumloan.com转载请标明出处.