第8章谷歌文件系统(GFS) Google 思路? Google 是伸缩性的王者。 Google 一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。?不要小看那些便宜、不牢靠的 PC 级服务器,一台服务器也许确实不牢靠,但是 45 万台的有机集成却成为了全球最完善、最稳定的系统之一。? Google 需要: -跨数据中心的高可靠性-成千上万的网络节点的伸缩性-大读写带宽的需求-支持大块的数据,可能为上千兆字节-高效的跨节点操作分发来减少瓶颈 Google 数字?在 2006 年大约有 450,000 台廉价服务器,这个数量到 2010 年增加到了 1,000,000 台。?在 2005 年 Google 索引了 80 亿 Web 页面,现在没有人知道具体数目,近千亿并不断增长中。?目前在 Google 有超过 500 个 GFS 集群。一个集群可以有 1000 或者甚至 5000 台机器。成千上万的机器从运行着 5000000000000000 字节存储的 GFS 集群获取数据,集群总的读写吞吐量可以达到每秒 40 兆字节。?目前在 Google 有 6000 个 MapReduce 程序,而且每个月都写成百个新程序。? BigTable 伸缩存储几十亿的 URL ,几百千千兆的卫星图片和几亿用户的参数选择。 Google 服务器猜想?不论何时,不论何地,也不论你搜索多么冷门的词汇,只要你的电脑连接互联网,只要你轻轻点击“ google 搜索”,那么这一切相关内容 google 都会在 1秒钟之内全部搞定,这甚至比你查询“我的文档”都要快捷。?这也就是为什么 Google 创业 12 年,市值超过 2000 亿美元的原因。?有人可能认为 Google 拥有几台“蓝色基因”那样的超级计算机来处理各种数据和搜索,事实是怎样的呢? Google 服务器猜想?截止到 2010 年, Google 大约有 100 万台服务器,有超过 500 个计算机集群,处理不同地域的不同任务。?这 45 万台服务器都不是什么昂贵的服务器,而是非常普通的 PC 级别服务器,其中的服务器硬盘在两年前还普遍是 IDE 接口、并且采用 PC 级主板而非昂贵的服务器专用主板。 Google 的存储呢? ? Google 存储着海量的资讯,近千亿个网页、数百亿张图片。早在 2004 年, Google 的存储容量就已经达到了 5PB 。? Google 没有使用任何磁盘阵列,哪怕是低端的磁盘阵列也没用。 Google 的方法是将集群中的每一台 PC 级服务器,配备两个普通 IDE 硬盘来存储。?这样的一个以 PC 级别服务器搭建起来的系统, 怎么能承受巨大的工作负载呢?怎么能保证高可用性呢? ? Google 的云计算应用均依赖于四个基础组件?分布式文件存储, GFS ?并行数据处理模型 MapReduce ?分布式锁 Chubby ?结构化数据表 BigTable Google Google 云计算应用云计算应用 MapReduc MapReduc e e BigTable BigTable GFS GFS Chubb Chubb y y ?组件调用关系分析 Google Google 云计算应用云计算应用 BigTable BigTable GFS GFS MapReduce MapReduce Chubby Chubby ? Chubby 的作用?为 GFS 提供锁服务,选择 Master 节点;记录 Master 的相关描述信息?通过独占锁记录 Chunk Server 的活跃情况?为 BigTable 提供锁服务,记录子表元信息( 如子表文件信息、子表分配信息、子表服务器信息) ?(可能)记录 MapReduce 的任务信息?为第三方提供锁服务与文件存储
08-谷歌文件系统GFS选读 来自淘豆网m.daumloan.com转载请标明出处.