百度大数据引擎
3
目录
一、百度技术概览
二、百度大数据实践
三、百度大数据引擎
四、大数据引擎助力产业升级
3
全球最大的中文搜索引擎,最大的中文网站
百度每天响应来自 138个均每个中国网民每天使用 10次百度。
百度的大数据特征
5
容量
Volume
•
•
•
•
数据总量EB级
每日新增800TB
网页量>5000亿
单集群数万台服务器
时效性
Velocity
•毫秒-秒级响应时间
•
多样性
Variety
•内容:网页、广告、
日志、UGC
•类型:文本、图片、
视频
•形式:结构化、半结
构化、非结构化
突破关键技术,构建完整、自主创新的大数据架构
大数据挖掘、分析、可视化
数据仓库
深度学习
知识图谱
舆情监测
行业报告
搜索指数
趋势预测
“百度大脑”
世界一流、超大规模
百度研究院
大规模软件基础设施
云计算中心调度千PB海量数据处理自动化智能运维
数据中心与服务器
亚洲一流数据中心
自主设计建设
......
数十万台自研服务器
6
基础设施自主设计
ARM服务器
•全球首个
ARM架构服
务器规模化
应用
•存储密度提
升70%
GPU 服务器
•单GPU 计算
能力可比百
片CPU
• GPU 实现深
度神经网络
并行训练
•训练时间从
数月缩短到
一周
自研万兆交换机
•业内最大规
模部署自研
万兆交换机
•接入成本下
降83%
整机柜服务器
•国内首次规
模部署
•高效部署,
提高交付效
率10倍
百度IDC
•三大自建数
据中心
•软硬件一体
化设计
•全年约一半
时间完全免
费冷却
•国内大型数
据中心PUE
第一的最佳
成绩:年均
PUE ,
最佳PUE
7
自研大规模软件基础设施
台服务器
+CPU核
超强计算能力
志愿计算
高效利用空闲计算
资源
最小运维成
本
服务实现动态伸缩
屏蔽底层硬件额外提供10000台
服务器计算能力
故障处理全自动化
服务零宕机时间
提供80万 2W T 内存的
支持在线离
线业务混布
完善的资源隔离
方案
最大化资源利用
接入10W+
集群操作系统
大规模分布式计算
大规模机器学
样本/特征达千亿
支持30+机器学习
算法
实时流式计算
平台
延迟毫秒-秒级
吞吐10GB/s
高吞吐离线计
算平台
单集群规模数万台
自主研发技术提升
MR性能50%
统一资源池管理
8
人工智能及深度学习技术
• 2014年成立百度研究院
•硅谷人工智能实验室
•北京深度学习实验室(原深度学习研究院)
•北京大数据实验室
•深度学习、大规模机器学习、统计建模
•计算机视觉、自然语言处理
•智能交互、无人车
•带动AI和大数据领域发展
人工智能世界级专家
百度首席科学家
吴恩达
目录
一、百度技术概览
二、百度大数据实践
三、百度大数据引擎
四、大数据引擎助力产业升级
10
百度陈尚义-百度大数据引擎 来自淘豆网m.daumloan.com转载请标明出处.