下载此文档

【百度刘洋】智能语音：从 DNN 到 LSTM.pdf

文档分类：通信/电子 | 页数：约17页举报非法文档有奖

1/17

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/17 下载此文档

文档列表 文档介绍

智能语⾳技术
刘洋
百度语⾳技术部
CONTENTS
·语⾳技术
1/语⾳识别
2/语⾳交互
3/语⾳合成
4/声纹验证
5/⾳频内容检索
·语⾳开放
1/开放能⼒
2/⾏业解决⽅案
3/开放未来
语⾳识别-语⾳识别精度不断提升
100%
v95%
vLSTM模型
90%
区分度模型
基于mel-bank的
85%
⼦带CNN模型
vDNN模型
80%
2012年1⽉
2013年1⽉
2014年1⽉
2015年1⽉
语⾳识别-LSTM声学模型
⽹络输出
⽹络输出
输出门
长短时记忆⽹络模型
LSTM,long-shorttermmemory
·算法优势
遗忘门
记忆单元
⼀
⼈脑选择性遗忘

输⼊门
⽹络输⼊
·技术创新
⽹络输⼊

传统模型单元
长短时记忆单元
语⾳识别-语⾳识别精度不断提升
卷积层
⼗层全连接层
LSTM层
描述说话⼈频谱偏移带来的变化
提取抽象⾼层信息
描述时间序列变化信息
错误率降低10%
语⾳识别-声学并⾏训练平台
近百台GPU机器,每台4块GPUK40卡,加速10倍,模型取平均与异步SGD结合,双层异步SGD。
busy
wait
serverIdList
busy
CheckIfGPUSvrIsWait
busy
树形拓扑结构取平均
星型拓扑结构异步SGD
语⾳识别-声学模型⾃适应
个体声⾳积累若⼲句话
·⽤户个⼈帐号云
1.⽤户历史⾏为及其特征
⽤户ID信息
个性化声2.⽤户个体声学模型
⾳模型
数据筛选
不存在个存在个性性化模型
化模型
业界⾸家
深度学习⾃适应技术
声学深个性化信
通⽤声学模型
个性化模型
度学习息挖掘
错误率下降10~15%
⾃适应
⽤的越多精度越⾼
通⽤语⾳搜索
个性语⾔搜索
语⾳识别-海量语⾔模型快速更新
百度历史百度时效所搜⽇志
所搜⽇志
·T级⽂本快速并⾏训练
·百G规模语⾔模型
并⾏语⾔模型训练平台
·模型融合兼顾覆盖度和实效性
历史模型
·语⾔模型更新频率
时效模型
1/历史模型每天滚动更新
2/时效模型⼩时级滚动更新
模型融合
最终模型
语⾳交互-车载语⾳交互
车载环境的问题
车载抗噪
·双⼿被占⽤<->handfree语⾳唤醒
·语⾳端点检测:车载噪⾳下起点终点的正确率均达到97%。
·车载噪⾳⼤<->车载抗噪
·抗噪识别:车载噪⾳下识别精度达到92%
·⽹络不稳定<->离在线⽅案
Handfree语⾳唤醒
离在线⽅案
·关窗95%,开窗90%,背景⾳乐92%
·⾏车中⽹络抖动时可以顺畅识别
语⾳交互-多轮语⾳交互
·智能语⾳检测,区分静⾳与语⾳
·动态定制语⾳识别器
·识别器引⼊拒识
·精准语义识别
·易于推⼴的技术框架

【百度刘洋】智能语音：从 DNN 到 LSTM 来自淘豆网m.daumloan.com转载请标明出处.