基于区块链技术的语音识别
杨雪梅
摘要:由于具有去中心化、抗腐蚀以及加密算法等先进性质,区块链技术给科学技术领域带来了一场前所未有的变革。本文探索了将区块链技术中的去中心化的思想与深度学习相结合并的一致性协议和密码学算法,以其去中心化、抗腐蚀性以及加密算法的计算机制越来越受到各个领域的关注
[15-16]。例如,IBM区块链提供分布式的金融服务,将交易时间从几小时缩短到几秒[17],同时,由于它的分布式和抗腐蚀的计算能力,增强了金融安全性。区块链技术正在以革命性的方式改变着数据的处理和存储方式。
去中心化的深度学习模型
为了将区块链的分布式思想应用到语音识别中,首先必须提到分布式深度学习。分布式深度学习是一种基于数据隐私保护的机器学习方法,通常应用于金融服务领域。如图1所示,分布式深度学习体系结构由多个共享模型(贡献者)和一个中央控制代理(其任务是融合共享深度学习模型)组成。分布式深度学习过程不是在中心服务器中处理数据,而是由各个贡献者独立处理。在实现分布式学习时,各计算贡献者利用本地数据独立地训练自己的深度学习模型,然后将模型参数分享给中央控制代理。中央控制代理将每个贡献者共享的参数进行融合,形成一个综合模型。由于深度学习模型是在具有较小数据集的分布式单元中进行训练的,因此与中央服务器相比,单个计算贡献者所需的计算能力要低得多。然而,在这个解决方案中,深度学习体系结构完全由一个集中式代理控制。因此,融合模型易受单点失效的影响[18-21]。为了克服这一缺点,提出了一种协作分布式的深度学习体系结构。
协作分布式深度学习
如图2所示,协作分布式的深度学习构架由一个应用程序发起者、几个计算贡献者和验证贡献者组成。在这个构架中,每个单元都有自己的决策界面,可以独立做决策。应用程序发起者负责定义计算任务,例如输入数据的属性和预期的输出。它们还为验证贡献者提供了一组样本数据(包括培训和验证数据),定义了预期的准确率。计算贡献者负责构建和训练深度学习模型
;每个计算贡献者可以根据其性能参与或离开整个计算架构。根据发起者给出的任务,计算贡献者将使用本地数据设计和训练适当的机器学习模型,并将其发布给验证贡献者。在接收到计算模型之后,验证贡献者负责评估计算贡献者的性能,并将结果报告给发起者。发起者决定要融合哪些计算贡献者以及如何融合[22-25]。
2 语音识别中的区块链技术
语音识别的最大挑战是通过模型识别来处理大量的数据并达到最佳的识别精度。识别的准确性取决于模型对各种变化的适应性。基于区块链技术的协作分布机器学习可以很好地解决这些问题。
如引言所述,语音识别的系统架构,一个重要的步骤是使用声学和语言模型尝试解码。然而,在声学模型中存在着许多不确定因素,如说话人特征、语音风格和速率、噪声干扰、口音、麦克风和环境变异、性别和方言等,受到协作学习和分布学习的启发,可以设计一个语音识别的融合模型,将不同速率、不同噪声、不同麦克风、不同性别、不同方言的数据作为每个共享模型的训练数据。
如图3所示,我们有五个卷积神经网络(CNN)模型作为计算贡献者;它们分别使用具有不同速率、噪声、麦克风、性别和方言特征的数据进行训练。对五个共享模型进行充分训练后,得到五个特征向量fi(i=1、2、3、4、5)。从训练好的模型中移除输出层,并融合每个共享模型的特征。考虑用两层策略来连接,每一层通过计算前一层的相应值的加权和来实现。假设fi是第i个模型的上层特征向量,它们被连接起来形成连接的特征fc。隐藏层h和输出层y是基于完全连接层的权矩阵A和B计算的,权矩阵A和B随机初始化,由反向传播算法的变体(例如
Adam)计算权重矩阵A和B的最佳值[26]。我们还可以考虑梯度融合策略,该策略通过一种特殊的方法初始化权重矩阵A和B,从而学习不同计算模型之间的相关性,同时保持每个计算模型的唯一性。由于融合模型考虑了声学模型中的各种不确定因素,因此协作分布式深度学习模型的整体性能有望提高。
3 結论与展望
通过对分布式深度学习模型的研究,探讨了区块链在语音识别中的应用。它不仅能够处理复杂的语音识别分析,维护数据隐私,还显示了强大的大规模数据处理能力。然而,一些重要问题仍有待解决。如,融合模型中的权值矩阵可能会使得从单个深度学习模型中提取的一些关键隐藏特征变得模糊;由于在区块链节点中提取的某些特征是重叠或重复的,从而造成连接特征的冗余;如何通过融合保证在这种分布式学习系统下的鲁棒特征提取?
此外,分布式深度学习系统中存在大量的参数。如何避免过拟合也是一个具有挑战性的问题。由于不同的节点可能具有不同的dropout率,因此不确定dropout在该系统下是否仍能正常工作。此外,在这种分布式深度学习
基于区块链技术的语音识别 来自淘豆网m.daumloan.com转载请标明出处.