人工智能时代广播电台融媒体语音智能检索技术
摘要:文章依托吉林人民广播电台融媒体语音智能检索技术系统进行阐述语音智能检索技术的主要内容以及语音识别、音频自动索引、关键音检索3个技术特点,语音检索的系统结构设计和逻辑构架及主要功建立内容索引;2)关键音检索技术:用户输入的文本形式的关键词,系统从已索引的视音频中检索该词发音所在的位置;3)语音识别技术:把视音频节目的音频内容转换为文本形式,利用全文检索技术进行检索。
2融媒体语音智能检索技术的系统结构设计和系统逻辑构架
融媒体语音智能检索技术对现有多媒体库的媒体音频文件建立内容索引的处理数据库文件,形成供用户进行语音检索查询的数据文件,检索结果数据文件和原始媒体文件之问建立起时问点对应关系,交互式回放给用户浏览和使用。语音检索系统只对媒体音频文件进行分析和索引,并保存相关元数据信息,但并不保存原始的媒体音频文件,前台集成应用系统负责从原始媒体音频库中回放和浏览检索结果对应的原始音频文件。
整个语音检索系统由以下部分构成:语音索引服务器、语音检索服务器、集群控制器、系统管理器、开发集成接口(搜索引擎Web Service:对用户提供Web Service方式的检索查询接口;搜索引擎API for Java:一组Java类库,提供对整个系统的全功能编程支持,包括索引建立和检索查询、管理)、关系数据库系统OraclelOg、Web服务器Tomcat、分布式计算平台otcopus。
系统逻辑架构如下:索引服务从用户的媒体音频库中读取音频数据,建立相应的内容索引,存入存储系统和关系数据库中;检索服务根据用户提交的检索请求对内容索引进行检索,给出检索结果;集群服务控制协调索引服务和检索服务,进行虚拟功能包装和负载均衡控制;现有的用户业务系统可通过开发集成接口直接或问接与索引和检索服务器交互,完成系统之间的集成;系统管理统一对整个语音检索系统进行配置和监控。
语音检索功能包括关键音搜索功能、全文搜索功能。在搜索引擎系统加入媒体文件,指定以搜索内容索引分类;索引完成之后,可通过相应的搜索功能对其进行检索。
关键音搜索功能实现在海量媒体音频文件中快速找出与用户输入的查询词发音相同或相似的位置,全文搜索功能实现定位用户的查询词在媒体音频文件中出现的位置。搜索结果中搜索词准确出现媒体文件的音频对应位置,可精确定位到毫秒。
语音搜索系统在设计中对结果条目的排序和过滤功能实现上要考虑多样性、复杂性需求,由于媒体音频库含有上万小时的音频文件,搜索结果往往是数万条,对结果条目的排序和过滤功能要求非常重要。语音搜索内部引擎对每个搜索结果设置一个置信度的值,系统依据置信度值降序排列返回所有搜索结果。在导入媒体文件的时候,用户给出了附加的元数据信息,如创建时问、类型、作者等信息项,搜索时可按此元数据信息项进行条件比对搜索。用户在搜索输入条件中可以增加相应的条件查询和排序指定,如搜索2017年的xx词、按时问排序,语音检索系统按指定的条件项对结果值进行过滤,然后按指定的排序顺序返回搜索结果信息。如用户在搜索条件项中给出了具体的需要进行搜索的媒体音频文件列表,语音检索系统则在这个列表
人工智能时代广播电台融媒体语音智能检索技术 来自淘豆网m.daumloan.com转载请标明出处.