摘要上海交通大学硕士学位论文
基于内容的多模态视频检索
摘要
近年来,视频内容呈现爆炸式增长态势。随着个人数码摄像设备
的普及,存储器容量的提升,以及网络环境的改善,越来越多的人热
衷于拍摄自己身边各种有趣的视频,并上传到网上与人分享,同时又
在网上搜索并欣赏自己感兴趣的视频。对于电影工作者来说,人工处
理海量的视频数据是件相当耗时耗力的事,如何更有效地管理并再利
用视频成为了当务之急。在社会安全保障行动中,侦察活动必不可少,
如何从侦察机和无人机上拍摄的大量视频中提取有用的信息对整个
战局起着至关重要的作用。因此,视频检索在国民经济和社会发展中
有重大需求,是当今信息社会亟待解决的基本问题之一。
然而,视频检索技术面临着巨大挑战。如今的视频检索引擎(如
等)基本沿用了文本检索的方式,且文本仅来自于视频
外部人们对视频的文本描述,诸如视频标题、标签等,即把视频当作
文档来处理。如何自动从视频内在的语音、字幕、图像序列等信息中
提取语义继而进行检索极具挑战和吸引力。与文本检索不同,基于内
容的视频检索涉及图像处理、语音识别、信息检索、机器学习、模式
识别等多个领域的综合交叉学科。美国国家标准局(NIST)自 2003
年起组织了视频检索竞赛(称为 TRECVID),TRECVID 已经成为比
较视频检索算法性能的全球公共平台,每年吸引了全球众多研究团队
的参与。本项研究工作就是在微软亚洲研究院与上海交通大学联合参
i
摘要上海交通大学硕士学位论文
加 TRECVID2007 的背景下开展的,并在最后的检索任务中取得了第
一名的成绩。本文重点阐述在如下三方面中的研究成果。
首先,在基于文本的视频检索中,一方面提出了对从视频中提取
出的语音文本实行根据视频语言种类采取不同的文本组合策略,克服
了固定文本组合数太小时不能充分利用上下文信息即视频内容在时
序上的连贯性而引起的查全率降低,以及组合数太大时不相关的结果
被误检索出来而引起的查准率降低的问题。另一方面,改进了在传统
文本检索中有良好表现的 BM25 公式。考虑到传统文本检索时,查询
词在文档中被检索到就表明该词出现在该文档中;而在视频检索中,
同样出现在语音文本中不同词性的词,在视频画面中体现出来的概率
是不同的。因此本文提出在 BM25 公式中根据词性引入了关键词的权
重,使其更好地应用于基于文本的视频检索中。
其次,在对基于文本和基于概念检测的检索结果进行融合时,根
据视频特点,提出了一种根据查询分类的线性融合,即根据不同类别
的查询,对不同模态的检索结果分配一定的权重来进行融合。该方法
有不逊于非线性融合的准确率,且易于实现,计算量小,运算速度快,
可用于实时系统。考虑到正确的返回结果在视觉上存在一定的一致
性,本文提出利用 K-means 聚类算法对融合后的结果进行重排序,进
一步提高了整个视频检索系统的检索效果。
最后,在基于概念检测的视频检索中,本文所采用的概念检测方
法与如今普遍被采用的方法相同,都是图像级的,即用来预测的低层
特征都是全局性的。当图像较为复杂、包含概念较多时,概念间的特
ii
摘要上海交通大学硕士学位论文
征会互相影响,降低了检测精度。本文在最后提出了基于图像分割的
概念检测设想,利用已有的图像分割算法,通过大量分割结果,分析、
探讨了基于图像分割的概念检测方法,提出了概念检测中基于细致分
割的不可行性及基于粗略区域划分的可行性,为今后进一步的研究工
作确立了方向。
关键字:视频检索,基于内容的检索,文本检索,概念检测,图像分
割,融合,重排序
iii
摘要上海交通大学硕士学位论文
CONTENT BASED MULTIMODAL
VIDEO RETRIEVAL
ABSTRACT
Nowadays, with the popularization of personal digital video equipment, the
extension of memories’ capability, and the improvement work condition, more
and more people are wild about capturing those interesting videos around them,
sharing the videos in the with others and searching the videos that they are
interested in. In fil
基于内容多模态视频检索 来自淘豆网m.daumloan.com转载请标明出处.