基于内容的视频检索的场景构造研究
任晓峰
武汉理工大学信息工程学院,湖北武汉(430070)
Email:rogerrr_0@
摘要:本文在分析现有场景分割算法的基础上,提出了利用帧图像的全局颜色特征和运动
特征来来定义镜头的相似度,然后利用镜头迂回聚类算法分割场景,同时为了减小过度分割
的影响,还提出了一种合并过度分割出场景的方法,使得视频场景分割达到最佳的效果。
关键词:基于内容,相似度,迂回聚类,场景分割
中图分类号:TP391
1. 引言
当前,随着各种视频压缩标准的工业化应用、PC 电脑性能的显著增长,以及光盘等存储
媒介成本的下降,视频信息交流已经越来越广泛,海量的数字视频信息广泛地分布于各种网络
和存储媒介中。但遗憾的是这些存储通常只进行了简单的分类甚至不分类,而且只能通过顺
序浏览的方式进行访问。为了有效地管理和使用大型视频数据库,我们需要解决视频信息的
自动标引和检索问题。
为了能够方便人们寻找视频数据,基于内容的视频检索(Content2based Video Retrieval,
CBVR)技术的研究引起了人们广泛的关注。多媒体内容描述接口MPEG27的逐步制定和完善,
更加推动了高效的基于内容的多媒体搜索引擎的开发。
基于内容的视频检索,就是由计算机对于视频的内容进行自动分析,制成索引,用户可以
针对自己所需要的内容提出查询要求,而不是寻找关键词。目前,基于内容的视频检索研究,
主要集中在视频分割、特征提取和描述(包括视觉特征、颜色、纹理和形状及运动信息和对
象信息等) 结构分析和镜头检索等方面[1]。
借助镜头分割可将视频节目分成一系列镜头,但以镜头为单元划分视频节目所需面对的
单元个数通常被认为过多。因为镜头分割常基于视觉特征进行,这表明镜头内容的语义信息
尚未很好的利用。另一方面,镜头主要还是一个物理单元,还不足以描述有语义意义的事件
或活动,或者说在镜头层次上,还没有将视频节目的逻辑关系描述出来。为此,需要对视频
进行更高层的抽象,将内容上有关系的镜头结合起来,以描述视频节目中有语义意义的事件
或活动。这个工作常称为镜头聚类,或者情节分割、镜头聚集等,而因此得到的镜头集合体
也有多种叫法,如场景(scene),视频片断(video clip)、情节(episode)、故事单元(story unit)等。
类似于用关键帧代表镜头,也可以使用有代表性的帧来代表镜头聚集体,以简洁地表达基于
语义内容层次的场景内容。
2. 基于内容的镜头集合
镜头分割的结果是把视频流划分成一系列镜头,而各个镜头的内容则可由抽象得到的关
键帧来表达。镜头虽然是一个含有一定语义的单元,但直接将视频节目分解为一系列镜头的
集合并不实用。例如,一个典型的故事片可分解成 600~1500个镜头[1]。如果每个镜头选一
帧作关键帧,则一个故事片仍需要600~1500帧。如果镜头中运动比较多,每个镜头需要多
帧作关键帧,则整个故事片所需要的帧数还会增加。这样上千帧的图像用于分析视频内容仍
然显得比较多。
为了更抽象地表达视频,也为了进一步将视频内容加以组织,需要在镜头检测的基础上
-1-
构造更高层次的内容相关的镜头集合体或聚类,如片断(clip)、故事(story)、情节(episode)、
场景或情景(scene)等。对视频进行更高层、更抽象的单元或者说场景构造根据目的和形式的
不同可分两种。(1)分类指的是仅考虑镜头间的特征相似性,不考虑时间上的连续性。例如
根据镜头内容的重复性,可区分对话型和动作型,对话型动作比较固定但对象重复交替出现,
动作型镜头跟随事件不固定在一个位置,很少有镜头的重复;(2)聚类指把属于同一个场景
的镜头结合起来,以形成视频层次结构,不仅要考虑内容上的相似性,还要考虑时间上的连
续性。对镜头的结合需要考虑与人观看视频的感知特点相符合。在视频中,同时或并行发生
的事件必须串行地(通过将镜头连接起来)表现出来。视频本身带给人的内容含义上的连续性
会超过在表达式上的不连续性。实际观看视频时,有些内在的东西或线索能保证在意义上的
连续性,它们在视频片断不连续时仍能保存下来,这是观察者利用了感知经验或理解力的缘
故。这些画面里内在的东西可看做不同镜头之间的相似处,观察者可从中得出这些画面是同
一场景从不同角度观看的结果,或这些画面表现了同一事件在不同方面的感知。
3. 基于镜头边界的聚类算法
类似于在镜头的检测中常采用发现镜头边界的方法,对镜头聚类的检测也常采取发现镜
头聚类边界的方法。但在一般情况下检测镜头聚类比检测镜头切换要困难的多,因为视频节
目种类很多,
基于内容的视频检索的场景分割的研究 来自淘豆网m.daumloan.com转载请标明出处.