上海广播电视台节目资料中心暨上海音像资料馆 闵友钢 顾伟
摘 要:随着媒体资产的不断累积膨胀,未来我们需要一种智能化的基于多媒体内容的跨媒体检索引擎,从而和文本检索形成互补。本文介绍了不同模态的多媒体特征数据的相关度匹配,运用典型相关性理论来建立同构子空间以供其在公共平台上的相似度比较,同时根据相关性反馈修正子空间中的拓扑关系,提高今后数据检索的准确性和有效性,并从跨媒体检索的实际应用角度探讨了系统的检索流程和总体框架结构,为今后系统的实施提供一种思路。
关键词:跨媒体检索;典型相关性;智能化检索
1 引言
经过多年的运营,目前,国内外的大型媒体企业都已累积了相当多的各类媒体资产;例如,上海东方传媒集团有限公司(简称:SMG)经过几年的数字化、网络化改造,已建成了新闻媒资系统、财经媒资系统、中心媒资系统、节目管理信息系统、广播媒资系统、图书图片管理系统等一系列的数字化内容管理系统和内容信息管理系统。与此同时,SMG又在进行节目信息应用门户的建设,为上述各系统提供一个统一的检索入口,整合了资源,提高了检索效率,也提高了内容的使用率,而且应用门户采用的搜索引擎对于检索内容有较好的模糊语义理解,这对于提高搜索范围,帮助查找内容提供了良好的途径。
然而,一般的搜索引擎是基于关键词索引的全文检索,而检索的文本内容是人为的对图片、音频和视频等多媒体对象的标引,即全文检索的结果很大程度上依赖了人工标引的详细与否,况且不同人对相同图像和声音的认知以及描述语句都有差别,所以有时文本检索的结果并不理想。而基于多媒体内容的检索技术弥补了传统基于文本检索的不足,其利用媒体对象的颜色、纹理、形状、音频波形等特征进行相似度匹配,获取与媒体对象本质相关的检索结果[1]。即便如此,我们所能获取的检索结果只是单一类型的媒体内容,而我们最终希望的是跨域的检索。例如通过提交“火车”的画面,可以检索到关于“火车”的文字、图片、音频、视频等各种类型的媒体对象,同样地,可以提交“火车”的音频来检索其他有关“火车”的各类型数据。本文希望通过对跨媒体检索技术的探讨和研究,突破传统检索方法对多媒体语义的整体理解以及对媒体类型的限制,从而能为以后建设跨媒体的检索系统,实现更加智能化的检索,提供一些新的思路。
2 跨媒体相关理论的介绍
近年来,理论界逐渐地出现了一系列关于跨媒体检索技术的研究课题,这些研究的结果将为在应用层面上提供了理论基础。以下将分别介绍几类主要的跨媒体研究成果。
2.1 图像与声音的关联搜索
通过建立跨媒体检索中视与听之间的相互关系[2],可以提供如何学习视音频内容检索中视频特性和音频特性之间跨媒体相关性的方法:即通过半监督式相关性保持映射方法来构建同构子空间,在此空间中原有视音频特性的相关性得到保护,并运用交互的方法来优化图像集合与音频集合的关联质量。
2.2 跨媒体检索的索引结构
对于海量跨媒体检索[3],可以分析网页中不同类型媒体对象的链接关系,生成交叉参考图,对查询实例使用索引快速定位,在交叉参考图中得到与查询实例相关的候选对象,并按相似度大小排序。这种检索的结果较顺序检索结果具有更好的价值,较适合海量跨媒体数据检索。
2.3 综合推理的多媒体语义挖掘
综合推理模型的多媒体语义挖掘和跨媒体检索技术[4],是根据多媒体对象底层特征构造推理源,根据共生关系构造影响源场,根据伪相关反馈为检索实例自适应地选择不同检索方法进行跨媒体检索,同时利用基于日志的长程反馈学习算法提高性能。
3跨媒体检索方法的探讨
首先让我们来简单分析一下不同类型多媒体数据之间检索的核心难点是什么。由于不同类型的多媒体数据所能抽取出的特征向量都不相同,即各种多媒体对象具有不同的模态,所以跨媒体检索的核心难点在于如何对各式各样的底层特征数据进行相关度匹配。因此在本章节中将分别介绍图片、音频、视频的特征值提取,运用典型相关性理论来建立同构子空间,以供其在公共的平台上进行相似度比较,同时根据交互反馈的情况来不断地修正数据集的拓扑关系。
3.1 媒体对象的特征向量提取
(1)图片特征提取
图片特征目前用得较多的一般为颜色、纹理和形状特征三种,可以分别按照这三个大类来提取相应的数据向量,最后组成图像的特征向量集合。
(2)音频特征提取
从音频信号采样的离散信号中提取时域和频域特征,这些特征组合在一起形成的特征向量能够互补,提取这几类特征后组成音频特征向量集合。
(3)视频特征提取
视频包含图像帧序列、伴音、字幕和语音文本等内容信息。以镜头切换处为分割点,将视频分成若干片段,每个片段都由一系列图片帧组成,根据(1)中提到的图像特征对一组图片帧进行抽取,再用差值法统计每组图片的特征值;对于分割后的音频片段属于(2)中提到的情况,可做类似处理。
3.2 向量空间的建立
向量空间的建立采用典型相关分析[6],为两个需要比较的特征向量寻找一组基础投影向量,使得投影后两个向量的相关度与原来最大程度上保持一致。定义两个变量矩阵
于是,保持相关度问题就归结为寻找最优的Wx和Wy,使得L与M的相关度最大。也就是说我们要在满足
按照上述特征向量的映射方法,给定多个语义类别的图片和音频作为训练数据,对于每个语义类别Zi,手动选择一些与Zi语义相同的图片Ai和音频Bi进行语义标记;分别计算Ai和Bi的质心Ctr Ai,Ctr Bi;对图片集和音频集以Ctr Ai,Ctr Bi为初始质心进行聚类;根据聚类结果提取相应的特征向量,并按照公式①的映射关系求得最优的Wx和Wy,以此作为基向量映射到低维子空间。向量空间的建立过程如图1所示。
图1 向量空间建立示意图
3.3 相似度计算
将多媒体对象的特征向量映射到多维空间坐标中,我们通过计算此空间中两点的距离来表示它们之间的相似度,两个点之间的距离越小,证明这两个多媒体对象越相似。在这里给出一种计算相似度的方法如下:
经过3.2节中的Wx和Wy投影变换后,我们可以获得一组向量坐标,定义为
设两个多媒体对象经映射后的向量为
用户可以通过提交多媒体查询实例R,在子空间中用公式②计算R与其他类型数据的距离,以此来衡量跨媒体相关性大小。
3.4 交互反馈
最终判定多媒体对象是否相似的决定权始终在用户手中,通过用户对跨媒体检索系统中返回的结果作出评判并反馈给系统,系统再根据反馈内容对检索结果作出调整。我们可以在公式②的基础上添加一个平滑因子R来修正检索结果,即
根据反馈结果赋予不同的值给平滑因子,从而再次计算相关度。借助相关反馈技术动态地调整系统特征向量所占的权重系数,从而缩小底层特征和高层语义的鸿沟,同时这也是一个不断训练的过程,随着交互反馈结果的增长,其今后的查找准确率也会越来越高。
4 跨媒体检索系统的构建
最终我们是希望将跨媒体检索技术应用到现有的媒体资产管理系统中去,本章节将介绍跨媒体检索原型系统的结构以及跨媒体节目信息检索应用门户的架构,以此来直观地说明跨媒体检索的流程和总体的实施思路。
4.1 跨媒体检索原型系统结构
根据第3章节中论述的跨媒体检索方法,基本上可以构建出跨媒体检索原型系统的核心模块结构,可分为以下五个模块:多媒体底层特征数据提取模块;特征子空间构建模块;特征数据映射模块;相似度计算检索模块;交互反馈模块。跨媒体检索的模块结构如图2所示。
从图2中可以看出,该系统总体上包括了基础数据的训练和实时检索两个部分,而这五个模块分别在其中担当重要的职责。
(1)底层特征数据提取模块:对多媒体数据进行预处理,根据不同类型媒体对象的情况提取所需的分析数据,并进行存储。
(2)特征子空间构建模块:挖掘多媒体数据在底层内容特征上的典型相关性,运用第三章节中公式①,对给定的多媒体数据建立关联并获取特征子空间的映射关系。
(3)特征数据映射模块:根据事先建立的映射关系对多媒体特征数据映射成特征子空间中的向量。
(4)相似度计算检索模块:对提交的多媒体对象,使用第三章节中的公式③计算多媒体距离来进行相关度匹配,返回相似的其他各种类型的多媒体结果。
(5)交互反馈模块:用户评判检索结果的质量,系统自动根据反馈结果进行分析,学习并记忆分析结果,并对知识进行更新。
4.2 跨媒体检索应用门户的架构
跨媒体检索目前只是理论和实验阶段,投入生产使用仍有较长的距离,故在此给出初步的应用设计架构,以说明跨媒体检索技术在现有检索门户的扩展方法和工作流程。跨媒体检索子系统的架构如图3所示。
图3 跨媒体检索在媒资管理检索门户中的架构图
5 总结
随着不同媒体内容数字化的加速推进,我们能访问到的不同类型的多媒体资源也越来越多,笔者认为未来多媒体检索技术将会朝着基于多媒体内容本身的检索以及不同模态多媒体对象之间的检索的方向发展。智能化的媒体资产检索平台应以更符合人类感官对外界事物认知的方式去提供搜索服务,而不同模态多媒体对象之间在高层语义上存在着很大的关联性和补充性,应当充分利用这种资源来进行相关性挖掘,从而获取更好的用户体验。此外,进一步的研究工作将包括:大规模海量多媒体数据检索,以及无人管理的自动的子空间映射关系的建立。
参考文献
[1] 孟凡炼. 基于异构特征统计分析的跨媒体检索研究. 武汉科技大学. 2010年5月
[2] Hong ZHANG, Yan-yun WANG, Hong PAN, Fei WU. Understanding visual-auditory correlation from heterogeneous features for cross-media retrieval. Journal of
[3] 庄毅,庄越挺,吴飞. 一种支持海量跨媒体检索的集成索引结构. 软件学报. 2008年10月
[4] 杨易,郭同强,庄越挺,王文华. 基于综合推理的多媒体语义挖掘和跨媒体检索. 计算机辅助设计与图形学学报. 2009年9期
[5] 刘扬. 基于时空相关性的跨媒体检索模型研究与应用. 河南大学. 2009年5月
[6] Magnus Borga, Canonical correlation a tutorial. January 12, 2001.
[7] 张鸿,庄越挺,吴飞,陈建勋. 一种基于内容相关性的跨媒体检索方法. 计算机学报. 2008年05期
作者简介:
闵友钢,上海广播电视台节目资料中心技术保障部主任,高级工程师。先后从事IT技术、有线电视宽带网络技术、数字电视技术、音视频数字化技术、DRM研究等工作,曾获得国家广电总局优秀科技论文一等奖,上海文化广播影视局科技进步二等奖、三等奖。
顾伟,上海广播电视台/上海东方传媒集团有限公司节目资料中心C级技术支持,本科学历,信息与计算科学专业。参与数字化视频资料修复工作、音频数字化审听工作等。
责编:张晖