考考大模型视频理解能力,中科院人大百川提出新基准合成框架
资本猎人
2024-07-24 23:04:06
0

测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了,针对视频理解能力的那种。

直接在视频内容中插入多个无关的图像或文本“针”,严格评估模型对时间理解的能力。

来看下面的栗子。

比如插入密码词“Alice”,让模型找到这个密码词;插入苹果图片,让模型解答这个水果是什么;又或者插入多个“针”,询问模型插入针的顺序是什么。

这就是来自中科院、人大、百川的研究团队联合提出的利用合成视频构建视频理解测试基准的方法。

该方法名为VideoNIAH,可以解耦视频内容与其对应的查询-响应对,通过插入无关的图像或文本“针”来生成测试数据,既保证了视频来源的多样性和查询响应的多样性,还通过插入多个针来严格评估模型对时间理解的能力。

此外,使用与现实视频内容相对应的查询-响应对可能存在数据泄露风险,影响基准测试的公平性,使用合成视频生成方法可以有效避免这一问题。

研究团队利用VideoNIAH方法制作了一个能够有效评估视频模型的细粒度理解能力和时空建模能力,同时支持长上下文评估的合成视频理解基准VNBench,包含1350个样本。

随后对Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它开源模型进行了测试,并分析了一系列结果。

研究团队发现,即使是GPT-4o等最先进的专有模型,在需要检测和追踪视频中特定空间区域内的“针”等计数任务上的表现也不理想;在排序任务上,专有模型与开源模型之间的性能差距尤为显著……

VNBench更多细节以及更多实验结果我们接着往下看。

用VideoNIAH构建新基准

随着视频中心的MLLMs模型的提出,需要有更全面的基准测试来评估这些模型在视频理解方面的能力,包括细粒度理解、时空建模以及长上下文处理等。

传统的视频基准测试通常需要基于目标能力精心选择视频,并进行繁琐的查询-响应对标注,以匹配特定视频内容。这个过程不仅挑战重重,而且资源消耗巨大。

为了开发和评估视频理解模型,需要一个既能够扩展到不同视频源和长度,又能够高效运行的基准测试框架。

研究团队提出了VideoNIAH。

如前文所述,VideoNIAH(Video Needle In A Haystack)创新性地将测试视频内容与其查询-响应对解耦,通过在原始视频中插入无关的图像/文本“针”(needles),并仅从这些针生成注释。

这种方法不仅确保了视频来源的多样性和查询响应的多样性,还通过插入多个针来严格评估模型对时间理解的能力。

利用VideoNIAH,研究者们构建了一个全面的视频基准测试VNBench,包括检索、排序和计数等任务。VNBench能够有效评估视频模型的细粒度理解能力和时空建模能力,同时支持长上下文评估。

VNBench的特点主要表现在以下三个方面:

“针”类型(Needle Type)的多样性

编辑内帧(Edit):使用人为添加的字幕作为”针”,这些字幕被嵌入到视频帧中,模拟了在视频中寻找特定文本信息的场景。

插入帧间(Insert):使用图像作为”针”,这些图像作为静态片段插入到视频帧之间,考察模型对视频中静态图像的识别和记忆能力。

级别划分:根据图像的可识别性分为两个级别,第一级使用常见物体(如水果图像),第二级使用更具挑战性的地标图像/物体图像,增加了任务的难度。

视频”干草堆”(Video Haystack)的多样性

时间分布:VNBench使用的视频”干草堆”来自不同的数据源,视频时长从10秒到180秒不等,覆盖了短、中、长三种不同的视频长度,以评估模型对不同视频长度的适应能力。

内容覆盖:视频内容包含多种场景,确保了评估的广泛性和视频源的多样性。

查询(Query)的多样性

检索任务:要求模型从视频中检索出特定的”针”,考察模型的细粒度理解和信息提取能力。

排序任务:要求模型识别并排序视频中所有插入”针”的时间顺序,考察模型对视频时间动态和事件序列的理解能力。

计数任务:要求模型计算视频中特定对象的出现次数,包括对单个帧内和跨帧的重复模式的识别和追踪,考察模型在时空维度上的理解能力。

任务分类:VNBench的三个任务类型分别对应不同的视频理解能力评估,检索任务评估信息检索能力,排序任务评估时间推理能力,计数任务评估对视频内容的长期记忆和模式识别能力。

通过这些设计,VNBench能够全面地评估视频理解模型在多样化的视频内容和查询条件下的性能,为视频理解技术的研究提供了一个有力的基准测试工具。

实验及分析结果

在论文中,通过VNBench对视频理解多模态大语言模型(MLLMs)进行了一系列评估,分析结果揭示了以下几个关键点:

首先是专有模型与开源模型的性能差异。

专有模型(如Gemini 1.5 Pro和GPT-4系列)在大多数VNBench任务上的表现优于开源模型。这表明专有模型可能拥有更优越的视频理解能力,这可能归功于更大的模型参数和更全面的训练过程。

其次是任务难度与模型表现。

模型在单针短依赖任务(检索任务)上的表现普遍优于多针长依赖任务(排序和计数任务)。这表明当前的视频模型在处理需要长期依赖信息的任务时仍然面临挑战。

排序任务的性能差距方面,在排序任务上,专有模型与开源模型之间的性能差距尤为显著。大多数开源模型在排序任务上几乎无法完成任务,这可能是由于它们在训练过程中忽视了时间序列建模的能力。

然后是计数任务的困难。即使是最先进的专有模型,在计数任务上的表现也不理想。特别是在需要检测和追踪视频中特定空间区域内的“针”时(Counting-E-2任务),所有模型的表现都很差,这表明当前的视频模型在理解和建模视频中的细粒度时空关系方面仍有不足。

此外,视频上下文长度的影响方面,随着视频处理时长的增加,开源模型的性能显著下降,而专有模型由于具有更长的上下文处理窗口,性能波动不大。这表明当前模型在处理长视频内容时的能力有限。

“针”位置的影响方面,通过改变“针”在视频中的位置,研究发现专有模型由于其较长的上下文窗口,能够准确回忆所有插入的信息,而开源模型则表现出在长序列中对中间信息的回忆不足。

这些分析结果不仅揭示了当前视频理解模型的优势和局限性,而且为未来的研究提供了宝贵的见解,有助于指导视频理解技术的发展和改进。

— 完 —

相关内容

考考大模型视频理解能力,中...
测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准...
2024-07-24 23:04:06
第二十五届中部农博会向粤港...
日前,第二十五届中国中部(湖南)农业博览会,向粤港澳大湾区发出战略...
2024-06-22 00:01:36
东材转债上涨005%,转股...
(原标题:东材转债上涨0.05%,转股溢价率50.46%)3月28...
2024-06-03 23:15:08
冠城大通(600067SH...
智通财经APP讯,冠城大通(600067)(600067.SH)公...
2024-05-18 14:53:03
每天这个时间运动,更有助于...
人们常说运动是抗病的“良药”,你通常选择什么时间进行运动?选对运动...
2024-05-17 09:59:19
艾紫馨:黄金白银如期回调 ...
前言:凡夫迷失于当下,后悔于过去、圣人觉悟于当下,解脱于未来。消息...
2024-05-16 10:34:27

热门资讯

新春送祝福!蕉岭县退役军人事务...   为营造欢乐喜庆的新春氛围,弘扬拥军优属光荣传统,2月4日,蕉岭县退役军人事务局会同县爱国拥军促进...
Shake Shack(SHA... 金吾财讯 | 截至发稿,Shake Shack(SHAK)盘前涨超3%,报59美元。消息面上,Sha...
散裂中子源二期、先进阿秒激光设...   东莞持续重磅布局重大科技基础设施建设,进一步提升城市科创能级。东莞近日公布2024年重大项目计划...
冬季气候干燥,又到了这几种疾病... 最近气温骤降,王女士看气温变化有点大,于是就赶紧给自己2岁的宝宝加了一件厚外套。可是即便如此,宝宝还...
首销23分钟打破行业记录,2亿... 虽然我们都知道手机摄影无法和专业单反相机比拼影像,但我们在入手一款手机时,还是会关注这款手机的摄影能...
小摩:维持中国旺旺(00151... 摩根大通发布研究报告称,维持中国旺旺(00151)“中性”评级,受惠于原料奶及奶粉价格下跌,预测20...
供需关系有望迎来优化 功率半导... 近日,多家芯片厂商陆续宣布涨价。记者采访多家芯片原厂、分销商获悉,大容量存储芯片真正开启了涨价通道,...
华锋转债下跌209%,转股溢价... (原标题:华锋转债下跌2.09%,转股溢价率36.25%)3月4日,华锋转债盘中下跌2.09%,报1...
38家公募2023财报 过半净... 2023年年报披露季进入最后一个月。据不完全统计,截至4月3日,已有38家基金公司去年的财务数据随控...
北交所基金此消彼长 机构专注“...   北交所主题基金份额出现两极分化,指数型基金更受青睐,而主动型基金份额出现不同程度下降。数据显示,...