
在东说念主工智能快速发展的今天,教化机器领路视频内容变得越来越垂危。然则,现有的AI系统在面对长视频时通常力不从心,就像让一个只会看丹青书的孩子一刹去领路一部两小时的电影一样艰辛。来自阿联酋穆罕默德·本·扎耶德东说念主工智能大学(MBZUAI)的磋磨团队最近发表了一项打破性磋磨,为这个难题提供了全新的惩处决议。
这项由Mohammed Irfan Kurpath指令的国外磋磨团队于2025年12月发表的磋磨论文,题为"A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos"。磋磨团队来自多个驰名机构,包括MBZUAI、贝鲁特好意思国大学和瑞典林雪平大学。这篇论文初度建议了一个全面的长视频多模态领路基准测试LongShOTBench,以及一个智能代理系统LongShOTAgent。
刻下的AI视频领路本事靠近着一个根人性的矛盾:现有的评测法子要么专注于万古分但忽略音频信息,要么珍视多模态但局限于短片断。这就好比让一个东说念主要么只用眼睛看一部无声电影,要么只听几分钟的片断配音,然后条目他们统统率路整部电影的内容。磋磨团队意志到,信得过的视频领路需要同期处理视觉、语音和环境音频信息,况且要在万古分跨度内保捏连贯的推理才能。
为了惩处这个问题,磋磨团队征战了LongShOTBench这一全新的评测基准。这个基准包含157个长视频,平均时长达到45分钟,臆测跳跃117小时的视频内容。这些视频不是简便的片断拼接,而是齐备的连系内容,涵盖从烹调教程到本事演示的各种场景。每个视频都经过用心的多模态标注,确保视觉、音频媾和话信息的齐备性。
LongShOTBench的窜改之处在于它的评估方式。传统的AI评测赓续遴荐弃取题口头,这种方式就像只让学生作念填空题而不允许他们写稿文一样,无法信得过测试深层领路才能。相背,LongShOTBench遴荐通达式问答和多轮对话的神气,更接近的确的东说念主机交互场景。更垂危的是,它还引入了器具使用才能的测试,允许AI系统调用外部器具来扶直领路,这就像给学生提供打算器、辞书等器具来完成复杂任务。
磋磨团队还征战了一套独有的评分机制,称为分级评价圭臬。这种评分方式不再是简便的对错判断,而是像浑厚删改作文一样,从多个维度进行良好评估。每个问题都配有详备的评分圭臬,包括事实准确性、时分定位才能、多模态信息整合等方面。这种评分方式无意提供愈加精准和可解释的评估效果。
在本事架构方面,磋磨团队建议了LongShOTAgent智能代理系统。这个系统遴荐模块化瞎想,就像一个配备了各种专科器具的多面手技师。它的中枢是一个轻量级的合作器,追究统筹调配各种专科模块,包括视觉领路模块、语音识别模块和音频分析模块。迎面对复杂的视频理罢黜务时,合作器会凭证需要动态弃取相宜的器具组合。
LongShOTAgent的责任经由分为三个阶段。领先是预处理和索引阶段,系统会对输入的长视频进行分段处理,索求各种模态的特征信息,并配置多模态向量数据库。这个过程雷同于典籍经管员为新到的书本编目和分类,为后续的快速检索作念好准备。接下来是自适应检索阶段,系统会凭证用户的查询需求,智能地定位到最关系的视频片断,幸免在总共这个词长视频中进行低效搜索。终末是迭代优化和详尽阶段,系统会调用各种专科模块对检索到的片断进行潜入分析,并将效果整合成连贯的陈说。
在实验评估中,磋磨团队测试了包括Gemini-2.5-Flash、Qwen2.5-Omni等在内的多个先进AI模子。效果知道,即使是最强的营业模子Gemini-2.5-Flash也只达到了52.95%的全体准确率,而开源模子的阐扬更是普遍低于30%。这个效果令东说念主默契地强壮到,刻下的AI本事在长视频领路方面仍有很大的提高空间。
有趣的是,磋磨团队发现模子在处理不同长度视频时的阐扬有在光显互异。在处理30分钟以内的短视频时,模子阐扬相对较好,但跟着视频长度加多到60分钟以上,性能光显着落。这种时事雷同于东说念主类在万古分专注时容易出现注重力溜达,反应了刻下AI系统在万古分牵记和推理方面的局限性。
LongShOTAgent在此次测试中阐扬出色,达到了44.66%的全体准确率,诚然仍低于Gemini,但权贵稀疏了总共开源模子。这确认了通过合理的模块化瞎想和智能合作,不错在不加多磨砺数据的情况下权贵提高系统性能。
磋磨团队还相等珍视了器具使用才能的评估,这是传统视频领路基准中缺失的垂危才能。在推行行使中,AI系统通常需要调用各种外部器具来完成复杂任务,比如进行数学打算、查询外部学问库或实行代码。LongShOTBench包含了16种不同类型的器具,涵盖语音处理、视觉领路、翻译做事、打算器具和信息检索等多个方面。
从数据构建的角度来看,LongShOTBench的制作过程体现了严格的质料适度圭臬。磋磨团队遴荐了五阶段的自动化经由,包括多模态标注生成、问题瞎想、谜底生成、分级圭臬制定和东说念主工考证。总共的问题和谜底都经过了东说念主工众人的审核和修正,确保了基准测试的可靠性和灵验性。
相等值得一提的是,磋磨团队在问题瞎想时引入了情境框架的观点。他们莫得平直让AI模子生成问题,而是领先分析视频内容,识别出不同的不雅看情境,然后基于这些情境瞎想相应的问题。这种法子更靠近的确的东说念主类视频不雅看体验,无意更好地评估AI系统的实用价值。
在多轮对话评估中,LongShOTBench遴荐了理思轨迹成立来幸免失误集结。这意味着在对话的每一轮中,系统都会基于圭臬谜底而不是前一轮的失误陈说来连续对话。这种瞎想确保了每一轮对话都能得到公说念的评估,不会因为前边的失误而影响后续阐扬。
从本事完了的角度看,LongShOTBench搭救原生视频输入条约,幸免了因为不同的帧采样计谋而带来的评估偏差。磋磨团队让每个模子使用我方的默许视频处理方式,这么的瞎想愈加公说念,也更接近内容行使场景。
磋磨效果揭示了刻下AI系统在长视频领路方面的几个要道瓶颈。领先是万古分牵记问题,现有模子难以在万古分跨度内督察一致的领路现象。其次是多模态信息整合才能不及,很多模子诚然无意处理视觉或音频信息,但难以灵验地将它们王人集起来进行推理。终末是器具使用才能的缺失,大大批模子短少调用外部器具来惩处复杂问题的才能。
这项磋磨的影响不单是局限于学术界。跟着视频内容在宽泛生存中的垂危性不停加多,从在线造就到文娱媒体,从安防监控到医疗会诊,长视频领路本事的行使远景极其遍及。LongShOTBench为这些行使提供了圭臬化的评估框架,有助于鼓舞关系本事的发展和落地。
磋磨团队也坦率地探究了刻下磋磨的局限性。由于打算资源的终端,他们主要珍视了参数目在10亿以下的模子,况且视频内容主要开始于公开平台,可能在各种性方面存在一定局限。然则,他们本心将逐步扩大基准测试的限度,并捏续更新和完善评估框架。
从法子论的角度来看,这项磋磨展示了何如通过合理的任务阐明和模块化瞎想来惩处复杂的AI问题。LongShOTAgent的奏凯确认了,并不老是需要更大的模子和更多的磨砺数据,有时候智能的系统瞎想和灵验的模块合作通常无意带来权贵的性能提高。
磋磨团队还相等强调了可复现性的垂危性。他们本心将公开总共的代码、数据和评估框架,使其他磋磨者无意基于这个基础进行进一步的磋磨和修订。这种通达的磋磨魄力关于鼓舞总共这个词范畴的发展具有垂危真谛。
瞻望改日,这项磋磨为长视频领路本事的发展指明了标的。跟着更高大的基础模子和更高效的磨砺法子的出现,王人集LongShOTBench提供的圭臬化评估框架,咱们有原理驯顺AI系统在长视频领路方面将会得到更大的打破。同期,器具增强的AI代理系统也将在更多内容行使中施展垂危作用。
Q&A
Q1:LongShOTBench比较其他视频领路测试有什么相等之处?
A:LongShOTBench是首个同期珍视万古分跨度和多模态信息的详尽基准。它包含平均45分钟的长视频,同期整合视觉、语音和环境音频信息,还引入了器具使用才能测试。传统测试要么只看短片断,要么忽略音频,LongShOTBench更接近的确的视频领路需求。
Q2:为什么刻下最强的AI模子在LongShOTBench上阐扬不睬思?
A:即使是Gemini-2.5-Flash这么的顶级模子也只达到52.95%的准确率,主要原因是长视频领路触及多个本事难点:万古分牵记督察艰辛、多模态信息整合复杂、器具使用才能不及。跟着视频长度加多,总共模子的阐扬都会权贵着落,这反应了刻下本事的局限性。
Q3:LongShOTAgent是何如责任的?
A:LongShOTAgent遴荐模块化瞎想,包含一个轻量级合作器和多个专科模块。它先对长视频进行预处理和索引,配置多模态数据库,然后凭证查询需求智能检索关系片断,终末调用相宜的专科模块进行分析并整合效果。这种瞎想在不加多磨砺的情况下权贵提高了性能。