当狗吠叫吱吱作响的玩具或机械师突然停止讲话时,您不需要认知科学博士就可以弄清楚发生了什么,您只是观看,倾听和理解。但是对于多模式AI模型,这种简单的人反射仍然很难复制。尽管最近围绕着诸如GPT-4O和Gemini 1.5 Pro之类的“边境”模型进行了所有炒作,但其中大多数仍在被迫真正综合他们看到的东西时失败 和 听到。这正是Maverix试图解决的问题。
基准不足的地方,而maverix步骤
当今领先的多模式基准可能声称他们测试了现实世界中的推理,但其中许多作弊。他们奖励可以通过视觉或仅仅是文本成绩单来获得的模型,而不是强迫他们像人类那样整合多种感官。 maverix (用于多模式的视听评估推理指数的缩写)是一个新的基准,最终通过在700个视频和2500个以上的问题上紧密耦合的音频推理来提高标准。
将其视为AI常识的速成课程:如果您听到嗡嗡声并在相机附近看到蜜蜂,则可能应该排除“在屏幕外机械设备”。但是Maverix不仅是手工模型的一些简单的难题。它带有八项选项多项选择问题(杀死猜测)和开放式提示(测试真正的理解),将模型超出模型识别到全面的认知协调性。
现实世界中的问题,真正的人类复杂性
Maverix的问题的设计类似于对机器的心理Rorschach测试,包括因果推理,情感推断,空间意识和动态环境。想象两个人争论的视频。他们是为真实而战,在电影中表演,还是只是模仿WWE摔跤?这个答案可以在巴掌上取决 和 笑声。你需要看看 和 听到理解。
为了使这一切都起作用,Maverix团队建立了一条细致的管道,将人类专业知识与AI验证融合在一起。每个视频都带有字幕,分类的声音(语音,音乐,自然噪音)和注释的关键帧。每个问题都经过审查,以确保单次快捷方式(例如仅阅读字幕)不会剪切。如果模型可以在不使用两种方式的情况下回答,则该问题将被重写或抛弃。
那么,今天的AIS实际上表现如何?
不好。即使可以直接访问音频和视频,表现最好的gemini 1.5 Pro也达到了71.9%的精度。那与人类接近,但仍然在后面。人类具有完整的视听输入,以超过80%的速度计时。但这是踢球者:一些开源型号几乎没有破解30%。当您剥离音频或视频时,性能会像麦克风一样下降。
在模型必须生成自己的解释的开放式任务中,事情变得更加混乱。在GPT-4O判断的连贯性和推理中,平均模型仅得分仅为1.9。人类得分2.79。当任务涉及复杂的情感提示或屏幕外事件时,这种差距会越来越大 – 例如,猜测人群为何在扑克游戏中移动桌子,或者是两个舞者在战斗还是只是练习。
并非所有模型都以同样的方式挣扎
Maverix最揭示的贡献之一是它如何揭示实际的不同模型 依靠。 Gemini在获得原始音频时表现最好,而其他大多数模型则使用字幕更好。这说明了引擎盖下发生的事情 – 有些模型“听”,其他模型只是“阅读”。但是,两者都不适合整个人类水平的看法。
有趣的是,诸如购物之类的任务(结构化的事实数据很重要)在机器闪耀的地方。但是对于体育评论,游戏策略或解释人类情绪?人类将它们粉碎。这些差距表明,当前的AI在扫描目录方面要比解析随着时间的流逝而发展的社交细微差别或环境要好得多。
困难水平很重要,方式也很重要
简单的任务从多模式输入中获得了最大的推动作用 – 有些模型使用音频和视频来完善明显的答案。但是,当问题变得越来越困难时,许多模型都倾向于视觉并忽略了音频。例如,Claude 3.5十四行诗在具有多模式输入的简单视频中提高了41.5%,但在硬式视频中只有17%。
这突出了一个更深层次的问题:大多数模型并没有真正融合方式。他们正在堆叠他们。您可以同时给他们音频和视频,但是除非模型 需要 两者都可以解决任务,它会选择一个喜欢的人。 Maverix的目的是通过设计需要真正融合的问题来改变这一点,而答案则取决于声音和视觉之间的相互作用。
为了弥合性能差距,我们需要更好的体系结构,这些架构将音频视为事后的想法。我们需要新的培训策略,以奖励同步的理解而不是孤立的预测。最重要的是,我们需要像Maverix这样的基准,这些基准不能满足于易于衡量的东西,但请问有关机器的真实问题 理解。
因此,下次您的AI助手弄乱了一个简单的命令或误读语调时,请记住:它可能没有聋了 – 只是尚未通过maverix测试。