苹果研究人员 发表了一项研究 详细介绍大型语言模型 (LLM) 如何解释音频和运动数据以识别用户活动,重点关注用于活动识别的后期多模态传感器融合。这篇题为“使用 LLM 进行后期多模态传感器融合进行活动识别”的论文,由 Ilker Demirel、Karan Ketankumar Thakkar、Benjamin Elizalde、Miquel Espi Marques、Shirley Ren 和 Jaya Narain 撰写,已被 NeurIPS 2025 的健康时间序列学习研讨会接受。该研究探索将 LLM 分析与传统传感器数据相结合,以增强活动分类。研究人员表示,“传感器数据流为下游应用程序提供了有关活动和上下文的有价值的信息,尽管集成补充信息可能具有挑战性。我们表明,大型语言模型(LLM)可用于后期融合,以根据音频和运动时间序列数据进行活动分类。”他们从 Ego4D 数据集中整理了一个数据子集,用于识别各种活动,包括家庭活动和运动。经评估的法学硕士在没有进行特定任务训练的情况下,取得了 12 类零分类和单样本分类 F1 分数,远远高于偶然性。通过基于 LLM 的特定模态模型融合进行零样本分类,可实现多模态时间应用,并为共享嵌入空间提供有限的对齐训练数据。基于 LLM 的融合允许模型部署,而无需针对特定应用程序的多模态模型额外的内存和计算。该研究强调了法学硕士从基本音频和运动信号推断用户活动的能力,通过一个例子展示了更高的准确性。至关重要的是,法学硕士并没有直接输入原始音频。相反,它收到由音频模型和基于 IMU 的运动模型生成的简短文本描述,该模型通过加速度计和陀螺仪数据跟踪运动。在这项研究中,研究人员使用了 Ego4D,这是一个包含数千小时第一人称视角媒体的数据集。他们通过搜索叙述性描述,从 Ego4D 中收集了日常活动的数据集。精心策划的数据集包括来自 12 项高级活动的 20 秒样本:选择这些活动是为了涵盖家庭和健身任务,并基于它们在更大的 Ego4D 数据集中的流行程度。音频和运动数据通过较小的模型进行处理,以生成文本标题和类别预测。然后将这些输出输入不同的法学硕士,特别是 Gemini-2.5-pro 和 Qwen-32B,以评估活动识别的准确性。 Apple 在两种场景下比较了模型性能:模型从 12 个预定义活动中进行选择的封闭式测试,以及不提供选项的开放式测试。每次测试都使用了音频字幕、音频标签、IMU 活动预测数据和额外上下文的各种组合。研究人员指出,这些结果为结合活动和健康数据的多个模型提供了见解。当原始传感器数据不足以提供用户活动的清晰图像时,这种方法特别有用。 Apple 还发布了补充材料,包括 Ego4D 分段 ID、时间戳、提示和一次性示例,以方便其他研究人员重现。





