Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

新的苹果论文揭示了人工智能如何跟踪你的日常琐事

Kerem GülenbyKerem Gülen
23 11 月, 2025
in Research
Home Research
Share on FacebookShare on Twitter

苹果研究人员 发表了一项研究 详细介绍大型语言模型 (LLM) 如何解释音频和运动数据以识别用户活动,重点关注用于活动识别的后期多模态传感器融合。这篇题为“使用 LLM 进行后期多模态传感器融合进行活动识别”的论文,由 Ilker Demirel、Karan Ketankumar Thakkar、Benjamin Elizalde、Miquel Espi Marques、Shirley Ren 和 Jaya Narain 撰写,已被 NeurIPS 2025 的健康时间序列学习研讨会接受。该研究探索将 LLM 分析与传统传感器数据相结合,以增强活动分类。研究人员表示,“传感器数据流为下游应用程序提供了有关活动和上下文的有价值的信息,尽管集成补充信息可能具有挑战性。我们表明,大型语言模型(LLM)可用于后期融合,以根据音频和运动时间序列数据进行活动分类。”他们从 Ego4D 数据集中整理了一个数据子集,用于识别各种活动,包括家庭活动和运动。经评估的法学硕士在没有进行特定任务训练的情况下,取得了 12 类零分类和单样本分类 F1 分数,远远高于偶然性。通过基于 LLM 的特定模态模型融合进行零样本分类,可实现多模态时间应用,并为共享嵌入空间提供有限的对齐训练数据。基于 LLM 的融合允许模型部署,而无需针对特定应用程序的多模态模型额外的内存和计算。该研究强调了法学硕士从基本音频和运动信号推断用户活动的能力,通过一个例子展示了更高的准确性。至关重要的是,法学硕士并没有直接输入原始音频。相反,它收到由音频模型和基于 IMU 的运动模型生成的简短文本描述,该模型通过加速度计和陀螺仪数据跟踪运动。在这项研究中,研究人员使用了 Ego4D,这是一个包含数千小时第一人称视角媒体的数据集。他们通过搜索叙述性描述,从 Ego4D 中收集了日常活动的数据集。精心策划的数据集包括来自 12 项高级活动的 20 秒样本:选择这些活动是为了涵盖家庭和健身任务,并基于它们在更大的 Ego4D 数据集中的流行程度。音频和运动数据通过较小的模型进行处理,以生成文本标题和类别预测。然后将这些输出输入不同的法学硕士,特别是 Gemini-2.5-pro 和 Qwen-32B,以评估活动识别的准确性。 Apple 在两种场景下比较了模型性能:模型从 12 个预定义活动中进行选择的封闭式测试,以及不提供选项的开放式测试。每次测试都使用了音频字幕、音频标签、IMU 活动预测数据和额外上下文的各种组合。研究人员指出,这些结果为结合活动和健康数据的多个模型提供了见解。当原始传感器数据不足以提供用户活动的清晰图像时,这种方法特别有用。 Apple 还发布了补充材料,包括 Ego4D 分段 ID、时间戳、提示和一次性示例,以方便其他研究人员重现。


特色图片来源

Tags: 人工智能自我4d苹果

Related Posts

科学家发现超过17,000个新物种

科学家发现超过17,000个新物种

26 12 月, 2025
GPT-5.2 科学得分超过专家博士基线 92%

GPT-5.2 科学得分超过专家博士基线 92%

24 12 月, 2025
为什么 DIG AI 是 2025 年最危险的恶意 AI

为什么 DIG AI 是 2025 年最危险的恶意 AI

23 12 月, 2025
研究人员突破离子瓶颈,钠离子电池更接近快速充电

研究人员突破离子瓶颈,钠离子电池更接近快速充电

19 12 月, 2025
抓住2万亿美元的幽灵:人工智能正在改写金融犯罪规则

抓住2万亿美元的幽灵:人工智能正在改写金融犯罪规则

15 12 月, 2025
法学硕士在英语与中文提示中表现出明显的文化偏见

法学硕士在英语与中文提示中表现出明显的文化偏见

15 12 月, 2025
Please login to join discussion

Recent Posts

  • 阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态
  • Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时
  • 华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"
  • NVIDIA 在 GitHub 上开源 CUDA Tile IR
  • MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.