Apple RealLM 据称在设备性能方面击败了 GPT-4

Apple 分享了一些关于其大型语言模型 (LLM)：ReaLM 的有趣见解。 Apple 旨在通过 RealLM 改变我们与设备的日常交互，提供更智能、更直观的用户体验，与我们的日常生活无缝集成。正如本研究出版物所证明的那样，库比蒂诺公司不断投资于人工智能的进步。

Apple 的 RealLM 与其他法学硕士竞争

Apple 的人工智能专家概述了一个系统，该系统使 Siri 能够超越单纯的图像识别功能。他们还声称，根据他们的内部基准，该系统不仅可以与 GPT-4 竞争，还可以超越：

模型	转化率	合成器	屏幕	看不见
马尔斯	92.1	99.4	83.5	84.5
GPT-3.5	84.1	34.2	74.1	67.5
GPT-4	97.0	58.7	90.1	98.4
真实ALM-80M	96.7	99.5	88.9	99.3
真实ALM-250M	97.8	99.8	90.6	97.2
真实ALM-1B	97.9	99.7	91.4	94.8
真实ALM-3B	97.9	99.8	93.0	97.8

这一发展预示着未来西里变得更加智能和高效。 Apple 似乎对其该项目的执行持乐观态度，在与 OpenAI 的 ChatGPT 3.5 和 4.0 模型进行基准测试时展示了其速度：

“作为另一个基线，我们运行 ChatGPT 的 GPT-3.5（Brown 等人，2020；Ouyang 等人，2022）和 GPT-4（Achiam 等人，2023）变体，已于 2024 年 1 月 24 日发布，情境学习。正如在我们的设置中一样，我们的目标是让这两种变体从可用的集合中预测实体列表。对于仅接受文本的 GPT-3.5，我们的输入仅包含提示；然而，对于 GPT-4，它也具有图像上下文化的能力，我们为系统提供屏幕参考分辨率任务的屏幕截图，我们发现这有助于显着提高性能。”

超级大脑Siri

苹果在研究中引入了 RealLM，作为 Siri 的重大增强功能，本质上是为其配备了“超级大脑”。此次升级显着提高了 Siri 通过分析屏幕内容（例如短信和图像）理解用户请求的能力，从而更准确地预测用户的需求。 RealLM 还跟踪与 Siri 正在进行的对话，使其能够回忆之前提到的内容以获得更好的帮助。

RealLM 本质上充当无所不在的观察者，能够检测警报或音乐等背景活动，并相应地调整其交互。

该研究包括展示其功能的示例对话。

扬声器	对话
用户	显示我附近的药店。
代理人	这是我找到的一份清单。
代理人	…（列出的清单）
用户	（例如 1）致电 Rainbow Rd 的电话。
用户	(例2) 呼叫最下面的一个。
用户	（例如 3）拨打此号码（屏幕上显示）。