苹果声称 M5 运行 AI 模型的速度比 M4 快近 30%

苹果是定位得益于 MLX 框架和芯片内置的 GPU 神经加速器的升级，搭载 M5 的新款 MacBook Pro 成为运行和试验大型语言模型的能力更强的机器。对于越来越喜欢直接在 Apple 芯片硬件上工作的研究人员和开发人员来说，该公司将 M5 系列视为设备上推理性能的有意义的一步，特别是对于法学硕士和其他以矩阵运算为主的工作负载。这项工作的核心是 MLX，Apple 专门为其统一内存架构设计的开源阵列框架。 MLX 为数值计算提供类似 NumPy 的接口，支持神经网络的训练和推理，并允许开发人员在 CPU 和 GPU 执行之间无缝移动，而无需在不同内存池之间传输数据。它适用于所有 Apple 芯片系统，但最新的 macOS Beta 通过利用 M5 GPU 内的专用矩阵乘法单元解锁了新的加速层。这些神经加速器通过 Metal 4 中的 TensorOps 公开，并使 MLX 能够获得 Apple 认为对于大型张量乘法主导的工作负载至关重要的性能。 MLX 之上是 MLX LM，这是一个用于文本生成和微调的包，支持 Hugging Face 上托管的大多数语言模型。用户可以通过 pip 安装它，从终端发起聊天会话，并直接在设备上量化模型。量化是一项核心功能：将 7B 参数 Mistral 模型转换为 4 位只需几秒钟，从而显着减少内存需求，同时保留消费计算机的可用性。

图片：苹果

为了展示 M5 的优势，Apple 对多个型号进行了基准测试，包括 Qwen 1.7B 和 8B (BF16)、4 位量化 Qwen 8B 和 14B，以及两种专家混合架构：Qwen 30B（3B 主动）和 GPT-OSS 20B (MXFP4)。结果重点关注从 4,096 个令牌提示中生成 128 个附加令牌时的第一个令牌时间 (TTFT) 和生成速度。 M5 的神经加速器显着改善了 TTFT，将密集 14B 模型的等待时间缩短到 10 秒以下，将 30B MoE 的等待时间缩短到 3 秒以下。 Apple 报告称，与上一代 M4 相比，TTFT 速度提高了 3.3 倍到 4 倍。随后的代币生成（受到内存带宽而不是计算的限制）会看到较小但一致的增益，约为 19-27%，与 M5 的 28% 带宽增长一致（153GB/s 与 M4 上的 120GB/s）。这些测试还强调了有多少模型容量适合统一内存。 24GB MacBook Pro 可以托管 BF16 中的 8B 型号或 4 位 30B MoE，并有剩余空间，使两种情况下的总使用量保持在 18GB 以下。苹果表示，同样的加速器优势不仅限于语言模型。例如，使用 FLUX-dev-4bit（12B 参数）生成 1024×1024 图像在 M5 上的运行速度比 M4 快 3.8 倍以上。随着 MLX 不断添加功能并扩大模型支持，该公司相信更多的 ML 研究社区将不仅将 Apple 芯片视为开发环境，而且将其视为可行的推理和实验平台。

特色图片来源

Tags: 米5 精选苹果

苹果声称 M5 运行 AI 模型的速度比 M4 快近 30%

Related Posts

微软在 Windows 11 中测试 Copilot 新的 PC 洞察功能

OpenAI 退役 Atlas 浏览器，专注于新的 ChatGPT 超级应用

Pixel 11 泄漏显示大胆的洋红色和桃色

Windows 11 搜索框变得更少混乱和更多控制

X算法更新旨在让回复感觉更友好

小米推出SkyNomad N90增程SUV

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

苹果声称 M5 运行 AI 模型的速度比 M4 快近 30%

Related Posts

微软在 Windows 11 中测试 Copilot 新的 PC 洞察功能

OpenAI 退役 Atlas 浏览器，专注于新的 ChatGPT 超级应用

Pixel 11 泄漏显示大胆的洋红色和桃色

Windows 11 搜索框变得更少混乱和更多控制

X算法更新旨在让回复感觉更友好

小米推出SkyNomad N90增程SUV

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us