苹果是 定位 得益于 MLX 框架和芯片内置的 GPU 神经加速器的升级,搭载 M5 的新款 MacBook Pro 成为运行和试验大型语言模型的能力更强的机器。对于越来越喜欢直接在 Apple 芯片硬件上工作的研究人员和开发人员来说,该公司将 M5 系列视为设备上推理性能的有意义的一步,特别是对于法学硕士和其他以矩阵运算为主的工作负载。这项工作的核心是 MLX,Apple 专门为其统一内存架构设计的开源阵列框架。 MLX 为数值计算提供类似 NumPy 的接口,支持神经网络的训练和推理,并允许开发人员在 CPU 和 GPU 执行之间无缝移动,而无需在不同内存池之间传输数据。它适用于所有 Apple 芯片系统,但最新的 macOS Beta 通过利用 M5 GPU 内的专用矩阵乘法单元解锁了新的加速层。这些神经加速器通过 Metal 4 中的 TensorOps 公开,并使 MLX 能够获得 Apple 认为对于大型张量乘法主导的工作负载至关重要的性能。 MLX 之上是 MLX LM,这是一个用于文本生成和微调的包,支持 Hugging Face 上托管的大多数语言模型。用户可以通过 pip 安装它,从终端发起聊天会话,并直接在设备上量化模型。量化是一项核心功能:将 7B 参数 Mistral 模型转换为 4 位只需几秒钟,从而显着减少内存需求,同时保留消费计算机的可用性。
图片:苹果为了展示 M5 的优势,Apple 对多个型号进行了基准测试,包括 Qwen 1.7B 和 8B (BF16)、4 位量化 Qwen 8B 和 14B,以及两种专家混合架构:Qwen 30B(3B 主动)和 GPT-OSS 20B (MXFP4)。结果重点关注从 4,096 个令牌提示中生成 128 个附加令牌时的第一个令牌时间 (TTFT) 和生成速度。 M5 的神经加速器显着改善了 TTFT,将密集 14B 模型的等待时间缩短到 10 秒以下,将 30B MoE 的等待时间缩短到 3 秒以下。 Apple 报告称,与上一代 M4 相比,TTFT 速度提高了 3.3 倍到 4 倍。随后的代币生成(受到内存带宽而不是计算的限制)会看到较小但一致的增益,约为 19-27%,与 M5 的 28% 带宽增长一致(153GB/s 与 M4 上的 120GB/s)。这些测试还强调了有多少模型容量适合统一内存。 24GB MacBook Pro 可以托管 BF16 中的 8B 型号或 4 位 30B MoE,并有剩余空间,使两种情况下的总使用量保持在 18GB 以下。苹果表示,同样的加速器优势不仅限于语言模型。例如,使用 FLUX-dev-4bit(12B 参数)生成 1024×1024 图像在 M5 上的运行速度比 M4 快 3.8 倍以上。随着 MLX 不断添加功能并扩大模型支持,该公司相信更多的 ML 研究社区将不仅将 Apple 芯片视为开发环境,而且将其视为可行的推理和实验平台。





