Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Maia 100,微软在 AI 硬件大战中的最新武器

Eray EliaçıkbyEray Eliaçık
4 9 月, 2024
in Artificial Intelligence, News
Home Artificial Intelligence

微软找到了与之竞争的方法 英伟达,Maia 100 AI加速器。这款新芯片代表了挑战 NVIDIA 的主导地位 通过提供专为高性能云计算而设计的先进功能,微软在 AI 硬件领域取得了重大进展。借助 Maia 100,微软旨在为管理大规模 AI 工作负载提供更具成本效益和效率的解决方案。

目前有关微软 Maia 100 的所有信息

微软的 Maia 100 是一款功能强大的新型 AI 加速器,旨在处理云端的大型 AI 任务。 2024 年热门芯片, 这款芯片在提高 AI 基础设施的成本效益方面迈出了一大步,具体方法如下:

芯片设计与技术

  • 尺寸和制造:Maia 100芯片尺寸约为820mm²,采用台积电先进的N5工艺制造,采用COWOS-S技术,可有效将芯片与其他组件集成。
  • 内存和带宽:该芯片拥有大量内存,可以处理大量数据。它拥有大型片上 SRAM(一种快速内存)和四个 HBM2E 内存芯片。它们共同提供每秒 1.8 TB 的数据传输速度和 64 GB 的内存容量。这种设置对于快速处理大型 AI 数据集至关重要。

性能和电源效率

  • 用电量:Maia 100 可处理高达 700 瓦的功率,但为了提高效率,设置为使用 500 瓦。这样,它既能发挥良好性能,又能控制功耗。
  • 张量单元:该芯片包含一个高速张量单元,用于处理复杂的 AI 任务,例如训练模型和进行预测。它可以处理不同类型的数据,包括微软于 2023 年推出的一种名为 MX 的新格式。该单元旨在高效地同时处理许多计算。
  • 矢量处理器:Maia 100 具有矢量处理器,支持各种数据类型,例如 FP32(32 位浮点)和 BF16(16 位浮点)。这有助于执行各种机器学习任务。
  • DMA 引擎:直接内存访问 (DMA) 引擎有助于快速移动数据,并支持拆分张量(数据块)的不同方式,从而提高效率。
微软的Maia 100 AI加速器旨在以高性能、高性价比的云计算与NVIDIA竞争,提供尖端的效率和功能。
(信用)

数据处理和效率

  • 数据存储与压缩:Maia 100 使用低精度数据存储和压缩引擎来减少需要移动的数据量。这有助于更有效地处理大型 AI 任务。
  • 便笺簿:它具有由软件管理的大型 L1 和 L2 暂存器(临时存储区域),以确保高效使用数据并节省电力。
  • 联网:该芯片支持高速以太网连接,在某些方面可处理高达 4800 Gbps 的数据,在其他方面可处理 1200 Gbps 的数据。这种自定义网络协议可确保可靠、快速的数据传输,并且还通过 AES-GCM 加密确保安全。

伊隆·马斯克的 Nvidia AI 芯片订单太大,无法处理


软件工具和集成

  • Maia 软件开发工具包:微软提供了一套名为 Maia SDK 的工具,以便更轻松地使用 Maia 100。这些工具包括:
    • 框架集成:一个支持 Eager 模式(用于快速开发)和图形模式(以获得更好的性能)的 PyTorch 后端。
    • 开发人员工具:用于调试、性能调整和验证模型的工具,有助于提高AI任务的效率。
    • 编译器:Maia 支持两种编程模型:Triton(一种易于使用的深度学习语言)和 Maia API(一种高性能的自定义模型)。
    • 内核和集合库:为机器学习提供优化的计算和通信内核,并提供创建自定义内核的选项。
    • 主机/设备运行时:管理内存分配、运行程序、调度任务和设备管理。
微软的Maia 100 AI加速器旨在以高性能、高性价比的云计算与NVIDIA竞争,提供尖端的效率和功能。
(来源:微软)

编程模型和数据处理

  • 异步编程:Maia 支持使用信号量进行异步编程,这有助于将计算与数据传输重叠以提高效率。
  • 编程模型:开发人员可以选择:
    • 海卫一:一种适用于 GPU 和 Maia 的简单深度学习计划工具。它可自动处理内存和同步。
    • Maia API:针对需要对性能进行精细控制、需要更多代码和管理的用户提供更详细的编程模型。
  • 数据流优化:Maia 使用基于 Gather 的方法进行矩阵乘法 (GEMM),而不是传统的 All-Reduce 方法。通过直接在 SRAM(快速内存)中组合结果,可以加快处理速度,从而减少延迟并提高性能。
  • SRAM 使用情况:该芯片使用 SRAM 来临时存储数据和结果,从而减少了对较慢内存访问的需求并提高了整体性能。

灵活性和可移植性

Maia 100 只需进行少量更改即可运行 PyTorch 模型。PyTorch 后端支持开发(eager 模式)和高性能(图形模式),因此可以轻松地在不同的硬件设置之间移动模型。

需要回顾一下 Maia 100 的规格吗?

规格 细节
芯片尺寸 ~820平方毫米
制造技术 采用 COWOS-S 中介层的台积电 N5 工艺
片上 SRAM 大容量,快速访问数据
记忆 64 GB HBM2E(高带宽内存)
总带宽 每秒 1.8 TB
热设计功率(TDP) 最高支持 700W,预配置 500W
张量单元 高速,支持MX格式,16xRx16
矢量处理器
定制超标量引擎,支持FP32和BF16
DMA 引擎 支持各种张量分片方案
数据压缩 包括提高效率的压缩引擎
以太网带宽 高达 4800 Gbps 全收集,1200 Gbps 全到全
网络协议 自定义 RoCE 类 AES-GCM 加密
编程模型
Triton(领域特定语言)、Maia API(自定义模型)
便笺簿 大型 L1 和 L2,软件管理
SRAM 使用情况 用于缓冲激活和结果
软件开发工具包
包括 PyTorch 后端、调试工具、编译器和运行时管理
数据流优化 基于聚集的矩阵乘法 (GEMM)

就这些!总而言之,微软的 Maia 100 AI 加速器将自己定位为 NVIDIA 在 AI 硬件市场上的直接竞争对手。凭借其先进的架构和性能特点,Maia 100 致力于为处理大规模 AI 任务提供可行的替代方案。


特色图片来源:微软

Tags: 人工智能芯片微软玛雅100英伟达

Related Posts

Alphaevolve:Google的新AI如何以自我纠正为目标

Alphaevolve:Google的新AI如何以自我纠正为目标

15 5 月, 2025
Tiktok正在实施AI生成的ALT文本,以提高可获得性

Tiktok正在实施AI生成的ALT文本,以提高可获得性

15 5 月, 2025
特朗普迫使苹果重新考虑其印度iPhone策略

特朗普迫使苹果重新考虑其印度iPhone策略

15 5 月, 2025
YouTube的AI现在知道您何时要购买

YouTube的AI现在知道您何时要购买

15 5 月, 2025
SoundCloud首席执行官承认AI术语还不够清楚,因此新承诺

SoundCloud首席执行官承认AI术语还不够清楚,因此新承诺

15 5 月, 2025
准备好一个真正认识你的chatgpt了吗?

准备好一个真正认识你的chatgpt了吗?

14 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.