Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Nvidia 科学计算模拟 FP64 达到 200 teraFLOP

Kerem GülenbyKerem Gülen
19 1 月, 2026
in News, Tech
Home News
Share on FacebookShare on Twitter

据介绍,Nvidia 正在采用软件模拟来增强其 AI 加速器中的双精度浮点计算 (FP64) 性能,以实现高性能计算 (HPC) 和科学应用 登记册。这一战略是在该公司推出 Rubin GPU 之际推出的,该 GPU 提供 33 teraFLOPS 峰值 FP64 性能,比 H100 GPU 降低了 1 teraFLOP。 Nvidia 的 CUDA 库可通过软件仿真实现高达 200 teraFLOPS 的 FP64 矩阵性能,比 Blackwell 加速器的硬件功能提高 4.4 倍。英伟达超级计算产品高级总监 Dan Ernst 表示,仿真精度可与张量核心硬件相媲美或超过。然而,AMD 研究员 Nicholas Malea 质疑模拟 FP64 与基准相比在物理科学模拟中的功效。 FP64 由于其动态范围而对于科学计算仍然至关重要,能够表达超过 18.44 千万个唯一值,而 FP8 在 AI 模型中使用 256 个唯一值。马来亚表示,与人工智能工作负载不同,高性能计算模拟需要高精度,以防止可能导致系统不稳定的错误传播。使用较低精度数据类型来模拟 FP64 的概念可以追溯到 20 世纪中叶。 2024 年初,东京和芝浦理工学院的研究人员发表论文,证明 FP64 矩阵运算可以在 Nvidia 张量核心上分解为多个 INT8 运算,实现高于原生的性能。这种方法被称为 Ozaki 方案,构成了去年年底发布的 Nvidia FP64 模拟库的基础。 Ernst 确认模拟计算保持 FP64 精度,仅硬件执行方法不同。现代 GPU 具有低精度张量核心,例如 Rubin 中的张量核心,可提供 35 petaFLOPS 的密集 FP4 计算。这些内核比 FP64 特定组件快 1,000 倍以上。 Ernst 解释说,这些低精度内核的效率促使人们探索它们在 FP64 仿真中的使用,这与利用可用硬件的超级计算的历史趋势保持一致。 AMD 对 FP64 模拟的准确性表示保留。 Malea 指出,该方法对于条件良好的数值系统(例如高性能 Linpack (HPL) 基准)表现良好,但在材料科学或燃烧代码中发现的条件较差的系统中可能会出现问题。他还强调,Nvidia 的 FP64 仿真算法并不完全符合 IEEE 标准,未能考虑到正零与负零或“不是数字”错误等细微差别。这些差异可能会导致小错误传播并影响最终结果。 Malea 补充说,Ozaki 方案大约使 FP64 矩阵的内存消耗增加了一倍。 AMD 即将推出的 MI430X 将利用其小芯片架构专门增强双精度和单精度硬件性能。 Ernst 承认存在一些局限性,但认为正/负零等问题对于大多数 HPC 从业者来说并不重要。 Nvidia 开发了补充算法来检测和缓解非数字和无限数字等问题。他表示,增加的内存开销与操作相关,而不是与整个应用程序相关,典型的矩阵为几 GB。 Ernst 认为,在矩阵乘法情况下,尤其是在 DGEMM 运算中,通常不会出现 IEEE 合规性问题。仿真主要有利于依赖密集通用矩阵乘法 (DGEMM) 运算的 HPC 应用程序子集。 Malaya 估计 60% 到 70% 的 HPC 工作负载,特别是那些依赖矢量 FMA 的工作负载,几乎看不到仿真带来的好处。对于计算流体动力学等矢量密集型工作负载,Nvidia 的 Rubin GPU 必须在其 CUDA 内核中使用速度较慢的 FP64 矢量加速器。 Ernst 反驳说,理论 FLOPS 并不总是转化为可用性能,特别是当内存带宽成为瓶颈时。 Rubin 具有 22 TB/s 的 HBM4 内存,尽管矢量 FP64 性能较慢,但预计将在这些工作负载中提供更高的实际性能。随着采用 Nvidia Blackwell 和 Rubin GPU 的新型超级计算机投入运行,FP64 仿真的可行性将得到测试。鉴于其基于软件的性质,这些算法可以随着时间的推移而改进。 Malaya 表示,AMD 还在通过软件标志探索 MI355X 等芯片上的 FP64 仿真。他强调,IEEE 合规性将通过保证结果与专用芯片的一致性来验证该方法。马来亚建议社区应该建立一套应用程序来评估不同用例的仿真可靠性。


特色图片来源

Tags: 英伟达

Related Posts

Substack 推出 Beta TV 应用程序,进入客厅

Substack 推出 Beta TV 应用程序,进入客厅

23 1 月, 2026
JBL 推出 AI 驱动的 BandBox 放大器

JBL 推出 AI 驱动的 BandBox 放大器

23 1 月, 2026
谷歌推出选择性加入 "个人智力" 适用于 AI Pro 和 Ultra 用户

谷歌推出选择性加入 "个人智力" 适用于 AI Pro 和 Ultra 用户

23 1 月, 2026
Spotify 推出人工智能驱动的提示播放列表

Spotify 推出人工智能驱动的提示播放列表

22 1 月, 2026
Snap 在 Family Center 更新中推出了精细的屏幕时间跟踪功能

Snap 在 Family Center 更新中推出了精细的屏幕时间跟踪功能

22 1 月, 2026
谷歌照片重新设计了沉浸式全屏轮播共享

谷歌照片重新设计了沉浸式全屏轮播共享

22 1 月, 2026
Please login to join discussion

Recent Posts

  • Barret Zoph 将领导 OpenAI 积极的商业转型
  • Substack 推出 Beta TV 应用程序,进入客厅
  • LiveKit 作为 ChatGPT 语音模式背后的引擎,估值达 10 亿美元
  • 收购 Bending Spoons 后,Vimeo 开始裁员
  • 亚马逊准备新一轮裁员,AWS和Prime Video受到冲击

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.