双精度浮点计算(FP64)支撑着现代飞机飞行、火箭发射、疫苗研发,甚至核武器运行。但英伟达并未构建专用硬件来处理这种关键数据类型,而是依靠仿真技术来提升高性能计算和科学计算应用的性能,这是AMD在最近几代产品中领先的领域。 需要注意的是,这种仿真并未完全替代英伟达GPU中的硬件FP64。英伟达新发布的Rubin GPU仍能提供约33 teraFLOPS的峰值FP64性能,但这
![]()
双精度浮点计算(FP64)支撑着现代飞机飞行ღღ✿★、火箭发射ღღ✿★、疫苗研发ღღ✿★,甚至核武器运行ღღ✿★。但英伟达并未构建专用硬件来处理这种关键数据类型ღღ✿★,而是依靠仿真技术来提升高性能计算和科学计算应用的性能ღღ✿★,这是AMD在最近几代产品中领先的领域ღღ✿★。
需要注意的是ღღ✿★,这种仿真并未完全替代英伟达GPU中的硬件FP64ღღ✿★。英伟达新发布的Rubin GPU仍能提供约33 teraFLOPS的峰值FP64性能ღღ✿★,但这实际上比四年前的H100少了一个teraFLOPღღ✿★。
如果在英伟达CUDA库中启用软件仿线 teraFLOPS的FP64矩阵性能ღღ✿★。这是其即将淘汰的Blackwell加速器硬件性能的4.4倍ღღ✿★。
从纸面数据看ღღ✿★,Rubin不仅是英伟达有史以来最强大的AI加速器ღღ✿★,也是多年来科学计算领域最强大的GPUღღ✿★。
英伟达超级计算产品高级总监Dan Ernst表示ღღ✿★:通过与合作伙伴的多项研究以及我们自己的内部调查ღღ✿★,我们发现仿真获得的精度至少与张量核心硬件的精度一样好ღღ✿★。
AMD研究员Nicholas Malaya表示ღღ✿★:它在某些基准测试中表现不错ღღ✿★,但在真实的物理科学模拟中是否表现良好并不明显ღღ✿★。他认为ღღ✿★,虽然FP64仿真确实值得进一步研究和实验ღღ✿★,但还没有为实际应用做好准备ღღ✿★。
即使芯片设计推向更低精度的数据类型ღღ✿★,FP64仍然是科学计算的黄金标准ღღ✿★,这是有充分理由的ღღ✿★。FP64在动态范围方面无与伦比ღღ✿★,能够表达超过18.44万亿亿(2^64)个独特值ღღ✿★。
相比之下ღღ✿★,像DeepSeek R1这样的现代AI模型通常在FP8下训练ღღ✿★,只能表达可怜的256个独特值ღღ✿★。利用神经网络的一般同质性ღღ✿★,可以使用块浮点数据类型如MXFP8或MXFP4来扩展其动态范围ღღ✿★。
这对定义大语言模型的模糊数学来说是可以的公海赌赌船ღღ✿★,但无法替代FP64ღღ✿★,特别是当涉及生死攸关的情况时ღღ✿★。
与高度容错的AI工作负载不同ღღ✿★,HPC仿真依赖于质量和能量守恒等基本物理原理ღღ✿★。Malaya说ღღ✿★:一旦开始产生错误ღღ✿★,这些有限错误就会传播ღღ✿★,并导致爆炸等问题ღღ✿★。
使用低精度(通常是整数数据类型)来仿线的想法并不新鲜ღღ✿★。Ernst说ღღ✿★:仿线年代中期就有了仿真ღღ✿★,那时我们还没有浮点硬件今日刚开传奇ღღ✿★。
这个过程需要更多操作才能完成ღღ✿★,通常会因此产生严重的性能损失今日刚开传奇ღღ✿★,但即使硬件缺乏专用浮点单元(FPU)ღღ✿★,也能实现浮点数学运算ღღ✿★。
到80年代ღღ✿★,FPU变得普遍ღღ✿★,对仿真的需求基本消失ღღ✿★。然而ღღ✿★,2024年初ღღ✿★,东京和芝浦工业大学的研究人员发表了一篇论文ღღ✿★,通过展示FP64矩阵操作可以分解为多个INT8操作来复兴这一概念ღღ✿★,当在英伟达张量核心上运行时ღღ✿★,可以实现高于原生的性能ღღ✿★。
这种方法通常被称为Ozaki方案澳门ღღ✿★!ღღ✿★,它是英伟达去年底发布的FP64仿真库的基础ღღ✿★。正如Ernst迅速指出的那样ღღ✿★:它仍然是FP64ღღ✿★。不是混合精度ღღ✿★。只是从硬件角度以不同方式完成和构建的ღღ✿★。
现代GPU配备了低精度张量核心ღღ✿★。即使没有Rubin张量核心中的高级自适应压缩ღღ✿★,芯片也能提供35 petaFLOPS的密集FP4计算ღღ✿★。相比之下ღღ✿★,在FP64下ღღ✿★,芯片速度慢了1000多倍ღღ✿★。
这些低精度张量核心构建和运行效率很高公海赌赌船ღღ✿★,所以问题变成了为什么不用它们来做FP64ღღ✿★,Ernst解释说ღღ✿★:我们有硬件ღღ✿★,让我们尝试使用它ღღ✿★。这就是超级计算的历史ღღ✿★。
虽然英伟达热衷于突出FP64仿真在其Rubin甚至更老的Blackwell GPU上实现的能力ღღ✿★,但竞争对手AMD认为这种方法还没有完全准备好ღღ✿★。
根据Malaya的说法ღღ✿★,FP64仿真在条件良好的数值系统中效果最好ღღ✿★,高性能Linpack(HPL)基准就是一个典型例子ღღ✿★。但当你看材料科学ღღ✿★、燃烧代码欢迎来到公海 欢迎来到赌船!ღღ✿★!ღღ✿★、带状线性代数系统等时ღღ✿★,它们是条件更差的系统ღღ✿★,突然就开始崩溃了ღღ✿★,他说ღღ✿★。
AMD的主要症结之一是FP64仿真并不完全符合IEEE标准ღღ✿★。英伟达的算法不考虑正零与负零ღღ✿★、非数字错误或无限数字错误等情况ღღ✿★。
因此ღღ✿★,用于仿真更高精度的中间操作中的小错误可能导致扰动ღღ✿★,从而影响最终结果ღღ✿★,Malaya解释说公海赌网平台ღღ✿★,ღღ✿★。
解决这个问题的一种方法是增加使用的操作数量ღღ✿★。然而ღღ✿★,在某个点上今日刚开传奇ღღ✿★,所需的操作数量将超过仿真可能提供的任何优势ღღ✿★。
所有这些操作也占用内存公海赌赌船ღღ✿★。Malaya说ღღ✿★:我们有数据显示ღღ✿★,在Ozaki中仿线矩阵大约使用了两倍的内存容量ღღ✿★。
基于这些原因ღღ✿★,AMD正将注意力集中在依赖双精度和单精度应用的专用硬件上ღღ✿★。其即将推出的MI430X利用AMD的小芯片架构来增强双精度和单精度硬件性能ღღ✿★。
Ernst并不忽视像Ozaki方案这样的FP64仿真算法面临的挑战ღღ✿★,他很清楚英伟达实现中的差距ღღ✿★。
Ernst认为ღღ✿★,对大多数HPC从业者来说ღღ✿★,正负零这样的问题并不是什么大问题ღღ✿★。同时ღღ✿★,英伟达已经开发了补充算法来检测和缓解非数字ღღ✿★、无限数字和低效仿真操作等问题ღღ✿★。
至于内存消耗ღღ✿★,Ernst承认可能会稍高一些ღღ✿★,但强调这种开销是相对于操作而不是应用程序本身公海赌赌船ღღ✿★。他说ღღ✿★,大多数时候ღღ✿★,我们谈论的矩阵最多只有几个GB大小ღღ✿★。
因此ღღ✿★,虽然FP64仿真确实不符合IEEE标准ღღ✿★,但这是否真的重要很大程度上取决于具体应用今日刚开传奇ღღ✿★,Ernst争辩说ღღ✿★。大多数IEEE合规排序规则发挥作用的用例在矩阵ღღ✿★、矩阵乘法情况下不会出现ღღ✿★。也没有DGEMM倾向于实际遵循那个规则ღღ✿★,他说ღღ✿★。
即使英伟达能够克服FP64仿真的潜在陷阱ღღ✿★,这也不能改变该方法只对依赖密集通用矩阵乘法(DGEMM)操作的HPC应用子集有用的事实ღღ✿★。
他说ღღ✿★:在我们的分析中ღღ✿★,绝大多数真实HPC工作负载依赖向量FMAღღ✿★,而不是DGEMMღღ✿★。我不会说这是市场的一小部分ღღ✿★,但实际上是一个利基领域ღღ✿★。
对于向量密集型工作负载ღღ✿★,如计算流体动力学ღღ✿★,英伟达的Rubin GPU被迫在芯片CUDA核心中较慢的FP64向量加速器上运行ღღ✿★。
然而ღღ✿★,正如Ernst迅速指出的那样ღღ✿★:更多的FLOPS并不总是意味着有用的FLOPSღღ✿★。倾向于在FP64向量引擎上运行的相同工作负载很少能够利用芯片理论性能的一小部分ღღ✿★,这完全是因为内存跟不上ღღ✿★。
我们在TOP500的向量密集型高性能共轭梯度基准中清楚地看到了这一点ღღ✿★,由于内存子系统提供的更高的比特每FLOPS比率ღღ✿★,CPU往往占主导地位ღღ✿★。
Rubin可能无法提供最快的FP64向量性能ღღ✿★,但凭借22 TB/s的HBM4ღღ✿★,它在这些工作负载中的实际性能很可能比规格表显示的要高得多ღღ✿★。
随着大量由英伟达Blackwell和Rubin GPU驱动的新超级计算机将在未来几年上线仿真可行性的任何问题都将尽快得到检验ღღ✿★。
由于这种仿真不依赖于特定硬件ღღ✿★,随着研究人员发现该技术擅长或困难的场景ღღ✿★,算法有可能随时间改进公海赌赌船ღღ✿★。
尽管Malaya有所担忧ღღ✿★,他指出AMD也在通过软件标志调查在MI355X等芯片上使用FP64仿真ღღ✿★,以查看它可能适用的地方ღღ✿★。
他告诉我们ღღ✿★,IEEE合规性将大大有助于验证这种方法ღღ✿★,确保从仿真得到的结果与从专用硅得到的结果相同ღღ✿★。
Malaya说ღღ✿★:如果我能对合作伙伴说运行这两个二进制文件ღღ✿★:这个给你与另一个相同的答案并且更快ღღ✿★,是的ღღ✿★,在底层我们正在做一些方案——我认为这是一个令人信服的论点ღღ✿★,表明它已经为黄金时间做好了准备ღღ✿★。
他指出ღღ✿★,可能对某些应用来说ღღ✿★,仿真比其他应用更可靠ღღ✿★。作为一个社区ღღ✿★,我们应该建立一个应用篮子来查看ღღ✿★。我认为这是这里前进的方式ღღ✿★。
Aღღ✿★:FP64仿真技术是指使用低精度数据类型(如INT8)来模拟双精度浮点计算的方法ღღ✿★。该技术基于Ozaki方案ღღ✿★,将FP64矩阵操作分解为多个低精度操作ღღ✿★,在英伟达张量核心上运行时能实现比原生硬件更高的性能ღღ✿★。英伟达声称通过软件仿线 teraFLOPS的FP64矩阵性能ღღ✿★。
Aღღ✿★:FP64仿真存在几个局限性ღღ✿★:不完全符合IEEE标准今日刚开传奇ღღ✿★,无法处理正负零ღღ✿★、非数字错误等特殊情况ღღ✿★;内存消耗约为传统方法的两倍ღღ✿★;主要适用于矩阵密集型应用ღღ✿★,对60-70%的向量密集型HPC工作负载效果有限ღღ✿★;在条件较差的数值系统中容易出现精度问题ღღ✿★。
Aღღ✿★:AMD对FP64仿真技术持谨慎态度ღღ✿★。AMD研究员认为该技术在某些基准测试中表现不错ღღ✿★,但在真实物理科学模拟中的效果并不明显ღღ✿★,还没有为实际应用做好准备ღღ✿★。不过AMD也在MI355X等芯片上调查FP64仿真的应用可能性ღღ✿★,同时更专注于开发专用的双精度和单精度硬件ღღ✿★。
特别声明ღღ✿★:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布今日刚开传奇ღღ✿★,本平台仅提供信息存储服务ღღ✿★。
山东青岛95后女设计师参观父母新房ღღ✿★,进门两眼一黑ღღ✿★,全程尖叫ღღ✿★:太丑了ღღ✿★,好炸裂ღღ✿★!全程把关防不住老爸灵机一动
我们将与您分享最新的研究成果今日刚开传奇ღღ✿★、技术动态ღღ✿★、行业趋势以及实用教程ღღ✿★,帮助您更好地理解和应用这些前沿技术ღღ✿★。
她穿一身大红参加葬礼ღღ✿★,浪漫又感人?线+女人别穿大妈装ღღ✿★!看看这3个“减龄穿搭公式”今日刚开传奇ღღ✿★,显嫩还从容