发布日期:2026-04-02 14:57 点击次数:84

英伟达BlackwellGPU代表了比年来最紧要的GPU微架构变革之一,但迄今短缺注重的官方白皮书。
盛名半导体参议机构SemiAnalysis历时数月,对Blackwell架构进行了系统性微基准测试,初次公开了该架构在AI使命负载下的硬件性能上限数据。
测试终局骄气,Blackwell在张量中枢(TensorCore)糊涂量、内存子系统治宽及新式2SMMMA教导等瑕玷维度上均接近表面峰值,但性能施展高度依赖教导体式建立,部分场景下存在显著的带宽瓶颈。这一发现对AI基础模范投资者和芯片采购方具有径直参考价值——架构后劲能否充分开释,取决于软件层面的细致调优。
SemiAnalysis已将关联基准测试代码库开源,测试所用B200节点由Nebius和Verda提供。参议团队同期告示,后续将扩张至TPUPallas内核、TrainiumNKI内核及AMDCDNA4汇编的基准测试。
架构中枢变化:TMEM引入与2SMMMA
从Hopper到Blackwell,英伟达对MMA关联教导的PTX空洞层进行了多项遑急诊治。
最显耀的变化是引入了张量内存(TMEM)用于存储MMA累加器。在此前架构中,线程隐式捏有MMA运算终局;Blackwell改为由软件在MMA作用域内显式经管TMEM,更正了线程与绸缪终局之间的统共权干系。
与此同期,tcgen05操作当前由单一线程代表通盘CTA(合营线程阵列)发出,而非此前Hopper架构中以warp或warpgroup为单元发出。这一变化在CuTeMMA原子中有径直体现:Blackwell使用ThrID=Layout,而Hopper使用ThrID=Layout。
Blackwell还引入了TPC作用域的TMA和MMA,扶助两个协同CTA跨SM对实行tcgen05.mma,分享操作数,从而在裁减每个CTA分享内存带宽需求的同期,提供更高运算强度的MMA教导。此外,该架构原生扶助带微缩放的亚字节数据类型,并引入了集群启动适度(CLC)算作捏久化CTA内核中动态使命弯曲的硬件扶助。
芯片物理布局:双Die架构与300周期跨Die蔓延
SemiAnalysis通过逆向工程时刻,HJC黄金城(GoldenCity)官网首页揭示了B200芯片的物理拓扑结构。
参议团队应用PTX%%smid教导,通过启动不同大小的集群来反向估量SM到GPC(图形处理集群)的映射干系。终局骄气,B200存在部分TPC独占逻辑GPC的情况,这些TPC从不与其他TPC协同弯曲。
通过让每个SM遍历填满L2缓存的指针跟踪数组并测量各SM间的拜谒蔓延,参议团队构建了SM间距离矩阵。矩阵骄气呈现出两组SM,平均L2拜谒蔓延差距卓绝300个时钟周期,对应的恰是两个Die之间的跨Die拜谒处分。
基于此,参议团队估量B200的Die级TPC散播如下:
这一物理布局各异意味着,即便逻辑建立探求的两块GPU,其物理SM散播也可能不同,组成潜在的性能非详情味起首。

内存子系统:LDGSTS与TMA的性能限制
内存子系统测试聚焦于两类异步拷贝教导:LDGSTS(异步拷贝)和TMA(张量内存加快器)。
LDGSTS方面,测试粉饰了FlashInfer多头精练力(MHA)内核的典型建立。终局骄气,B体育LDGSTS内存糊涂量在32KiB在途字节时实足,峰值约为6.6TB/s。16字节加载在探求在途字节数下略优于8字节加载,且耗尽更少实行资源。蔓延测试骄气,LDGSTS基线蔓延约为600纳秒,在途字节卓绝8KiB后蔓延接近翻倍,原因在于无边线程因MIO(内存输入输出)节流而停滞。

TMA方面,峰值糊涂量的达到显著晚于LDGSTS。在低于32字节在途数据时,异步拷贝糊涂量略优于TMA;卓绝该阈值后TMA追上并可捏续扩张至128KiB。蔓延方面,在途数据低于12KiB时异步拷贝蔓延略低,超事后TMA蔓延大幅攀升。
TMA多播测试骄气,显式TMA多播可齐全铲除L2流量,终了理念念的"1/集群大小"L2字节比。隐式多播(各CTA孤独发出TMA加载至探求数据)在有用内存糊涂量上与显式多播特别,但在卓绝64字节在途数据后,L2缓存流量削减遵循启动下落。

张量中枢肠能:体式依赖性显耀,2SMMMA终了齐全弱扩张
张量中枢测试是本次参议的中枢部分,终局揭示了BlackwellMMA性能对教导体式的高度敏锐性。
糊涂量方面,关于1SMMMA,M=64的建立最高仅能达到表面峰值的50%,而M=128可接近100%。这阐明M=64仅应用了一半数据通路。关于2SMMMA,M=128在N=64时糊涂量为峰值的90%,其余N尺寸均接近100%;M=256则在统共建立下均保管接近100%的峰值糊涂量,因为M=256等效于每SM处理M=128,可充分应用完整数据通路。

AB布局影响相同显耀。当两个输入矩阵均存储于分享内存(SS款式)时,M=128在N
2SMMMA终骄气齐全的弱扩张,相干于1SMMMA在使用两倍绸缪资源时赢得2倍加快。在SS款式的小体式建立下,由于操作数B在两个SM间分片,致使出现卓绝2倍的加快。参研究断明确:应经久使用给定SMEMtile尺寸下可用的最大教导体式,以赢得最高糊涂量
蔓延方面,统共建立下蔓延均随N从64增至128线性增长,N=256时出现逾越。数据类型蔓延排序呈现法例性:S8

本色在途教导数测试骄气,在典型内核使用的1至4条在途MMA教导场景下B体育,4条在途MMA的糊涂量上限约为表面峰值的78%至80%,且1SMMMA比2SMMMA高出约5个百分点。
金佰利国际娱乐官网入口
备案号: