猫鼠游戏中的英伟达

<div

来源：硅星人 Pro

<div

自步入人工智能时代以来，中国一直是英伟达的大客户。

<div

2022 年，英伟达销售数据中，25% 来自中国客户，尤其是一些互联网大厂，他们对英伟达的算力产品，比如 H800，可以说是疯狂买买买。

<div

但是随着美国在 2023 年 10 月更新了先进半导体和计算设备的出口管制，英伟达中国特供版 GPU A800 和 H800 都将在 11 月 17 号后禁止出口中国。而且更难处理的是，华盛顿新的出口管制下，几乎绝大多数高算力产品都不再能出口中国了。

<div

不过英伟达有他们的小心思，25% 的巨大收入来源不可能说断就断，所以英伟达决定要和美国政府来一场猫鼠游戏，要在这只猫的眼皮底下，偷走奶酪。于是英伟达开始布局一款新的产品 ——H20。注意，这个 H20 是 “H” 和 “二十”，不是水分子的化学式。

<div

H20 这款产品的浮点运算能力仅有 296TFLOPs，性能密度只有 2.9。这意味着它从纸面上看已经是一款超低性能产品，然而有意思的事情来了，如此低性能的产品，依然有公司会买，而且它继续引发美国的监管部门以及英伟达竞争对手的恐慌。在硅星人此前的文章《英伟达的美国对手们已经开始拿中国攻击英伟达了》中已经提到，英伟达的美国对手批评它不够美国，而英伟达认为这些批评不合逻辑；而最近的消息是，美国商务部长 Gina Raimondo 又点名英伟达，警告它停止为中国设计绕过出口管控的 AI 芯片。

<div

所以，这个猫鼠游戏里，英伟达到底是如何做的？

<div

　3A090 里的文字游戏

<div

3A090，是华盛顿出口管制中的 ECCN 编码物项。3A090 特指特定高性能集成电路，当一颗芯片输入输出双向传输速率超过每秒 600GB，或算力超过 4800TOPS 时就属于 3A090，也就意味着禁止向中国出口。

<div

上一次美国规定先进半导体出口措施的时候，英伟达旗舰产品 A100 和 H100 都被划在了禁止向中国出口的列表当中。英伟达当时采取的措施是推出低配版、但是同架构、且同样配备高带宽插槽版本（也就是 SXM 版本）的 A800 和 H800。这两块产品在性能上和原版的 A100、H100 几乎完全一致，甚至连内存芯片用的也都是 HBM2e 和 HBM3 这种当时的顶级内存芯片。颇有种孙悟空和六耳猕猴的感觉。

<div

在上一次禁令发布的时候，美国只是对产品的具体型号做出了禁止出口的规定，这才有了 H800 和 A800 这种李逵李鬼的情况。所以这次新规就加入了更为严格的限制，规定了算力总和以及性能密度，所有人工智能产业能用到的高端张量计算 GPU 全都被划进了限制。

<div

说得更直白一点，高性能的 GPU 不让卖，低性能的 GPU 买了也没用。

<div

然而有意思的事情来了，禁令所限制的两个词汇 “性能密度” 和 “总算力”，其实是一个文字游戏。

<div

什么是性能密度？国际上有两个说法，第一个是人工智能公司常用的，浮点计算能力 FLOPs，也就是每秒浮点操作数除以单位面积内的晶体管数量得来的。第二个是 MIPS，也就是每秒百万指令数除以单位面积内的晶体管数量得来的。

<div

我们都清楚一个道理，那就是 “大人时代变了”。就拿英伟达刚推出的新品 H200 所搭载的 HBM3e 来说，这颗芯片采用了一种 3D 技术，通过立体空间堆叠的方式增加内存。如果只按面积来说，那这颗芯片的性能密度就很高，但是要按体积算，这颗芯片的性能密度也挺高，只是没有按面积算那么高而已。所以如果想要性能密度这个数字越小，算的时候以体积为单位就可以了。毕竟除法嘛，分母越大结果越小。

<div

另外 MIPS 通常比 FLOPs 大，因为在计算过程中除了浮点，还有整数类型（INT）的运算。而且浮点自己还囊括了单精度（32 位）、双精度（64 位）等以所需存储空间来划分的类型。因为传统 FLOPs 计算方式，往往只会统计单精度和双精度，因此一颗张量计算用的 GPU，在数据测试的时候，也可以只报单精度、双精度的浮点，这样无论是它的 MIPS 还是 FLOPs 都会很低。毕竟除法嘛，分子越小结果越小。

<div

总算力这块能玩的花活就更多了。总算力，这个词指的是每个核心的时钟速度总和。英伟达 H20，或者说整个 H 系列所采用的 Hooper 架构，它都是有多种核心的，比如专门用来做张量计算的 TensorFloat32 核心，还有脑浮点（BF16）核心。那刚才咱们聊了，计算 FLOPs 时，可以只计算单精度，双精度，也就意味着它在算力总和的测试中，就可以只计算单精度和双精度核心，而不再启用上述的这些张量计算核心。毕竟自然数加法嘛，加数越少结果越小。

<div

综上，作为一个算力芯片厂商，他们可以很简单地把芯片数据弄得很低。这只是一种可能的假说，因为英伟达的最终目的不是通过 3A090 的限制，他是要把产品卖出去，赚取利润。一个性能极低的产品根本没有市场销路，就算设计出来了也没有实际的价值。

<div

　　H20 背后的真正秘密

<div

区区是一张中上游的游戏显卡 RTX 4080，它的浮点运算能力都能达到 320TFLOPs，同时 RTX 4080 的性能密度有 6.8。H20 尊为一个张量计算用的 GPU，296 的浮点和 2.9 的性能密度，就好像是一个超级富二代独生子，从出生开始就享受世界上最优质的资源，顿顿早餐吃的煎饼果子都能加俩鸡蛋，喝酸奶从来用不着舔盖，结果到头来算个 10 以内加减法都能把 CPU 干冒烟了。

<div

可我要是说 H20 的 Die 足足有 814 平方毫米，和 H100 完全相同，阁下应该如何应对？这并不是好钢用在刀背上，相反这正是 H20 的隐藏属性。也正因此，才让我更加相信，英伟达在 H20 的数据上，存在一些猫腻。

<div

Die 指的是芯片的裸晶，一般来说，越是性能优越的芯片，Die 尺寸就会越大。比如 RTX 4080 的 Die 尺寸是 379，而目前性能最好的游戏显卡 RTX 4090 的 Die 尺寸是 609。因此，H20 实际上并不是低端芯片，至少从芯片的制程来讲，H20 是站在第一梯队的。

<div

老鼠没有猫力气大，速度上也不占优势，如果老鼠不想被猫抓住，那就要想方设法地躲起来，不暴露自己。

<div

诚然，H20 的浮点运算能力很低，可是 H20 SXM 的内存足足有 96GB，更恐怖的是它的带宽来到了 4Tbps。相较之下，1979TFLOPs 浮点运算能力的 H100 SXM 只有 80GB 的内存和 3.4Tbps 的带宽。在人工智能领域，尤其是现在火热的大语言模型中。内存是影响模型运行的关键，每 10 亿参数就要消耗 3 到 5GB 的内存，如果内存溢出则会严重影响模型的质量，产生不可预估的后果。那也就是说，在面对实际应用的时候，H20 能比 H100 承担更大规模的大语言模型。

<div

可能你会问了，H20 的浮点运算能力不行啊，光有内存没用，跑的速度会慢。如果是 2022 年，那这的确是个大问题，毕竟没有人工智能公司会考虑低效率的 GPU，这样做会拖垮整个训练过程。可是 2023 年，英伟达的 TensorRT-LLM 已经问世，并且拥有 TensorRT-LLM 功能的 H200 即将要在 2024 年发售了。

<div

TensorRT-LLM 是一个帮助 GPU 快速解决复杂计算的优化软件，搭载在 GPU 内部，类似于游戏显卡驱动一样。以 H100 为例，使用 TensorRT-LLM 后的 H100，在对一些媒体网站进行文章摘要时的工作效率，比使用前快出整整 1 倍。而在 700 亿参数的 Llama2 上，前者比后者快 77%。目前流通在市面上的 A800 也好，H800 也好，都没有搭载 TensorRT-LLM 功能。H20 很有可能，或者说板上钉钉的会搭载 TensorRT-LLM。

<div

英伟达虽然一直以硬件销售为主，然而其软件能力非同小可。比如 DLSS，这是一种专门用来 “欺骗” 软件。不过 DLSS 所骗的目标并不是用户，而是显卡。当计算机需要大量图形计算时，DLSS 会把图形以极低分辨率的形式交给显卡，它去骗显卡说：“你干这么点活就得了，剩下的不用你操心”，再通过 DLSS 技术还原成高分辨率的图形，这会大幅减轻显卡的压力，进而提升画面效果。

<div

回到现在，TensorRT-LLM 也是一个给 GPU 减压减负的软件技术，这就让 GPU 能够表现出本不该属于它的性能。此外，如果英伟达真的隐藏了 H20 的真实数据，实际上 H20 的表现力很有可能会超过 H100。

<div

你以为英伟达是壁虎，断尾求生。实际上英伟达压根不打算 “阉割”，他们想的是换一种方式，绕过监管，达到目的。毕竟，如果 H20 算力很低，就算可以出口中国，也没有买家愿意购买这样的产品。当猫堵住了一个老鼠洞，老鼠还是能有办法溜出来，因为不可能只有一个出口。

<div

不只是英伟达自己的猫鼠游戏

<div

英伟达有个好朋友叫做 SK 海力士，英伟达最新旗舰产品 H200 SXM 上的内存芯片 HBM3e，就是 SK 海力士的。目前他们正联手开发 HBM4，以颠覆整个产业。英伟达也是 SK 海力士最大的客户之一，如果英伟达失去了中国市场，那么 SK 海力士的损失也会是巨大的。

<div

最重要的是，GPU 是一个横跨软硬件两个领域的事情，造就了一个附加值极高的交易体系。比如英伟达的 Hooper 架构，也就是 H100、H200、H800、H20 所采用的架构，多种同架构的 GPU 并联在一起，能够更好地分配计算资源。一般来说，人工智能企业都是买很多块 GPU，而不是就买一块。所以当人工智能公司进行算力扩展的时候，GPU 的第一个附加价值就体现出来了，它会要求人工智能公司只能接着购买该公司的 GPU 产品。

<div

第二个附加价值在于算法的开发，不同的 GPU 产品，比如 AMD 的 MI，英特尔的 Gaudi，他们的差别不只有浮点运算能力、性能密度这些，还有指令集、逻辑芯片、底层语言上的差异等等。一个能在 H100 上运行的算法，不一定就完美适配 MI300X。换言之，如果开发伊始就是基于某公司产品的话，后续的开发大概率也只能基于同公司，甚至是同架构的产品。

<div

第三个附加价值是反向的，由人工智能公司给予 GPU 公司。在算法的开发过程中总是会遇到各种各样的难题，当这些难题反馈给 GPU 公司时，GPU 就会清楚下一代产品应该做怎样的改进。就比如上文说的 HBM4，英伟达和 SK 海力士要非常清楚目前 GPU 在当前场景下还有哪些不足，才能做出足以颠覆产业的产品。

<div

正是这些附加价值，绑定了 GPU 公司和人工智能公司，形成了复杂的裙带关系。所以英伟达不能失去中国市场，不单单是为了 25% 的销售额，还有比销售数字更重要的这些附加价值。中国的人工智能水平增长非常迅速，英伟达深知其中的利害。

<div

在猫鼠游戏中，老鼠之间也会互相打配合，有些负责吸引猫的注意力，有些负责搬运奶酪。还有一点，猫和老鼠都明白两者虽然对立，但是存在着一个用来维持双方平衡的灰色空间，既不黑也不白，两者都能生存。猫不能一下子将老鼠全抓死，那样猫就失去了作用，老鼠也不能太猖狂，那样会压缩猫的生活空间。

声明：声明：本文全部内容均从网络中采集而成，只做测试与学习之用，请在下载后24小时自行删除，如有任何涉及版权的问题，请及时联系站长删除内容。谢谢！（邮箱：doubaiwang@126.com）

值得一看