英伟达Blackwell-数据中心新引擎

内容

在2024年8月24日，NVIDIA（英伟达）通过其举办的吹风会向科技媒体展示了Blackwell平台，并宣布将在HotChips2024活动上详细介绍该平台在数据中心应用的情况。活动预定于8月25日至27日举行。此举直接回应了市场上流传的关于Blackwell延期上市的传闻，并提供了关于数据中心用Goliath相关信息的更多细节。

NVIDIA强调Blackwell不单是一款芯片，而是一个针对数据中心、云计算和人工智能需求设计的综合性平台。类似之前的Hopper架构，Blackwell包含多样的芯片组设计，旨在满足不同客户的特定需求。此次吹风会上，NVIDIA还展示了Blackwell平台中各种桥架的专业工程技术图片。

Blackwell的主要目标是处理具有数千参数的人工智能模型，以提供低延迟和高吞吐量的性能，非常适合支持大型语言模型（LLMs）的庞大需求。例如，Meta的405BLlama-3.1模型。随着LLMs的规模和参数的增长，数据中心需要在计算能力和延迟方面进行扩展。

为了实现这些目标，Blackwell采用了多GPU推理方法，该方法能在多个GPU上同时进行计算。这种方法也带来了复杂的GPU间通信问题。每个GPU都需要与其他GPU的每层通信，这就需要高速的GPU对GPU通信能力。

为解决这个问题，Blackwell推出了NVLINK交换机，它基于台积电4NP工艺，尺寸达800平方毫米，拥有72个端口，能够提供单向7.2TB/s的带宽。这种高速交换机可以支持GB200NVL72机架中的72个GPU，并通过72个端口提供全对全双向带宽，网内计算能力高达3.6TFLOPs。两个这样的交换机集成在一个托盘中，提供了14.4TB/s的总带宽。

为了进一步提升性能和效率，Blackwell平台采用了水冷散热解决方案。这种创新的散热方法有望显著减少数据中心设施的电力成本，预计最多能降低28%。

NVIDIA在吹风会上还展示一个亮点：全球首张使用FP4计算生成的人工智能图像。这项由MLPerf公司在稳定扩散中使用Blackwell制作而成的图像，展示了FP4量化模型的兔子图像与FP16模型相似，但计算速度更快。这表明通过降低计算精度（从FP16到FP4），可以在不显著牺牲图像质量的情况下提高处理速度。

NVIDIA的Blackwell平台展现了公司在数据中心应用方面对于技术创新和性能提升的承诺。通过吹风会和即将举行的HotChips2024活动，NVIDIA向市场证明了Blackwell平台的研发进度和优越性能，同时消除了市场对其延期上市的担忧。

英伟达Blackwell-数据中心新引擎

标签

英伟达业界 IT资讯

上一篇：多场景运动模式-8环球运动腕表-高端户外运动伴侣-佳明Fenix

下一篇：畅享-WIKO-消息称-Hi-70