借助 Nvidia 的 Blackwell GPU，GPT-4 的运行速度提高了 30 倍

type

status

date

slug

summary

category

icon

password

URL

Nvidia 的 GTC 2024 的主题是生成式 AI，以及使这一繁荣成为可能的硬件。 Nvidia 希望通过下一代 Blackwell 树立新标准。

首席执行官黄仁勋表示，布莱克韦尔将成为“新工业革命背后的驱动力”。该平台有望通过具有多达数万亿个参数的语言模型来运行生成式人工智能。

据 Nvidia 称，该架构包括世界上最强大的芯片，拥有 2080 亿个晶体管。具体来说，Blackwell 连接了两个使用台积电 4NP 工艺构建的芯片，连接速度为 10 TB/秒，使它们像单个 CUDA GPU 一样工作。

此外，Blackwell 还包括第二代 Transformer 引擎，可实现具有 FP4 精度的 AI 应用程序、改进的 NVLink 通信技术（用于最多 576 个 GPU 之间的数据交换）以及新的可靠性和服务引擎（RAS 引擎）。由人工智能启用。专用的解压缩引擎也旨在加速数据库查询。

Blackwell 将在 FP8 中提供 10 PetaFLOPS 的人工智能计算能力，在 FP4 中提供 20 PetaFLOPS 的人工智能计算能力。

当使用具有所谓“微张量缩放”功能的新 Transformer 引擎时，可以实现两倍的计算能力、两倍的模型大小和两倍的带宽。该芯片还配备了192GB的HBM3e内存。

与H100图形处理器相比，Blackwell据称可提供四倍的训练性能、高达25倍的能效和高达30倍的推理性能。

后者是一个明显的迹象，表明英伟达正面临来自专门从事推理的芯片的竞争，这些芯片目前正试图从领先者手中夺取市场份额。然而，这种性能只能通过所谓的专家混合模型（例如 GPT-4）才能实现；对于经典的大型变换模型（例如 GPT-3），跳跃是 7 倍。但 MoE 模型变得越来越重要；Google 的 Gemini 也依赖于这一原则。新的 NVLink 和 NVLink Switch 7.2 使这一重大飞跃成为可能，它使 GPU 之间的通信更加高效——以前是 MoE 模型的瓶颈。

Nvidia 预计 Blackwell 平台将被几乎所有主要云提供商和服务器制造商使用。亚马逊网络服务、谷歌、Meta、微软和 OpenAI 等公司将成为首批使用 Blackwell 的公司。

具有 11.5 ExaFLOPs 的新型 DGX SuperPOD

随着新一代产品的推出，还推出了新版本的 DGX SuperPOD。

DGX SuperPOD 采用新型高效液冷机架规模架构，可在 FP4 精度下提供 11.5 ExaFLOPS 的 AI 超级计算性能和 240 TB 的快速存储。通过额外的机架，该系统可以扩展到数万个芯片。

SuperPOD的核心是GB200 NVL72，它通过Nvidia第五代NVLink连接36个Nvidia GB200超级芯片，每个芯片有36个Grace CPU和72个Blackwell GPU，形成一台超级计算机。

据 Nvidia 称，与相同数量的 Nvidia H100 Tensor Core GPU 相比，GB200 Superchip 在大型语言模型的推理工作负载方面可提供高达 30 倍的性能提升。得益于新的 NVLink 芯片，DGX GB200 NVL72 原则上是“一个巨大的 GPU”，具有 720 PetaFLOPS 用于训练 FP8，具有 1.44 ExaFLOPS 用于 FP4 推理。

Nvidia 还推出了 DGX B200 系统，这是一个用于 AI 模型训练、调整和推理的平台。 DGX B200 是第六代风冷 DGX 设计，将八个 B200 Tensor Core GPU 连接到 CPU。

这两个系统都将于今年晚些时候上市。

总结

Nvidia 推出了新的 Blackwell 平台，旨在通过具有数万亿个参数的语言模型来实现生成人工智能。

据称，与 H100 GPU 相比，新一代 Blackwell 的训练性能提高了 4 倍，能源效率提高了 25 倍，推理性能提高了 30 倍。

这种高推理性能适用于所谓的专家混合模型，例如 GPT-4。像 GPT-3 这样的旧型号的运行速度仍然是原来的 7 倍。

由于新一代 Transformer 引擎和新的 NVLink，加速成为可能。

具有 11.5 ExaFLOPs 的新型 DGX SuperPOD

Ai-皇帝

交流频道

在QQ频道中共同交流与分享