智能與秩序

GPU 算力演進趨勢：A100 → Rubin Ultra（2020-2028）

得到App 2025/10/05 更新 2026/04/10

摘要

本文系統梳理 NVIDIA GPU 算力從 2020 年 A100 至 2027-2028 年預期的 Rubin Ultra 與 Feynman 架構的演進路線。通過架構創新（Tensor Core 優化、稀疏計算、多芯片互連）與製程工藝進步，AI 算力實現非線性增長，遠超傳統摩爾定律。從 A100 的 FP16 312 TFLOPS，經 H100 的 FP8 3.9 PFLOPS，到 B100/B200 的 FP8 10 PFLOPS（稀疏），再躍升至 Rubin 系列預期的 1.2 EFLOPS 與 Rubin Ultra 的 100 PFLOPS，每世代實現 2.5–4 倍性能躍升。記憶體頻寬從 HBM2e 的 2 TB/s 演進至 HBM4e 理論 8 TB/s+。這種算力增長曲線為大規模 LLM 訓練與推理提供基礎設施支撐，也標誌著 GPU 作為 AI 時代稀缺資源的戰略地位。

重點

架構創新與製程工藝雙軌驅動，使 AI 算力超越摩爾定律實現非線性增長。
FP8/FP4 低精度推理成為主流，單位成本算力大幅提升，推動邊際效益遞增。
記憶體與互連技術（HBM3e→HBM4e, NVLink 升級）演進速度追趕計算核心發展。
GPU 多芯片堆疊與稀疏優化成為突破單晶片瓶頸的關鍵，B200 達 208B 晶體管。
預測路線圖顯示 2026-2028 年算力仍保持 3-4 倍周期增速，維持 AI 投資吸引力。

章節

演進背景：超越摩爾定律的必然性
傳統摩爾定律放緩，NVIDIA 通過架構創新與製程進步實現 AI 算力非線性增長。
A100 至 H100：從 FP16 到 FP8 的轉折（2020-2022）
A100（7nm, 312 TFLOPS）向 H100（4nm, 3.9 PFLOPS）跨越，低精度推理成為主流。
B100/B200：多芯片堆疊與稀疏優化（2024）
突破單晶片限制，208B 晶體管、192GB HBM3e，FP8 稀疏達 10 PFLOPS。
Rubin 系列預測：EFLOPS 時代到來（2026-2027）
Rubin 達 1.2 EFLOPS（144 芯片），Rubin Ultra（1TB HBM4e）突破 EFLOPS 量級。
記憶體與互連技術的並行演進
HBM 頻寬從 2 TB/s 進化至 8 TB/s+，NVLink 升級支撐多芯片高速互連。
戰略意涵：GPU 算力作為稀缺資源的地位確立
算力增長路線圖確認，GPU 掌握權成為 AI 競賽的核心籌碼與護城河。

金句

架構創新（Tensor Core + 稀疏優化）使 AI 算力以非線性速率攀升

掌握 GPU 算力的程度決定 AI 能力天花板

Rubin Ultra 算力有望再提升～4×，下一代 Feynman 架構（2028）尚未公布

從 HBM2e → HBM3 → HBM3e → HBM4e，頻寬從 2 TB/s 提升至理論 8 TB/s+

被 1 篇文章引用（含 3 個翻譯版本）

演算本位時代：當知識、電力與貨幣畫上等號2018-01-04繁EN 日简

探索碰撞 ↗

摘要

重點

章節

金句

被 1 篇文章引用 （含 3 個翻譯版本）

被 1 篇文章引用（含 3 個翻譯版本）