英偉達的另一條生命线

2024-04-08 09:32:59   來源:好新聞   作者: 半導體行業觀察

2014年3月24日,GTC 2014在加州聖何塞舉行,依舊是大家熟悉的“皮衣刀客”黃仁勳。

這場大會圍繞着Tegra K1、Maxwell以及Pascal架構展开,汽車、智能、工業化成爲了2014年的主題,還有讓遊戲玩家感到震撼的GTX Titan Z,這張怪獸般的顯卡採用了雙芯設計,內置兩塊GK110芯片,CUDA核心總數達到了驚人的5760個,規格相當於兩張GTX Titan Black旗艦顯卡。

總功耗達到375W的GTX Titan Z目標是提前讓用戶進入4K乃至5K時代,它的售價在當時來看也是傲視群雄:海外版售價2999美元,國行版本售價23999元,比起今天消費端旗艦顯卡RTX 4090來說,也是有過之而無不及。

而在卡皇問鼎GPU性能之前,英偉達還低調地丟出一項技術,在當時並不爲大衆所知,而在2024年的今天,這項技術已經成爲人工智能帝國的基石之一。

這項技術的名字,就是NVLink。


未來技術


在GTC 2014上,英偉達CEO黃仁勳如此形容大屏幕上顯示的NVLink技術:它讓 GPU 與 CPU 之間共享數據的速度快了5 - 12倍,這不僅是全球首例高速 GPU 互聯技術,也爲百億億次級計算鋪平了道路。

這樣的說法並非誇張,2014年時行業還在使用PCI Express 3.0,這項技術最初於2007年由PCI-SIG宣布,經過多次修改後才在2010 年 11 月正式推出,但放在當時來看,PCIe 3這項技術已經跟不上GPU算力的需求。英偉達在官方稿中提到,GPU 需要通過 PCI Express (PCIe) 接口連接至 x86 CPU,但這項技術生來就有的缺點,限制了 GPU 存取 CPU 系統內存的能力,對比CPU內存系統要慢4-5倍。

而隔壁的IBM爲英偉達提供了一個契機,當時IBM POWER CPU 的帶寬高於 x86 CPU,因此PCIe 成了更明顯的瓶頸,英偉達正因爲帶寬不足而發愁,二者一拍即合,合作开發了第一代NVLink。官方宣稱,NVLink 1.0接口可以和一般 CPU 內存系統的帶寬相匹配,可以讓 GPU 能夠以全帶寬的速度存取 CPU 內存,基本解決了此前的CPU和GPU互聯的帶寬問題。

從當時來看,與傳統的PCIe 3.0相比,NVLink這一高帶寬互聯技術能大幅提高加速軟件應用的性能,GPU 的顯存速度快但容量小,CPU 內存速度慢但容量大。因爲內存系統的差異,加速的計算應用一般先把數據從網絡或磁盤移至 CPU 內存,然後再把數據復制到 GPU 顯存,數據才可以被 GPU 處理。憑借 NVLink,數據在 CPU 內存與 GPU 顯存之間的移動速度得到了大幅提升,從而讓 GPU 加速的應用能夠大幅提升運行速度。

而統一內存則是NVLink的另一大特性,它能簡化 GPU 加速器的編程,讓程序員能夠將 CPU 內存和 GPU 顯存視爲一個內存塊。程序員可以操作數據,無需擔心數據存在於 CPU 內存還是 GPU 顯存當中。英偉達官方表示,NVLink技術將被用於連接GPU與支持 NVLink 技術的 CPU,另外還將用於在多顆 GPU 之間直接提供高帶寬連接。此外,盡管擁有極高的帶寬,NVLink 卻在每比特數據的傳輸上比 PCIe 節能得多。

英偉達爲此還專門設計了一個模塊來容納 Pascal 架構的 GPU 與 NVLink,這一全新的 GPU 模塊僅爲當時標准 PCIe 顯卡尺寸的三分之一,Pascal 模塊底部的接口使其能夠插入到主板當中,從而改善了系統設計、提升了信號完整性。

英偉達和IBM對這項技術可以說是非常看好,幾個大佬輪番給它背書,雖然兩家公司依舊是制定PCIe 標准的PCI-SIG成員之一,但NVLink所代表的技術野心已不言而喻。

NVIDIA GPU 工程高級副總裁 Brian Kelleher 表示: “NVLink 技術通過大幅提升 CPU 與 GPU 之間的數據傳輸速度,最大限度縮短了 GPU 等待數據處理的時間,從而釋放了 GPU 的全部潛能。”

IBM 副總裁兼 IBM 院士 Bradley McCredie 表示: “NVLink 讓 CPU 與 GPU 之間能夠快速交換數據,從而提升了整個計算系統的數據吞吐量,克服了當今加速計算的一大瓶頸。NVLink 讓开發者能夠更輕松地修改高性能與數據分析應用,以便充分利用加速的 CPU-GPU 系統。我們認爲,該技術標志着我們對 OpenPOWER 生態系統又做出了一大貢獻。”

作爲一項新興技術,NVLink的應用比大家想象的要快得多,2014年年底,美國能源部 (DoE) 就宣布授予 IBM 和 NVIDIA 建造兩台新的旗艦超級計算機,分別是橡樹嶺國家實驗室的Summit系統和勞倫斯利弗莫爾國家實驗室的Sierra系統,而NVLink就是其中的關鍵技術,英偉達的GPU 和 IBM POWER CPU 通過 NVLink 互連技術連接,爲它們提供至少 100 petaflops 的計算性能。

而在英偉達後續發布的Tesla P100芯片上,就搭載了NVLink 1.0技術。如下圖所示,兩個 GPU 之間有 4 個 NVlink,每個鏈路包含 8 個通道,每個通道的速率爲 20Gb/s。因此,整個系統的雙向帶寬爲160GB/s,是PCIe3 x16的五倍。基於NVLink 1.0,可以形成四個GPU的平面網格結構,每對之間具有點對點連接,8 個 GPU 對應一個立方體網格,就可以組成一個 DGX-1。

比較有意思的是,2016年,英偉達CEO黃仁勳向當時還尚屬稚嫩的 OpenAI 送了一份價值129000美元大禮——世界上第一台 DGX-1 超級計算機。

根據英偉達的表述,DGX-1擁有雙Xeon處理器和8顆基於Pascal架構的Tesla P100 GPU加速器,整機擁有170 TeraFLOPs的半精度 (FP16) 峰值性能,還配備了512GB系統內存和128GB GPU內存,非常適合於深度學習領域。

這台超算成爲了OpenAI推動AI技術發展的動力之一,在擁有DGX-1前,OpenAI技術人員一直受到系統計算能力的限制,而有了它之後呢?OpenAI 研究總監Ilya Sutskever 表示,DGX-1可以使每次實驗所需的時間縮短數周,能使研究人員能夠提出以前可能不切實際的新想法,解決了這家非盈利組織的算力焦慮。

而NVLink也正是在此時爲大衆所熟知,开始發揮它在深度學習中不可或缺的作用。


帶寬爲王


帶寬究竟有多重要?它對於英偉達來說,是不亞於GPU本身的另一條生命线。

一般來說,傳統馮諾依曼架構下的計算設備會存在幾個瓶頸,計算牆、存儲牆、通信牆等,其中,通信牆的問題是以AI爲代表的分布式訓練最爲頭疼的部分。

分布式訓練中,各個GPU在機內和機間不斷進行通信。服務器內部的顯卡之間需要頻繁進行信息的交換,服務器與服務器之間也需要大量的信息傳遞,如果採取並行策略,在模型或流水线並行的過程中,就需要通過通信來同步梯度並等待更新完成,這就引入了大量的機內和機間All-reduce操作,就會帶來相當大的時間成本开銷,這些都需要一套軟硬件協調優化好的通信方案。

當然,不止是火熱的AI,對於更大範圍的HPC和數據中心來說,通信帶寬一定程度上比單芯片算力更重要,大型集群中有着成百上千的芯片,要把它們擰在一起並不容易,規模越大的並行計算,就越渴求一套完整的解決方案。

讓我們把目光放回到2014年,當時的英特爾就是該領域的最強者,擁有完整的獨立CPU以及CPU+GPU異構架構解決方案的它,只需要做好運算效率的提升以及編程環境的改善,甚至不用對PCIe做出革命性的改動,就能輕松拿下絕大部分市場。

英偉達就不一樣了,做遊戲GPU起家的它摸到了行業的天花板,必須尋新的增量,拿ARM授權做移動處理器是一方面,前景廣闊的數據中心它也不想錯過,但它的缺點很明顯,就是沒有一套作爲HPC基礎的通用處理器節點解決方案,PCIe總线帶寬更是牢牢拖着了它前進的步伐。

而IBM此時拋出橄欖枝,雖說是出於它在高性能計算市場中敗退的原因,但對於英偉達來說,無疑是下了一場及時雨,兩家合作頗有些蜀吳聯合抗擊魏國的意味。

有了IBM的部分HPC技術,英偉達如魚得水,在NVLink 1.0的底子上繼續發展,伴隨着P100、V100、A100、H100等計算卡的推出,NVLink迎來了自己的高速發展。

2017年,Nvidia推出了第二代NVLink技術。它將兩個 GPU V100 芯片與六個 NVLink 連接,每個 NVLink 包含八個通道。每個通道的速率增強至25Gb/s,系統雙向帶寬達到300GB/s,幾乎是NVLink 1.0的兩倍。同時,爲了實現八個GPU之間的全對全互連,Nvidia引入了NVSwitch技術。NVSwitch 1.0有18個端口,每個端口帶寬爲50GB/s,總帶寬爲900GB/s。每個NVSwitch保留兩個端口用於連接CPU。使用6個NVSwitch,可以建立8個GPU V100芯片的全對全連接。

2020年,NVLink 3.0技術出現。它通過 12 個 NVLink 連接兩個 GPU A100 芯片,每個 NVLink 包含四個通道。每個lane的速度爲50Gb/s,系統的雙向帶寬達到600GB/s,是NVLink 2.0的兩倍。隨着NVLink數量的增加,NVSwitch上的端口數量也增加到36個,每個端口的速率爲50GB/s。DGX A100由八個GPU A100芯片和四個NVSwitch組成,如下圖所示。

2022年,NVLink技術升級到第四代,允許兩個GPU H100芯片通過18條NVLink鏈路互連,每個鏈路包含2個lane,每個lane支持100Gb/s PAM4的速率,從而雙向總帶寬增加到900GB /s。NVSwitch也升級到了第三代,每個NVSwitch支持64個端口,每個端口速率爲50GB/s。DGX H100由8顆H100芯片和4顆NVSwitch芯片組成。

2024年,NVLink第五代與Blackwell一同推出,它大幅提高了大型多 GPU 系統的可擴展性。單個英偉達Blackwell Tensor Core GPU可支持多達18個NVLink 100千兆字節/秒(GB/s)連接,總帶寬達到1.8兆字節/秒(TB/s),是上一代產品的2倍,是PCIe Gen5帶寬的14倍以上。而新機架Nvidia GB200 NVL72 也引入了第五代 NVLink,它在單個 NVLink 域中連接多達 576 個 GPU,總帶寬超過 1 PB/s,高速內存高達 240 TB。

從單通道速率來看,NVLink一般是同期PCIe的兩倍左右,而總帶寬的優勢則更加明顯,NVLink約爲PCIe總帶寬的五倍,在帶寬上可謂是遙遙領先。

值得一提的是,在第四代NVLink發布時,英偉達正式將其稱爲NVLink-C2C ,此時NVLink已經升級爲板級互連技術,它能夠在單個封裝中將兩個處理器連接成一塊超級芯片。比如它通過連接兩塊 CPU 芯片,使 NVIDIA Grace CPU 超級芯片具有 144 個 Arm Neoverse V2 核心,爲雲、企業和 HPC 用戶帶來了高能效性能;NVLink-C2C 還將 Grace CPU 和 Hopper GPU 連接成 Grace Hopper 超級芯片,將用於處理最棘手的 HPC 和 AI 工作的加速計算能力集合到一塊芯片中。

英偉達表示,2023年計劃在瑞士國家計算中心投入使用的 AI 超級計算機 Alps 是首批使用 Grace Hopper 的計算機之一,這套高性能系統用於處理從天體物理學到量子化學等領域的大型科學問題。

NVLink經過近十年的發展,解決了多個GPU芯片之間高帶寬、低延遲的數據互連問題,已經成爲英偉達GPU芯片的核心技術,也是其生態系統的重要組成部分,衝上2億美元高峰的功勞,多多少少也要算它一份。


寫在最後


事到如今,英偉達逢AI必提及算力,逢算力必提帶寬,某種程度上也證明了這兩者對於英偉達業務以及如今AI領域的影響。

我們從第一代DGX超算可以看出來,英偉達的野心就不是賣賣顯卡而已,它要做的是賣解決方案,賣自己的獨家技術,而對於這套方案,英偉達早已經打好了腹稿:先解決帶寬通信,後解決通用處理器,最終登上新王座。

第五代NVLink配合全新的Blackwell,成爲了2024年數據中心市場繞不過去的話題,而2014年NVLink初登場時,又有多少人能讀懂英偉達當時的草蛇灰线呢?



標題:英偉達的另一條生命线

地址:https://www.wellnewss.com/post/613366.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅爲傳播更多信息之目的,如有侵權行爲,請第一時間聯系我們修改或刪除,多謝。

導讀
推薦