咨詢電話
021-80392549
每年升級的Grace與Hopper
與發布消費級CPU的AMD不同,英偉達在此次Computex上的內容則更加ToB一些,尤其是數據中心。今年年初,英偉達公布了GraceCPU、HopperGPU等一系列數據中心產品,支持不同的配置選項,給到了極高的靈活性。作為CPU+GPU配置的忠實擁護者,英偉達打算將這個戰略方針貫徹到底。
此次Computex上,英偉達宣布,其數據中心產品將每兩年更新一次架構,每年更新一批產品,一年針對Arm,一年針對x86。與此同時,英偉達也針對數據中心公布了四項Grace參考設計,分別是面向云游戲的CGX、面向數字孿生與Omniverse的OVX、用于HPC或用于AI訓練推理的HGX。
Grace數據中心參考設計/ 英偉達
CGX集成了GraceSuperchipCPU,雖是用于云游戲場景,但該設計并未集成英偉達的消費級GPU,而是采用了面向虛擬桌面VDI應用 A16 GPU,這種選擇也很好理解,云游戲追求的就是高密度和低擁有成本,A16 GPU可以完美這一要求。
由于數字孿生與Omniverse的工作負載不盡相同,小到對一個物體的復制,大到對整個地球的數字孿生,所以OVX支持多種英偉達GPU。同樣為了減輕網絡計算的壓力,CGX與OVX都用到了BlueField-3 DPU。
HGX則分為兩種,一種是主打HPC,一種主打AI訓練與推理,前者的瓶頸主要在CPU上,所以僅配置了GraceSuperchipCPU,而后者則更需要CPU+GPU的強強聯手,因此,選擇了GraceHopperSuperchip。此外,由于HPC領域不少客戶用的都是OEM定義的IO系統,所以并沒有綁定自家的NVlink,至于AI訓練推理這類所需帶寬更高的場景,英偉達的第四代NVlink技術無疑是提供最高性能的首選。
不過Grace與Hopper要想量產還得等到明年,今年數據中心的主角無疑還是A100,而這次A100也迎來了更新。
數據中心的GPU也要液冷散熱
在數據中心中,有著這么一個指標,名為PowerUsageEffectiveness功耗使用效率,簡稱PUE。PUE等于數據中心的總能耗/IT設備能耗,總能耗中包含了散熱和配電等系統的能耗,因此PUE值越接近于1,證明該數據中心的能效水平越高。降低這一指標的方式有很多種,其中之一就是從散熱入手。
改善散熱的一種方式是改善數據中心的散熱系統,另一種則是改善IT設備本身的散熱系統。而英偉達的GPU此前均是風冷散熱,而這次英偉達決定先拿數據中心賣得最火熱的A100來嘗試液冷散熱。
液冷A100 PCIeGPU / 英偉達
Equinix率先測試了液冷版的A100 80GBPCIeGPU,并與風冷版的A100進行了對比。在對比過程中,單個液冷機架的功耗達到了30kW,是15kW風冷機架的兩倍,然而由于液冷的A100只需占據一個PCIe插槽,而風冷版的A100需要兩個,所以同樣的空間內可以放置兩倍的計算資源。
最終得出的結果中,用了液冷的A100機架數量可以減少至三分之一,功耗也降低了28%。正是因為這樣的散熱節能,液冷A100將PUE從風冷GPU的1.6降低至了1.15。很明顯,各國的能效方案已經開始望向數據中心,英偉達也必須緊跟這一節能減排的趨勢。而明年正式推出的HGX Grace和HGX GraceHopper,也將推出風冷和液冷兩種版本。
頂配AMR
為了推行其機器人仿真與數據生成軟件IsaacSim,英偉達也公布了其IsaacNovaOrinAMR機器人開發套件的更多情報。該設計集成了兩個JetsonAGX Orin芯片,加上兩個立體鏡頭、兩個廣角鏡頭、2個2D雷達、8個超聲波傳感器和一個3D激光雷達,可以說是頂級硬件配置的AMR了。
除了IsaacSim以外,這一開發套件與英偉達旗下的其他軟件框架完美契合,包括路線優化cuOPT、視頻數據分析的Metropolis,以及新增的DeepMap。英偉達于去年收購了高精地圖企業DeepMap,如今已經開始相關技術的集成,結合傳感器數據,DeepMap的技術可以加速3D地圖的創建、部署和動態更新。由此來看,英偉達是打算從自動駕駛和機器人雙向發力了,OrinSoC和DeepMap能在這兩個領域都發揮最大的潛力。