broken image
broken image
broken image
  • 首頁
  • 關於我們
  • 產品介紹 
    • AISpike
    • 數位孿生技術
    • 硬體產品
    • 資料中心建設
  • 聯繫我們
  • …  
    • 首頁
    • 關於我們
    • 產品介紹 
      • AISpike
      • 數位孿生技術
      • 硬體產品
      • 資料中心建設
    • 聯繫我們
Eng
broken image
broken image
broken image
  • 首頁
  • 關於我們
  • 產品介紹 
    • AISpike
    • 數位孿生技術
    • 硬體產品
    • 資料中心建設
  • 聯繫我們
  • …  
    • 首頁
    • 關於我們
    • 產品介紹 
      • AISpike
      • 數位孿生技術
      • 硬體產品
      • 資料中心建設
    • 聯繫我們
Eng
broken image

人工智慧資料中心技術討論系列之一

如何建立大型H100叢集?(以256台為例)

· AI blog

在整個AI資料中心,建置128台H100伺服器的叢集還是比較容易的,計算網路採用Spine-Leaf兩層式架構,32台Leaf交換器+16台Spine交換器=48台交換器,每台交換器有64個400G通訊埠。

可能有人會提出疑問,從128台叢集擴大到256台叢集,不就是單純的增加主機數量就可以了嗎?其實不然,256台叢集通常兩種不同的選擇。

最直接的方案是沿用128台叢集所採用的Spine-Leaf兩層式架構,簡單擴大到256台叢集,這種方案的優點是簡單、省錢,但兩層式架構的256台叢集已經是上限了,以後若要繼續擴充下去的話就會變得比較困難。

另一個方案是採用Core-Spine-Leaf三層式架構,可能在網路設備、串聯部分的資金投入確實會貴一點,但也為了未來能夠擴充到512叢集提前打好了基礎。

接下來簡單比較一下兩種256台叢集的計算網路架構。考量到大模型的訓練對資料傳輸效率相當要求,我們文中所提到的運算網路全部按照全速(non-blocking)來設計。

方案一:採用Spine-Leaf兩層式架構

256台H100台伺服器,每台伺服器配置8個400G的IB網路卡,每台伺服器連接到8個Leaf交換器中,32台伺服器組成1個Group(也稱為SU) ;256台伺服器劃分成8個Group。共使用64台Leaf交換器+32台Spine交換器=96台交換器。

這種方案的優點是省錢,只需要最少數量的交換器,每一個通訊埠都不浪費。但缺點就是擴充相當麻煩,因為256叢集已經是兩層式網路的上限了,如果要擴大到512台叢集,那就需要升級到三層式網路,現有Spine交換器到Leaf交換器,至少有一半以上的串接方式要重新設計。

 

方案二:採用Core-Spine-Leaf三層組網

 

將256台H100伺服器分成兩組各128台,每組使用32台Leaf交換器+32台Spine交換器,加上32台Core交換器,總共要用到(32+32)*2+32=160台交換器。

這個方案的優勢是當叢集要再次擴充時會非常方便。從256叢集擴大到512叢集的時候,Spine-Leaf之間的串聯方式不必重新設計,只需沿用原本架構即可。至於叢集擴充會有多方便呢,如過一切準備就緒的話,單就擴充工作來說,6~8個小時就可以完成叢集網路架構的擴充了。

上一篇
下一篇
 返回網站
Cookie的使用
我們使用cookie來改善瀏覽體驗、保證安全性和資料收集。一旦點擊接受,就表示你接受這些用於廣告和分析的cookie。你可以隨時更改你的cookie設定。 了解更多
全部接受
設定
全部拒絕
Cookie 設定
必要的Cookies
這些cookies支援安全性、網路管理和可訪問性等核心功能。這些cookies無法關閉。
分析性Cookies
這些cookies幫助我們更了解訪客與我們網站的互動情況,並幫助我們發現錯誤。
偏好的Cookies
這些cookies允許網站記住你的選擇,以提升功能性與個人化。
儲存