1875 個主機(每個主機配備 8 塊 GPU 和 9 塊網卡)使用阿里云的高性能網絡,通過以太網進行通信。
阿里云工程師兼研究員翟恩南通過 GitHub 分享了其研究論文,介紹了阿里云用于大語言模型(LLM)訓練的數據中心的設計。
這份 PDF 文件名為《阿里巴巴 HPN:用于大語言模型訓練的數據中心網絡》,概述了阿里巴巴如何使用以太網讓 15000 塊 GPU 得以相互通信。
一般的云計算生成一致的小數據流,速度低于 10 Gbps。另一方面,LLM 訓練生成的周期性數據突發可以達到 400 Gbps。
據論文聲稱:“LLM訓練的這一特性使得傳統數據中心常用的負載均衡方案等價多路徑路由(ECMP)容易出現哈希極化,從而導致流量分布不均等問題?!?/span>為了避免這種情況,翟恩南及其團隊開發了高性能網絡(HPN),HPN 使用了“兩層雙平面架構”,這種架構減少了可能發生 ECMP 的數量,同時讓系統可以“精 確地選擇能夠容納大象流(elephant flow)的網絡路徑”。
HPN 還使用了雙架頂式(ToR)交換機,這使得它們可以相互備份。這些交換機對 LLM 訓練而言是最常見的單點故障,需要 GPU 同步完成迭代。
每個主機 8 塊 GPU,每個數據中心 1875 個主機
阿里云將其數據中心劃分為多個主機,每個主機又配備 8 塊 GPU。每塊 GPU 都有搭載兩個端口的網卡,每個 GPU-網卡系統稱為“rail”。主機還得到一塊額外的網卡連接到后端網絡。然后,每個 rail 連接到兩個不同的 ToR 交換機,確保即使一個交換機出現故障,整個主機也不會受到影響。
盡管阿里云丟棄了用于主機間通信的 NVlink,但仍然使用英偉達的專有技術用于主機內網絡,因為主機內 GPU 之間的通信需要更多的帶寬。
然而,由于 rail 之間的通信速度慢得多,每個主機“專用的 400 Gbps RDMA 網絡吞吐量,導致總帶寬為 3.2 Tbps”足以確保 PCIe Gen5x16 顯卡的帶寬最 大化。
阿里云還使用了 51.2 Tbps 的以太網單芯片 ToR 交換機,因為多芯片解決方案更容易不穩定,故障率是單芯片交換機的四倍。
然而,這些交換機運行時散熱量大,市面上沒有現成的散熱器可以阻止它們因過熱而關閉。因此,阿里云想出了一個新穎的解決方案,即設計一個均熱板散熱器,中心有更多的小柱子,大大提高傳導熱能的效率。
翟恩南及其團隊將于今年 8 月在澳大利亞悉尼舉行的數據通信特別興趣小組(SIGCOMM)大會上展示其研究成果。包括 AMD、英特爾、谷歌和微軟在內的多家公司都會對這個項目感興趣,主要是由于它們已聯合起來創建了 Ultra Accelerator Link——這是一種開放標準的互連技術,旨在與 NVlink 競爭。
阿里云使用 HPN 已有八個多月,這意味著這項技術已經過了嘗試和測試。然而,HPN 仍然存在一些缺點,其中最 大的缺點就是其復雜的布線結構。鑒于每個主機有 9 塊網卡,每塊網卡連接到兩只不同的 ToR 交換機,很有可能混淆哪個插孔到哪個端口。盡管如此,這項技術可能比 NVlink 來得實惠,因此任何建立數據中心的機構都可以大幅節省安裝成本。
來源:Al頭條