釋放 AI 潛力:Enfabrica 變革性的加速計算架構 (ACF)
龐大的數據集是 AI 模型的生命線,驅動訓練並實現準確的預測。這種對數據的無止境需求對傳統計算機和網絡架構提出了挑戰,促使人們需要創新的解決方案。
當前 AI 計算機網絡架構
當前的 AI 網絡架構依賴於層次結構的互聯組件,包括:
- GPU 圖形處理器用於並行數據處理。
- PCI 交換機 連接伺服器內的多個 GPU。
- RDMA NIC(遠程直接內存訪問網絡接口卡)在不同伺服器的 GPU 繪圖處理器之間進行直接內存訪問,減少 CPU 參與並加快數據傳輸。
- 網絡交換機 形成葉脊網絡的骨幹,連接伺服器並促進數據中心的通信。
儘管這種方法是可行的,但其存在的重大限制會阻礙 AI 工作負載的可擴展性和效率:
- GPU 之間的通信瓶頸:隨著群集中的 GPU 數量增加,層次結構的網絡會產生瓶頸,增加延遲並減少吞吐量。
- 有限的頻寬和彈性:當前的架構難以滿足 AI 工作負載日益增長的頻寬需求,單點故障會中斷訓練作業,導致昂貴的重啟。
- 缺乏可組合性:傳統架構的剛性限制了支持不同計算和內存資源的多樣 AI 應用,限制了創新。
- 總擁有成本上升 (TCO):使用傳統組件擴展 AI 基礎設施會增加硬件成本、能耗和冷卻需求,從而提高 TCO。
Enfabrica 的解決方案:加速計算架構 (ACF)
Enfabrica 的加速計算架構 (ACF) 技術標誌著一個與傳統方法的顯著不同。ACF 引入了 MegaNIC 概念,將 PCI 交換、RDMA 和第一級網絡交換功能合併到一個高頻寬、高彈性的設備中。
ACF 的獨特架構整合了多個高速以太網 NIC,由內部交叉開關互連,創造了一個高頻寬、非阻塞的架構。該設計將包頭處理和有效載荷傳輸分開,允許 NIC 處理包頭和轉發,而有效載荷通過 DMA 直接在端點之間傳輸,將延遲降至最低。這種方法確保了 AI 工作負載的高效數據移動。
ACF 的架構包括:
- 融合 PCI 和以太網交叉開關:通過整合 PCI 交換和以太網網絡,ACF 在 GPU 和網絡之間創建了低延遲的數據傳輸路徑,減少延遲並提高性能。
- 龐大的頻寬和路徑多樣性:ACF 在網絡端支持高達 3.2 Tbps 的頻寬,在主機/加速端支持高達 5 Tbps 的頻寬,確保高吞吐量並減少元件故障的影響。
- 可編程的傳輸和擁塞控制:ACF 的可編程傳輸層在標準 CPU 上運行,允許自定義擁塞控制機制,針對特定工作負載調整網絡行為。
- 可組合性和異構性:ACF 支持多樣的計算和內存資源,包括 GPU、CPU、存儲和 CXL 附加內存,從而創建針對特定 AI 應用的定制系統。
在 AI Field Day 5 上,Enfabrica 的 CEO Rochan Sankar 指出,”PCI 網卡在 AI 中已無關聯”,因為每個 GPU 直接連接到芯片中的所有以太網接口,將吞吐量擴展到架構的 3.2 Tbps。
Enfabrica 解決方案的潛在劣勢
儘管具有吸引力,但 Enfabrica 的解決方案也有潛在缺點:
- 硬件依賴性:ACF 需要對現有伺服器設計進行修改,使其與當前現成系統不兼容,這可能會妨礙已投資基礎設施的組織的採用。
- 單點故障:儘管 ACF 的多路徑架構減少了許多故障點,但 ACF 本身仍是單點故障。ACF 級別的故障可能會中斷連接的 GPU,儘管設計將這一風險降至最低。
- 兼容性有限:通過優先考慮與 InfiniBand 動詞和 RoCE 的兼容性,而非立即採用 Ultra Ethernet,Enfabrica 旨在解決當前 AI 部署面臨的可擴展性挑戰,同時考慮未來的改進。
為何它重要?
AI 工作負載,特別是大型語言模型,需要大量數據移動、處理和存儲。高頻寬、低延遲的架構對於避免性能瓶頸至關重要。
Enfabrica 致力於革新 AI 的網絡基礎設施,提出了一個新的方法。Enfabrica 不再將網絡視為外圍問題,而是將其置於 AI 計算的核心,認識到網絡在性能和可擴展性中的關鍵作用。
Enfabrica 的核心價值主張解決了 AI 網絡的主要挑戰:
- 降低 TCO:通過將多個組件合併到一個設備中並優化數據流,ACF 降低了 AI 基礎設施的成本,釋放資源用於計算。
- 提高性能:ACF 的高頻寬、低延遲和多路徑能力釋放了 GPU 的全部潛力,加速了訓練和推理任務。
- 提高彈性:ACF 的堅固架構和故障恢復功能最大限度地減少了停機時間,確保大規模 AI 部署的一致運行。
- 未來 AI 基礎設施:ACF 的可編程傳輸層和多樣資源支持使組織能夠適應不斷發展的 AI 工作負載和未來技術。
Enfabrica 的 ACF 代表了 AI 網絡的重大進步,促進了日益複雜和要求嚴苛的 AI 應用的實現。隨著 AI 的發展,像 Enfabrica 這樣的解決方案將在釋放 AI 的全部潛力和塑造計算的未來中發揮關鍵作用。請透過即時聊天或發送電子郵件至 sales@dataplugs.com,以了解有關我們專屬 GPU 伺服器計劃的更多資訊。