行業資訊

核心旁路網絡:利用 RDMA、RoCE 降低延遲

隨著即時分析、AI/ML 訓練叢集與高速金融交易日益普及,企業對網路延遲與吞吐量的要求達到新高。傳統以作業系統核心為主的網路協定堆疊,在現今追求微秒級回應與極致運算效率的場景下,已難以滿足需求。Kernel bypass networking(核心旁路網路架構),結合 Remote Direct Memory Access(RDMA)與 RDMA over Converged Ethernet(RoCE),正是現代資料中心實現高效能、低延遲網路架構的關鍵技術。

標準網路協定堆疊的限制

傳統 TCP/IP 網路架構,每個封包都需經過多層作業系統核心堆疊,牽涉到多次上下文切換(context switch)、用戶空間與核心空間的資料複製,以及協定處理負載。這些流程帶來額外延遲,並大量佔用 CPU 資源。當網路速率從 10Gbps 躍升至 100Gbps、200Gbps 甚至更高時,單一封包的可用處理時間已降至奈秒等級,遠超過傳統核心堆疊的能力極限。

Kernel Bypass Networking 的原理

Kernel bypass networking 讓應用程式可直接與網路介面卡(NIC)互動,將作業系統核心從資料傳輸路徑中移除。這項技術以記憶體註冊與資源映射(memory registration & mapping)為基礎,實現用戶空間與 NIC 之間的零複製(zero-copy)資料交換,大幅降低延遲。

RDMA 屬於典型的 kernel bypass 技術,允許伺服器間直接記憶體存取,不需本地或遠端 CPU、核心參與。其運作仰賴記憶體註冊、佇列對(Queue Pairs, QP)與完成佇列(Completion Queue, CQ),全由 RDMA NIC(rNIC)硬體負責。RoCE 則將 RDMA 應用於現有乙太網路,讓企業在不更換網路主幹下,享有近似 InfiniBand 的效能。

RDMA 與 RoCE 的關鍵技術解構

  • 記憶體註冊與鎖頁(Pinning): 進行資料傳輸前,應用程式需將目標記憶體區塊註冊至 rNIC,確保頁面不會被 swap 出核心,避免 RDMA 操作中斷。
  • 佇列對(Queue Pairs, QP): RDMA 通訊以佇列對為基礎,每對包含傳送與接收佇列,應用程式將工作請求(Work Request, WR)送入佇列,由 rNIC 執行資料搬移。
  • 完成佇列(Completion Queue, CQ): rNIC 處理 WR 後,會於 CQ 回報完成事件,應用程式可即時獲知傳輸狀態,無需傳統中斷。
  • 傳輸協定選擇:
    • InfiniBand:專為 RDMA 設計的低延遲協定,硬體專屬但成本較高。
    • RoCEv1:Layer 2,適合單一廣播網域。
    • RoCEv2:Layer 3,UDP 封包可跨子網,適用多站點與雲端部署,但需依賴無損乙太網。
  • 無損乙太網(Lossless Ethernet): RoCE,特別是 RoCEv2,需網路層完全無封包遺失,否則效能大幅下降。這需仰賴 Data Center Bridging(DCB)功能,包括:
    • Priority Flow Control (PFC): 針對特定流量類型(如 RDMA)進行流控,預防緩衝區溢位。
    • Explicit Congestion Notification (ECN): 壅塞預警,讓端點主動降速,避免丟包。
    • Enhanced Transmission Selection (ETS): 分配頻寬,保障 RDMA 流量優先權。

部署步驟與基礎設施規劃要點

  1. 硬體選型

    • 選購具 RDMA 支援的企業級 NIC(如 Mellanox ConnectX、Intel E810),並確認乙太網交換器支援 DCB。
    • 硬體平台需具足夠 PCIe 頻寬,避免主機板瓶頸。
  2. 網路架構設計

    • 採用 leaf-spine 架構,確保低延遲與高穩定性。
    • 利用 VLAN 或 VRF,將 RDMA 流量獨立於一般服務網,提升隔離性。
  3. 記憶體與緩衝優化

    • 配置大區塊連續記憶體,並監控註冊上限。
    • 系統參數(如 Linux memlock)需放寬,容納高流量 RDMA 作業。
  4. 無損乙太網設定

    • 於所有交換器啟用 PFC 及 ECN,並為 RDMA 流量設專用優先級。
    • 監控緩衝區使用、PFC 暫停事件與 ECN 標記,持續調整參數。
  5. RDMA 軟體堆疊與應用整合

    • 安裝與設定 RDMA 驅動程式(如 rdma-core、libibverbs)於所有主機。
    • 應用程式端需支援 RDMA verbs API,或透過 MPI、NVMe-oF、RDMA 資料庫等中介整合。
  6. 效能測試與驗證

    • 使用 ib_send_bw、rping 等工具實測延遲與吞吐量。
    • 持續監控 CPU 使用狀況、佇列深度及 CQ 狀態,及早調校瓶頸。

應用場景與效益

  • AI/ML 分散式訓練: RDMA 加速 GPU 與計算節點間參數同步,縮短模型訓練週期。
  • NVMe over Fabrics(NVMe-oF): RoCE 支援儲存解耦,提供近本機 NVMe 效能的遠端存取。
  • 金融交易系統: Kernel bypass 確保訂單與行情資訊傳輸具決定性微秒延遲。
  • 超融合基礎設施: 例如 VMware vSAN 採用 RoCE 降低節點間 I/O 延遲,提升虛擬化效能。

Dataplugs 基礎設施如何支援 Kernel Bypass Networking

Kernel bypass networking 要發揮最大效益,需仰賴高可靠、高效能且適合 RDMA 架構的基礎設施。Dataplugs 提供多 Tbps BGP 網路主幹、直連 CN2 低延遲中國路線與 Tier-1 ISP 互連,讓 RDMA 與 RoCE 部署享有穩定高頻寬、低延遲與高安全性的網路環境。

Dataplugs 數據中心配備企業級硬體、充足 PCIe 資源與 24×7 技術支援,適合 AI 叢集、NVMe-oF 儲存、金融交易等多種 RDMA 應用。企業可依據業務需求,彈性選擇 GPU、NVMe、RDMA NIC 等規格,確保高效彈性部署。

總結

Kernel bypass networking 透過 RDMA 與 RoCE,為企業提供突破性低延遲、高效能的資料中心網路架構,徹底擺脫傳統核心堆疊瓶頸,奠定未來即時運算、AI、大數據等新世代應用基礎。只要妥善規劃、精準調校,加上如 Dataplugs 這類專業基礎設施夥伴的支援,即可全面發揮 kernel bypass 的潛力,於數位轉型潮流中佔得先機。如需更深入的 RDMA、RoCE 技術諮詢或專屬部署建議,歡迎即時聯絡 Dataplugs 團隊(網站即時聊天或 sales@dataplugs.com)。

主頁 » 最新消息 » 行業資訊 » 核心旁路網絡:利用 RDMA、RoCE 降低延遲