释放 AI 潜力:Enfabrica 变革性的加速计算架构 (ACF)

独立服务器

庞大的数据集是 AI 模型的生命线,驱动训练并实现准确的预测。这种对数据的无止境需求对传统计算机和网络架构提出了挑战,促使人们需要创新的解决方案。

 

当前 AI 计算机网络架构

当前的 AI 网络架构依赖于层次结构的互联组件,包括:

  • GPU 图形处理器用于并行数据处理。
  • PCI 交换机 连接服务器内的多个 GPU。
  • RDMA NIC(远程直接内存访问网络接口卡)在不同服务器的 GPU 绘图处理器之间进行直接内存访问,减少 CPU 参与并加快数据传输。
  • 网络交换机 形成叶脊网络的骨干,连接服务器并促进数据中心的通信。

尽管这种方法是可行的,但其存在的重大限制会阻碍 AI 工作负载的可扩展性和效率:

  • GPU 之间的通信瓶颈:随着群集中的 GPU 数量增加,层次结构的网络会产生瓶颈,增加延迟并减少吞吐量。
  • 有限的带宽和弹性:当前的架构难以满足 AI 工作负载日益增长的带宽需求,单点故障会中断训练作业,导致昂贵的重启。
  • 缺乏可组合性:传统架构的刚性限制了支持不同计算和内存资源的多样 AI 应用,限制了创新。
  • 总拥有成本上升 (TCO):使用传统组件扩展 AI 基础设施会增加硬件成本、能耗和冷却需求,从而提高 TCO。

 

Enfabrica 的解决方案:加速计算架构 (ACF)

Enfabrica 的加速计算架构 (ACF) 技术标志着一个与传统方法的显著不同。 ACF 引入了 MegaNIC 概念,将 PCI 交换、RDMA 和第一级网络交换功能合并到一个高带宽、高弹性的设备中。

ACF 的独特架构整合了多个高速以太网 NIC,由内部交叉开关互连,创造了一个高带宽、非阻塞的架构。该设计将包头处理和有效载荷传输分开,允许 NIC 处理包头和转发,而有效载荷通过 DMA 直接在端点之间传输,将延迟降至最低。这种方法确保了 AI 工作负载的高效数据移动。

ACF 的架构包括:

  • 融合 PCI 和以太网交叉开关:通过整合 PCI 交换和以太网网络,ACF 在 GPU 和网络之间创建了低延迟的数据传输路径,减少延迟并提高性能。
  • 庞大的带宽和路径多样性:ACF 在网络端支持高达 3.2 Tbps 的带宽,在主机/加速端支持高达 5 Tbps 的带宽,确保高吞吐量并减少元件故障的影响。
  • 可编程的传输和拥塞控制:ACF 的可编程传输层在标准 CPU 上运行,允许自定义拥塞控制机制,针对特定工作负载调整网络行为。
  • 可组合性和异构性:ACF 支持多样的计算和内存资源,包括 GPU、CPU、存储和 CXL 附加内存,从而创建针对特定 AI 应用的定制系统。

AI Field Day 5 上,Enfabrica 的 CEO Rochan Sankar 指出,”PCI 网卡在 AI 中已无关联”,因为每个 GPU 直接连接到芯片中的所有以太网接口,将吞吐量扩展到架构的 3.2 Tbps。

 

Enfabrica 解决方案的潜在劣势

尽管具有吸引力,但 Enfabrica 的解决方案也有潜在缺点:

  • 硬件依赖性:ACF 需要对现有服务器设计进行修改,使其与当前现成系统不兼容,这可能会妨碍已投资基础设施的组织的采用。
  • 单点故障:尽管 ACF 的多路径架构减少了许多故障点,但 ACF 本身仍是单点故障。 ACF 级别的故障可能会中断连接的 GPU,尽管设计将这一风险降至最低。
  • 兼容性有限:通过优先考虑与 InfiniBand 动词和 RoCE 的兼容性,而非立即采用 Ultra Ethernet,Enfabrica 旨在解决当前 AI 部署面临的可扩展性挑战,同时考虑未来的改进。

 

为何它重要?

AI 工作负载,特别是大型语言模型,需要大量数据移动、处理和存储。高带宽、低延迟的架构对于避免性能瓶颈至关重要。

Enfabrica 致力于革新 AI 的网络基础设施,提出了一个新的方法。 Enfabrica 不再将网络视为外围问题,而是将其置于 AI 计算的核心,认识到网络在性能和可扩展性中的关键作用。

Enfabrica 的核心价值主张解决了 AI 网络的主要挑战:

  • 降低 TCO:通过将多个组件合并到一个设备中并优化数据流,ACF 降低了 AI 基础设施的成本,释放资源用于计算。
  • 提高性能:ACF 的高带宽、低延迟和多路径能力释放了 GPU 的全部潜力,加速了训练和推理任务。
  • 提高弹性:ACF 的坚固架构和故障恢复功能最大限度地减少了停机时间,确保大规模 AI 部署的一致运行。
  • 未来 AI 基础设施:ACF 的可编程传输层和多样资源支持使组织能够适应不断发展的 AI 工作负载和未来技术。

 

Enfabrica 的 ACF 代表了 AI 网络的重大进步,促进了日益复杂和要求严苛的 AI 应用的实现。随着 AI 的发展,像 Enfabrica 这样的解决方案将在释放 AI 的全部潜力和塑造计算的未来中发挥关键作用。请透过即时聊天或发送电子邮件至 sales@dataplugs.com,以了解有关我们GPU服务器计划的更多资讯。

过滤器

核心:
内存容量:
存储容量:

关闭 提交