生成式人工智能和大型语言模型 (LLM) 是颠覆性技术,将从根本上改变我们的生活、工作和娱乐方式。 然而,要完全实现这一承诺,必须首先克服计算和能耗方面的重大挑战。 每次用户使用 DALL-E 创建图像或从 GPT-4 获得响应时,都会进行多次推理计算,所有这些加起来对计算资源和能源的需求都有巨大增加。随着计算需求的大幅增长,数据中心将更多的足迹用于 AI 处理和加速硬件,并密切监控其能源消耗。


(相关资料图)

开放加速器基础设施 (OAI)

开放计算项目(OCP)一直致力于制定人工智能加速硬件设计标准OAI。 这种标准化工作简化了加速卡设计。图 1 显示了工程系统的框图。 开放加速器模块 (OAM) 可以是图形处理单元 (GPU) 或 AI 加速器 ASIC,旨在提供大规模 AI 计算并减少服务器和 CPU 的计算工作负载。这些 OAM 位于通用基板 (UBB) 上。 对于支持 QSFP-DD 和 OSFP 连接器的 OAM 和扩展模块的各种互连拓扑,UBB 支持数据速率高达 112Gbps。

图 1:OAI 系统模块(来源:OCP,OAI 规范)

使用 1.6Tbps 重定时器(retimer)进行纵向扩展和横向扩展

OAI 系统中的 OAM 在同一机架上或在某些情况下通过横向扩展接口在多个机架之间执行 AI 处理,以允许多个 GPU 相互连接。 这使得能够交换大量训练数据以完成复杂的人工智能和机器学习任务。 此外,为了实现这些任务所需的高性能和高带宽,同一个 GPU 卡上的多个 AI 处理器通过网格或其他称为纵向扩展的拓扑互连。

图 2:使用重定时器的纵向扩展和横向扩展示例(来源:OCP、OAI 规范)

人工智能加速器的下一代系统设计已经在部署 112G SerDes,以满足这些系统对性能日益增长的需求。重定时器是维持这些 112Gbps 接口信号完整性的关键组件,这些接口需要在 UBB 上的长 PCB 走线、多个连接器、高速 DAC 电缆、AEC 电缆或光缆上驱动数据。

图 3:带有 Broadcom 重定时器的 AI 加速硬件和扩展卡(来源:Amphenol)

验证和结果

必须仔细选择 OAI 系统中的 112Gbps 构建块或组件。 Broadcom 和 Amphenol 以及其他 OAI 成员一直致力于验证该系统设计,验证工作的结果将为构建针对深度学习和高性能计算工作负载的模块化系统提供信心。

用于验证的关键组件包括 (1) Broadcom 的 BCM85361 1.6Tbps 重定时器/交叉开关和 Amphenol 的 ExaMAX2 112Gb/s 高速背板连接器系统。

Broadcom 的 BCM85361 是一款 16 通道 112G SerDes 重定时器,支持插入损耗约为 45dB 的长距离背板和长达 3 米的无源 DAC 电缆。重定时器支持高达 2 x 800 GbE 的以太网速率用于横向扩展,也可以配置为灵活的交叉开关以满足纵向扩展要求。 BCM85361 采用先进的 5nm 工艺节点设计,提供低功耗以满足数据中心不断增加的能源消耗的挑战。

Amphenol 的 ExaMAX2 连接器系统提供支持 OAI 应用所需的行业领先的信号完整性性能。 垂直接头 (VH) P/N:10167063c 和直角插座 (RAR) P/N:10167059c 配置为 4x16,提供连接以支持扩展卡的横向扩展和开关实施。 ExaMAX2 解决方案的创新型波束对波束匹配接口在 60GHz 范围内展示了无共振的插入损耗曲线和卓越的回波损耗性能。

这些高速组件的验证研究结果显示,Broadcom 的 5nm SerDes 比标准 LR 范围具有额外的性能余量。 SerDes 的额外余量可实现更低的 FEC 前误码率 (BER) 和更高的系统损伤容限,例如电源噪声、反射和串扰,这些损伤可能来自封装、PCB 走线、连接器、制造公差和其他来源,会极大地影响链路性能。

“随着 OCP 的 OAI 计划向 112Gbps 迈进,解决信号完整性挑战至关重要,因为其可能显着影响链路性能并最终影响设计成功。Broadcom 的 112Gbps SerDes 技术具有复杂的 DSP 架构和完全自适应均衡,使系统设计人员能够实现更大的链路余量以克服最棘手的信号完整性障碍,并帮助硬件设计人员将他们的AI硬件更上一层楼。”Broadcom 物理层产品部工程副总裁 Vivek Telang说。

“Amphenol 的互连产品是系统的基础,这些系统将被部署以帮助大规模解决当今和未来数据中心的挑战。 ExaMAX2 等背板解决方案和 OSFP 和 QSFP-DD 等 IO 产品为系统实施者提供了支持架构演进的灵活性,同时提供出色的信号完整性和机械可靠性。 Amphenol 很自豪能够支持 OCP 的使命,即为广大受众提供人工智能基础设施的开放硬件解决方案。”Amphenol 首席技术官 Brian Kirk表示。

总结

ChatGPT4和更多的深度学习应用将继续推动数据中心 AI 硬件的增长。 OAI 是一项标准化工作,旨在促进既健壮又易于扩展的 AI 加速硬件设计的发展。在这些设计中,SerDes 速度提升至 100Gbps 对于实现生成式 AI 至关重要。 Broadcom 的低功耗、高性能和灵活的 112G DSP 解决方案处于这一趋势的前沿,提供功能丰富的100G/200G/400G/800G/1.6T 以太网PHY产品来构建 OAI 系统。Broadcom 与 OAI 贡献者(包括超大规模厂商、连接器供应商和 ODM)的强大技术合作有助于确保这些 112Gbps 技术可以轻松集成到下一代数据中心,并大大减少系统设计挑战。

标签: