尽管光学技术已经在数据中心使用了几十年,但现在它正越来越深入数据中心的核心——运行数据中心工作负载的处理器和加速器。那么,我们是如何走到这一步的?未来会是什么样子?
光通信具有高带宽、低延迟和低能量损耗的优势。虽然它最初用于促进往返数据中心的流量,但后来它被用于数据中心本身——通常是在机架顶部(TOR)上,以在机架顶部交换机之间创建高速链路。人工智能中使用的大数据流,其中低延迟和高带宽互连至关重要,这只会加速光通信的使用。
作为光学重要性的一个例子,谷歌甚至开发了自己的光交换机,它利用自由空间光学元件来降低其网络的延迟和功耗。通过使用自由空间光学,谷歌避免了在每个交换机上在光域和电域之间转换信号的需要。
谷歌声称,其定制网络可将吞吐量提高30%,功耗降低40%,资本支出降低30%,流程完成率降低10%,网络停机时间减少50倍。这意味着,如果节点发生故障或需要维修,可以快速切换。
光互连的兴起
最近,在机架内部使用光互连的趋势日益增长。受人工智能的高带宽、低延迟要求(因为人工智能模型分布在数十个处理节点上)的推动,光互连正在帮助这些多节点系统尽可能快地运行。速度一如既往地至关重要。
光互连是一个充满创新的领域。一些初创公司正在开发全光分组交换——避免在电域和光域之间转换信号的需要,从而大大节省了功耗和延迟。
其他公司正在将光学技术应用到下一层,正在开发全光芯片到芯片甚至硅片到硅片的互连。在这里,通信带宽甚至更高。为了实现这一进步,共封装光学器件至关重要。代工厂和芯片封装公司正在大力投资这一功能。
从切换到处理
光学不仅仅用于切换——它也可以用于处理。它具有提供速度、功率和效率的类似优势。
为什么要使用光学进行处理?人工智能处理需求正在以惊人的速度增长,而硅片路线图无法跟上。硅片开发商正在追逐收益递减;投入越来越多的时间、精力和金钱来实现边际性能提升。
目前业界的答案是增加硅片面积,在芯片内使用多个硅片,并使用复杂的封装来解决由此带来的挑战。但这需要付出巨大的代价,包括金钱和功耗。
巨大的货币成本是由购买最新和最好的人工智能加速器的巨额资本支出,以及供应和冷却这些耗电设备所需的增加的基础设施所驱动的;这还没有考虑到能源消耗的增加成本。
光学非常适合人工智能,特别是因为人工智能的核心使用矢量矩阵乘法,这在光中可以非常有效地解决。过去几年,人们一直希望将集成光子学应用于人工智能处理,然而,由于集成光子学在现代人工智能所需的大规模矩阵处理方面存在局限性,该技术目前主要集中于互连或交换应用。
使用3D(自由空间)光学器件进行处理克服了这些挑战——它只使用一小部分功率,却实现了性能飞跃。使用3D光学器件意味着可以使用非常宽的矢量,从而最大限度地提高性能和能源效率。与当今的GPU解决方案相比,使用3D光学器件的人工智能加速器有望以极低的资本和运营成本提供低功耗、高性能的解决方案。
随着数据中心对光学器件的使用日益增多,用于人工智能处理的3D光学器件将不可避免地成为下一步。
编辑:Harris