咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
数据中心中的AI推理:打破效率与成本的权衡
  • AI处理包括训练和推理,两者在计算需求、响应时间、精度和成本上差异显著。数据中心需平衡计算能力和经济可行性,新兴技术如ASIC和TPU提供优化推理的新途径。

     训练和推理包括数据中心AI处理的两个关键方面。了解两者之间的区别,以及所涉及的成本效益问题。
      
      在数据中心执行人工智能(AI)工作负载涉及两个关键过程:训练和推理。乍一看,这些过程似乎很相似—都涉及读取数据、处理数据和生成输出。仔细检查会发现它们之间存在显着差异。
      
      图1.在AI工作负载需求的推动下,数据中心的计算需求持续飙升。
      
      数据中心中的训练与推理:主要差异
      
      以具有数千亿甚至数万亿个参数的大型语言模型(LLM)为例,AI模型的复杂性呈爆炸式增长,这推动了对训练和推理的前所未有的计算需求。然而,它们的运营要求和优先事项却大相径庭。
      
      计算性能
      
      训练是一个计算量非常大的过程,需要ExaFLOPS的能力来分析和提取大量(通常是非结构化数据集)中的模式。此过程可能持续数周甚至数月,因为模型会进行迭代优化以实现高精度。
      
      推理虽然对计算要求也很高,但通常在较小的规模上运行,通常以PetaFLOPS为单位。它的关注点更窄,将经过训练的模型应用于特定任务,例如响应用户查询,使其更具针对性和简化性。
      
      响应时间
      
      对于训练,准确性优先于速度。该过程涉及长时间运行,模型持续运行以微调输出并减少幻觉的可能性。
      
      另一方面,推理优先考虑速度。它必须几乎即时提供结果以满足用户期望,响应时间通常以毫秒到几秒钟为单位。
      
      延迟
      
      延迟是训练期间的次要问题,因为重点是获得精确可靠的结果,而不是立竿见影的结果。
      
      相反,推理依赖于低延迟来保持流畅的用户体验。高延迟响应可能会中断交互,使延迟成为性能的关键指标。
      
      精度
      
      训练需要高精度,通常使用fp32或fp64等格式,以确保模型可靠并最大限度地减少错误。这种高精度水平需要强大的处理能力和连续运行。
      
      Inference通过为许多应用程序采用fp8等较低精度的格式来平衡准确性与效率。
      
      这些格式显著降低了计算需求,而不会影响有效结果所需的质量。
      
      表1说明了五个关键属性的这些区别,强调了训练和推理如何优化性能、精度和效率,以满足AI工作负载的独特要求。
      
      表1.算法训练和推理共享一些关键计算属性,但不是全部。
      
      基础设施挑战:电力和成本
      
      数据中心的巨大计算需求需要将一排排专用硬件安装在坚固的重型机柜中,这些机柜旨在容纳大型高性能系统。这些装置会大规模消耗能源,通常以吉瓦为单位,这会产生大量热量,并且需要大量的冷却系统以及定期的专门维护,以确保最佳运行。
      
      为AI处理量身定制的数据中心成本非常高。这些费用源于多种因素:购买尖端硬件、对设施建设的大量投资、由技术人员进行的定期维护以及全年24/7运行所需的无情能源消耗。
      
      在训练中,重点仍然是生成准确的模型,通常忽略了成本考虑。普遍的心态是“不惜一切代价完成工作”。
      
      相比之下,推理对成本高度敏感。每次查询的成本成为一个重要的指标,特别是对于每天管理数百万甚至数十亿个查询的应用程序。麦肯锡2022年的一项分析说明了高吞吐量AI系统的制约因素。例如,Google搜索每秒处理大约100000个查询,为了保持经济可行性,每个查询的目标成本约为0.002USD。相比之下,ChatGPT-3的每次查询成本,虽然由于通用和专业用例的差异而无法直接比较,但估计每次查询约为0.03美元,凸显了达到Google级别查询经济性所需的效率差距。
      
      电源效率是一个关键的平衡行为。虽然推理通常比训练消耗更少的功率,但提高推理的能源效率可以显著降低成本并减少对环境的影响。此领域的增强功能使数据中心能够在现有能源限制内提供更强大的计算能力,或者通过减少冷却和基础设施要求来降低每个计算单元的成本。
      
      这种形势凸显了对创新解决方案的迫切需求,这些解决方案必须超越传统的计算效率和成本之间的权衡。通过应对这些挑战,数据中心的下一代AI进步可以在性能、可扩展性和可持续性方面实现突破。
      
      用于训练和推理的AI加速器的现状
      
      当前的数据中心AI加速器主要由图形处理单元(GPU)提供支持,用于训练和推理。虽然单个GPU设备可以提供PetaFLOPS规模的性能,但其设计架构(最初针对图形加速进行了优化)难以满足推理所需的延迟、功耗和成本效率的严格要求。
      
      GPU在训练和推理中的可互换使用是问题的核心。尽管GPU具有计算能力,但无法达到经济可扩展的AI解决方案所需的每次查询成本基准。
      
      植根于物理和技术的限制
      
      GPU可以提高数据处理性能,但不会提高数据移动吞吐量。差距源于基本的物理和技术限制:
      
      导体中的能量耗散:当电力流过导体时,能量耗散是不可避免的。较长的导体会导致更大的能量损失,从而加剧效率低下。
      
      MemoryversusLogicPowerDissipation:该规则的推论假设memory作耗散的能量可以达到用于处理数据的logic消耗的能量的1,000倍。这种差异被简洁地描述为内存墙,它突出了内存和数据访问策略创新以优化电源效率的必要性。
      
      征服内存墙的尝试
      
      内存墙是指处理器性能和内存带宽之间越来越大的差距,这一差距在过去30年中显著扩大。这种不平衡会降低处理器效率,增加功耗并限制可扩展性。
      
      一种常用的解决方案,随着时间的推移而改进,包括通过引入多级分层缓存来缓冲处理器附近的内存通道。通过缓存经常访问的数据,数据路径显著缩短,从而提高性能。
      
      沿着内存层次结构向下移动,存储结构从单个位可寻址寄存器过渡到紧密耦合的内存(TCM)、暂存器内存和高速缓存。虽然这种进展会增加存储容量,但也会降低执行速度,因为需要更多的周期来将数据移入和移出内存。
      
      内存层次结构越深,对延迟的影响就越大,最终会降低处理器效率。
      
      人工智能的内在潜力,特别是生成式人工智能,尤其是代理人工智能,受到记忆带宽有限度的严重阻碍。虽然GPU是数据中心AI训练的首选,但它们的效率因算法而异。例如,据报道,GPT-4MoE(专家混合)的效率下降到仅3-5%,但在Llama3-7B上可以达到30%左右。
      
      弥合差距:前进之路
      
      在理想情况下,用registers替换TCM、scratchpadmemory和cache将彻底改变性能。这种方法会将hierarchicalmemorystructure转换为单个大型高带宽memory,可在一个clockcycle中直接访问。
      
      这样的架构将提供高执行速度、低延迟和低功耗,同时最大限度地减少硅面积。至关重要的是,在处理过程中将新数据从外部存储器加载到registers不会中断系统吞吐量。
      
      这种先进的设计有可能显著提高处理器效率,特别是对于处理资源密集型任务。当前的GPU可能难以跟上,在处理超过1万亿个参数的LLM时可能会耗尽容量。然而,这种创新的内存架构确保了对类似高需求工作负载的无缝处理,提供卓越的性能,而不会出现阻碍传统GPU设置的瓶颈。这一突破可能会重新定义复杂计算的处理方式,为AI及其他领域带来新的可能性。
      
      平衡计算能力和经济可行性
      
      为了确保可扩展的AI解决方案,必须在原始计算能力和成本考虑之间取得平衡。到2028年,LLM推理将主导数据中心工作负载的预测强调了这一挑战。穆迪和贝莱德的分析师预测,生成式AI和自然语言处理的快速增长将推动数据中心基础设施的大幅升级。
      
      这种增长需要制定策略来减少对昂贵加速器的依赖,同时提高性能。专用集成电路(ASIC)和张量处理单元(TPU)等新兴技术提供了一条充满希望的前进道路。这些专用架构旨在优化推理工作负载,优先考虑延迟、功耗和成本方面的效率。
      
      重新思考AI的硬件和软件
      
      满足AI推理的独特需求需要硬件和系统设计的范式转变。通过集成创新架构和重新构想支持软件生态系统,数据中心可以克服计算效率和经济可行性之间的传统权衡。
      
      随着推理工作负载越来越多地塑造AI的未来,克服延迟和功耗方面的挑战至关重要。通过专注于经济高效和高性能的解决方案,该行业可以确保AI技术的可持续部署。这将为未来铺平道路,让AI驱动的洞察在全球范围内都能获得且负担得起,从而实现变革性的实际应用。
      
      编辑:Harris
      
      

    AI处理包括训练和推理,两者在计算需求、响应时间、精度和成本上差异显著。数据中心需平衡计算能力和经济可行性,新兴技术如ASIC和TPU提供优化推理的新途径。