一、引言
随着人工智能和大模型技术的快速发展,社会对于算力的需求也呈指数级增长。国家数据局于2025年4月发布的《数字中国发展报告(2024年)》显示,截至2024年底,全国算力总规模达280EFLOPS,八大国家枢纽节点算力总规模达175EFLOPS,智能算力在算力总规模中占比32%[1]。
智算中心(AIDC)作为AI产业化发展的算力基础设施正迎来建设热潮。相比传统数据中心,智算中心功率密度激增(单机柜一般超过20kW)、计算架构复杂(CPU/GPU/FPGA异构计算)、业务场景动态多变,其规划设计工作尤为重要,不仅要解决高能耗、高成本等传统问题,更需在异构算力协同、网络架构优化与能效管理、弹性扩展、动态资源调度、前瞻性容灾设计等维度实现突破。
二、智算中心规划设计概述
1.智算中心定义与特征
1)智算中心的定义
2023年10月,工业和信息化部等六部门印发《算力基础设施高质量发展行动计划》,文中提出,智能计算中心指通过使用大规模异构算力资源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要为人工智能应用(如人工智能深度学习模型开发、模型训练和模型推理等场景)提供所需算力、数据和算法的设施。智能计算中心涵盖设施、硬件、软件,并可提供从底层算力到顶层应用使能的全栈能力[2]。
2024年9月,工业和信息化部等十一部门联合印发《关于推动新型信息基础设施协调发展有关事项的通知》,文中提出,智算中心即人工智能计算中心,是基于人工智能理论,采用人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的一类算力基础设施[3]。
一般认为,智算中心是在数据中心的基础上,集成了算力资源、高速互联网络及智能化管理系统,针对人工智能应用提供所需的算力服务、数据服务和算法服务的新型基础设施。
2)智算中心的特征
相较传统数据中心,智算中心的规划设计工作需要将其特有的差异化特征加以考虑:
(1)高功率密度:随着算力设备功率密度快速增长,单机柜功耗由以往的4~8kW提升到20~50kW甚至更高,而且还在继续攀升。规划设计需重点考虑如何应对高功耗设备密集部署造成对供配电、制冷等配套设施建设产生的影响。
(2)异构计算架构:AI训练需要大量并行计算,推理需要低时延,科学计算需要的是双精度浮点运算性能,若采用统一架构则难以同时兼顾。规划设计需按具体的应用场景(训练、推理、科学计算)去选用相适配的不同类型处理器组合。
(3)高质量算力网络:智算中心需保障计算任务持续稳定运行,一旦中断会造成数据丢失和任务时效性下降。因此,规划设计必须充分考虑算力网络的安全稳定、高可靠光纤网络组网、动态负载均衡机制以及多层容错体系的建立,还需考虑网络拓扑的按需扩展,以支持计算资源的虚拟化编排和调度,这样才能实现跨域资源池的部署。
(4)AI负载优化:规划设计需进行动态负载分析,引入负载预测模型,实时调整算力资源分配,避免资源闲置或过载,能够支撑大规模分布式场景(如千卡、万卡集群)和低延时推理场景,考虑算力与算法的协同优化。
(5)客户流动常态化:随着市场化竞争加剧,当前数据中心客户流动已成常态,客户需求差异造成了机柜功率需求和制冷量、制冷模式的变化,传统的数据中心甚至新建的数据中心,均需通过改造来应对这种变化,比如新客户入驻,需将原有机柜功率从4~10kW改造为20kW或以上,导致末端配电和制冷模式也需进行相应改造匹配,而改造周期较长,容易错过最终客户要求的时间窗口,所以必须推进智算中心的弹性建设,弹性、广泛地适配各类客户的需求,并支持低成本灵活调度和调整[4]。
2.规划设计核心要素
与传统数据中心相比,智算中心规划设计除关注基础设施、高密散热、绿色节能外,还需围绕高并发集群网络架构、异构算力资源动态调度、基于AI的智能运维管理等要素展开系统性考量。
1)基础设施规划
智算中心的选址应分析所在地区气候条件、能源结构和组成、供配电系统可靠性、自然灾害风险、政策导向等因素,综合评估后再做决策。
智算中心基础设施规划设计应采用模块化设计理念,通过硬件解耦、接口标准化、弹性扩展架构及异构算力资源池化,支持动态拓扑适配与能效优化,实现快速部署及全生命周期内成本可控,满足高密算力灵活调度。
2)高密散热设计
针对高功率密度的特征,散热设计需聚焦冷板式/浸没式液冷技术选型、CFD仿真优化密闭通道气流组织、余热回收增加热泵提温,并部署动态调控算法应对负载波动。
3)绿色节能设计
在国家“双碳”战略背景下,相关政策对智算中心的规划设计提出了采用源网荷储、绿色能源、可再生能源、算电协同等要求。
绿色节能设计需贯穿智算中心全生命周期,对PUE等重要指标进行系统性优化,在保证系统正常运行的情况下寻求系统最优节能降耗路线。面对接入可再生能源带来的功率波动和不确定性问题,需运用多时间尺度优化调度算法及数字孪生技术构建算电协同调度模型,实现电力供需的动态平衡,保障系统运行的经济性和稳定性。
4)集群网络架构
智算中心采用何种网络架构,决定了算力集群的规模大小、能否满足高性能计算要求、能否满足系统的可靠性等,同时跟交换机和网卡芯片的硬件和软件、路径选择的算法、通信协议加速等都有关系[5]。
网络设计应基于低时延、高带宽的拓扑结构,并应采用胖树、CLOS架构来提升东西向流量的承载能力;通过引入软件定义网络(SDN)来进行流量调度和负载均衡,满足异构算力节点间的高效互访;融合AI驱动下的流量预测模型,实现网络资源自适应调整。
5)异构资源调度
智算中心集成了CPU、GPU和ASIC等多元算力单元,形成异构计算架构资源池,基于负载特征(算力需求、延时敏感度),实现按任务调度资源、按需自动分配资源功能。
算力资源规划需建立异构资源动态调度模型,基于强化学习算法实现负载感知和优先级队列排序;部署跨集群资源池化功能,支持任务级弹性伸缩,并且尽可能降低碎片率及通信开销;通过能效约束优先调度高能效硬件。
6)智能运维平台
构建智能运维平台需建立多模态数据融合平台,整合设备状态、能耗数据指标、任务负载等异构数据源来搭建数字孪生可视化模型;运用知识图谱在设备、能耗、任务之间形成语义关联,利用边缘AI控制器开展能效与故障的自我修复,提高数字孪生模型精度,实现PUE的智能调优和能效管控。
三、智算中心规划设计痛点分析
1.技术维度
智算中心由于自身技术架构复杂性,在算力协同以及网络适配性方面面临显著的制约和挑战。
1)异构算力资源协同不足
目前智算中心大多采用异构算力混合部署方式,比如CPU、GPU、FPGA、ASIC等多种类型的算力混合方式。由于缺少统一的标准、异构资源调度和接口协议不通等原因,导致算力协同没有达到理想效果,存在着大量的硬件资源闲置或者能效配置不合理等问题,这些都属于智算中心需要从系统层面上亟待解决的关键问题。建议通过建立负载特征适配机制、能效敏感型调度框架、异构生态兼容体系、采用动态调度策略优化措施来提高智算中心整体资源利用率和能效水平,减少硬件投资浪费。
2)网络拓扑设计与AI负载匹配度低
传统数据中心通常采用三层网络架构(接入-汇聚-核心),这种架构很难满足智算中心AI训练场景下的高并发通信、微秒级低时延传输等诉求,易出现网络拥塞情况。同时,基于融合以太网的RDMA协议(如RoCEv2)与CLOS网络拓扑的协同优化机制存在技术瓶颈,进一步制约了网络性能的突破性提升。网络架构设计面临以下问题:
(1)高并发通信效能瓶颈:AI训练任务参数同步流量占比超过80%,传统三层拓扑结构因跨层带宽限制易引发拥塞问题。采用CLOS无阻塞拓扑结构,并使用带有动态自适应路由算法的流量调度方法解决万卡级别的并行计算任务通信问题。
(2)超低时延传输约束:由于RDMA协议要求端到端时延≤10μs,需要积极推进硅光互连(400G/800GOSFP封装)、网络虚拟化(VXLAN/Geneve)和RDM Aover Converged Ethernet(RoCE)协议栈深度融合,利用光层切片技术以及RoCE协议栈的优化实现数据的加速传输。
(3)线性扩展能力平衡:面对万卡级GPU集群部署趋势,网络架构应支持线性扩展能力,Spine层光端口密度建议不低于64×400G,以确保整体带宽随节点数量增长呈线性提升。
(4)能效-成本协同优化:虽然硅光模块比传统光模块方案降低约40%~50%功耗,但由于其前期建设成本较高,所以需结合全生命周期成本(LCC)模型进行评估,做好CAPEX、OPEX的平衡。
3)智能运维管理
智算中心的智能化管理面临多维度的技术挑战,需在系统集成及决策优化等方面进一步提升,关键的技术问题如下:
(1)异构数据耦合性不足:设备监控、能耗管理和任务调度系统的数据没有打通,导致设备监控无法支撑能耗和任务调度工作的全局调优。建议打造跨域数据湖,基于本体建模、语义关联分析等技术建立“设备状态-能耗特征-任务负载”之间的动态映射模型,提高基于数据的决策正确性。
(2)AI模型泛化性缺陷:由于存在硬件异构,故障预测模型迁移到不同平台后模型性能会下降35%左右,因此考虑采用迁移学习以及融合在线增量学习、领域自适应算法与元学习相结合的框架来让模型能够针对新平台自主进行调整优化。
(3)数字孪生精度偏差:当仿真物理实体与对应的虚拟模型的参数失配大于10%,就会影响到仿真的可靠性,可将LIDAR点云扫描数据以及IoT实时传感数据结合起来,建立一种多模态数据融合的数字孪生体,支撑精细化运维与模拟验证。
(4)动态策略响应延迟:为解决突发负载引起的能效波动问题,须将能效优化策略做到毫秒级响应,可依托边缘AI算力部署轻量级推理模型,实现本地下发决策指令,提升系统反应速度和稳定性。
(5)故障自愈机制缺失:需构建大模型训练算力健康监测体系,实现毫秒级故障检测,并通过预置故障特征库触发秒级隔离机制,之后在业务不停机的情况下通过负载动态迁移和资源重分配恢复业务;集成自愈模块减小人工干预率,从而更好地提升故障处理效率以及系统可用性。
2.能耗与可持续性
智算中心的高功率密度特性导致其在能效优化与可持续发展层面面临系统性技术挑战。
1)PUE优化技术瓶颈
传统风冷散热技术一般较难满足高密度算力设备的散热需求,无法让PUE值下降至目标范围内。虽然浸没式液冷技术可以将PUE值下降到1.1以下,但会使建设改造成本过高并加大运维复杂度,而且由于机房本身存在热负荷不均和气流组织差的问题,再加上能源供应不稳定等多方面因素的影响,会使算力中心能效进一步降低,亟需采用数字孪生、智能感知和优化控制等技术实现场景化、精准化的自适应能效优化管理。
2)余热回收技术应用困境
智算中心产生的余热温度为35~50℃,低于区域供暖所需的60℃以上热量等级,需要采用热泵装置将余热的热力学品位提高到60℃以上才能用于供热,这将增加额外设备投资及运营成本。余热供给与热用户需求之间还存在时空耦合程度不高问题(冬季供暖期与夏季智算中心高负载期两者不匹配),在一定程度上造成了系统的能源浪费。
3)可再生能源波动性
风电、光伏发电存在间歇性和分布不均特性,不能满足智算中心不间断高负荷运行需求;平抑功率波动则需建设大量备用电源和储能设备,这将大幅提升建设运营成本,故需采用风光储荷多能互补的调度模式并利用混合整数线性规划(MILP)方法来进行新能源输出电力预测和弹性负载调节,再结合虚拟电厂(VPP)技术以提高电网调峰能力。
4)算电协同复杂性
由于计算任务负载和电力供应之间存在时空异步性及供需波动的问题,因此要求算力调度和能源配置同频协调。但是目前系统预测精度不高、响应速度较慢、优化算法不完善等问题还没有解决,多种异构能源接入以及分布式算力节点协同调度存在网络时延及通信带宽等限制问题,建立高效、灵活、具有自适应能力的算电协同调度机制,可实现算力-电力毫秒级动态匹配,优化资源配置。
3.扩展性与灵活性
智算中心在运营期中将面临系统可扩展性与灵活性挑战,主要体现在硬件技术快速迭代与基础设施刚性规划不匹配以及模块化设计标准体系缺失引发的技术碎片化问题。
1)硬件迭代速度与基础设施刚性规划的矛盾
目前AI加速芯片技术迭代周期已缩短到12~18个月,而传统数据中心供电系统升级周期至少3~5年,冷却系统升级周期更是长达5~7年,硬件技术迭代速度是传统基础设施升级周期的3~4倍,造成智算中心由于配电容量和散热能力不足难以支撑新一代智算设备需求。为应对这一挑战,建议在初始设计阶段采用“前瞻性规划”的策略,预留扩展空间和模块化扩展接口,使用可重构的供配电架构及带管线的预装式液冷系统实现按需扩容与快速部署,缩减升级改造所需的周期与成本。
2)模块化设计标准化体系缺失
尽管模块化集装箱架构能够显著提升智算中心部署的灵活性,但在实际应用中仍存在接口标准化问题,不同厂商设备之间的互操作性、通用性较差,集成难度较大,维护复杂度高;跨厂商设备之间大多没有统一标准的数据、电源管理、冷却系统接口,需要进行二次定制开发才能实现互通互联,这些都会影响系统的整体效率和可靠性。
相关主管部门及行业组织应积极推动制定和推行统一的模块化设计标准规范,包括统一的硬件接口、软件协议、电气接口、通信协议等,使不同厂家设备可以做到无缝衔接和高效集成,有效提升智算中心的可扩展性和适应性,满足不断变化的应用需求和技术进步要求。
4.成本控制
智算中心成本控制涉及建设与运营全周期,其痛点主要体现在投资平衡与供应链风险两方面。
1)初期建设成本与长期运营成本的平衡难题
一般来说,为满足高算力密度需求,智算中心往往采用液冷、高性能光模块等高成本方案,虽然在前期投入上较传统数据中心高2~3倍,但在长期运行过程中将显著降低能耗费用,比如采用液冷方案可以使PUE保持在1.1左右,比风冷方案减少30%~40%能耗,而过度压缩初期投资(比如选择低效的风冷方案)会导致PUE升高,从而增加长期电费支出。这种“长短期成本博弈”加剧了决策复杂性,要求在初始设计阶段进行全面的成本效益分析。
2)国产化替代带来的挑战
在“自主可控”政策的推动下,国产GPU和交换设备开始逐步替代进口产品,对整个供应链自主性、安全性有一定的提升。但由于国产硬件在性能上仍存在一定差距,导致实现同等算力水平需要配置更多硬件及配套设备。同时国产化芯片生态还有待进一步丰富,尤其软件方面问题比较突出,比如CUDA等兼容性问题就要求企业在使用国产化替代品过程中增加适配层开发,存在一定的软件迁移和维护费用支出。所以建设运营方在国产化替代过程中需根据自身情况在供应链安全与成本控制之间进行平衡。
四、应对策略与解决方案
1.架构设计优化策略
针对智算中心异构算力协同效能不足与网络传输性能受限的系统性问题,本文提出分层架构优化方案,旨在提升计算资源利用率、降低端到端通信时延,并增强系统弹性扩展能力。
1)负载特征驱动的动态资源调度框架
根据AI训练与推理任务所特有的计算密度高、内存带宽要求高和实时性要求高的异构特性,建议构建基于工作负载特征的动态资源调度模型。模型采用部署负载感知调度器来采集算力要求、内存访问模式、QoS等级等内容生成任务特征向量,将任务特征向量输入到基于DQN算法的RL模型中训练得到CPU、GPU、ASIC等多级资源的合理调度规则,并以此进行调度决策。
建立统一的算力资源池化机制,建设跨集群、跨节点的资源池系统,消除“资源孤岛”问题,既可以按需提供可调度的计算资源,也可以根据实际负载自动调整资源分配,提高任务执行效率,降低资源闲置,提升系统响应速度和服务质量。
2)光互联与RDMA技术融合的网络架构
要支持大规模分布式训练场景下的高并发、低延时通信就需要对网络架构进行针对性设计,建议采用光互联和RDMA相融合的方案。可以采用400G/800G Silicon光模块及RoCEv2协议实现GPU等计算节点间的微秒级通信延时和Tb级通信带宽,满足千卡级集群大流量高并发通信需求。
在网络拓扑层面,推荐使用CLOS无阻塞架构与自适应路由相结合的方法,将东西向流量尽可能打散到多条链路上,实现链路的动态负载均衡,提高链路利用率,解决链路拥塞问题,并能在保证性能的同时做到提升系统扩展性和稳定性。
2.绿色节能技术应用
为应对智算中心日益严峻的能耗压力,建议采用以“液冷+热回收+智能调控”为核心的技术路径,构建多层级能效优化体系,突破能效瓶颈。
1)异构热负荷分区制冷方案
针对算力节点不同区域功率密度存在较大差异的现状,提出分区制冷系统方案。在高密度区域(如GPU集群)布置冷板式或浸没式液冷系统,使其单机柜散热能力达到30kW以上;对于中、低密度区域布置间接蒸发冷却系统,充分利用自然冷源,降低机械制冷负荷,提高系统整体能效水平。
智算中心建设方应考虑同步建设余热梯级利用系统,利用吸收式热泵将液冷系统所排废热从35~50℃提温至60~70℃用于区域供暖或工业应用,使智算中心由“能源消耗端”转变为“能源循环节点”,进一步提高能源综合利用价值。
2)数字孪生驱动的PUE动态优化
为提高能效管理水平,算力中心建设方应搭建基于数字孪生平台的AI能效优化系统,在平台上部署LSTM等深度学习模型,以IT负载、温湿度参数、设备能效曲线多维参数为输入对各端口IT负载和环境温湿度趋势进行预测,根据预测结果进行液冷系统流量分配及机械制冷切换阈值调节,并据此实现制冷系统的COP动态优化。
在边缘端部署AI控制器,实时采集并调节机柜内微环境各项参数,将机柜内各节点的局部热点温度波动控制在±1.5℃以内,从而可有效将PUE降至1.15以下,显著提升智算中心能效。
3.弹性扩展方案
为应对智算中心在硬件快速迭代与持续高密度增长背景下的扩展需求,建议构建“统一荷载+模块化预制+软件定义”的弹性架构,以实现高效、灵活的资源管理和扩展能力。
1)土建按全楼统一大荷载设计
基于智算中心全生命周期承载能力考虑,机房楼土建方案宜按照统一的大荷载(建议16kN/m²)一次性建成,此方案既能满足高密机柜、液冷机柜等不同物理形态承载要求,又能根据后续需求变化去满足不同算力机房及电力机房的布局需要。虽然初期建设成本会有所增加,但就长远看,这种形式具有更高的弹性和适应性,可以更好地应对未来算力设备迭代快、功率密度增长快的趋势。
2)预制模块化集装箱式部署
建议选取符合ISO668集装箱标准(如20英尺或40英尺)的预制集装箱模块产品进行模块化部署,便于运输和堆叠。内部设计需要考虑多厂商设备的安装空间,可预留冷/热通道以提高散热效果,模块长边为拼接结构可实现横向无缝扩展,并预留上部管线接口;模块间应预留标准化的电力、网线接口,可以做到“即插即用”扩容,实现快速部署。
中国电信集团在2023年12月发布的《新一代智算数据中心(AIDC)基础设施技术方案白皮书(2023年)》中提出“弹性方舱”并推出全风冷、风液混合、全液冷3种单舱布局,可以灵活提供120~720kW IT设备功耗需求,配电统一采用630A智能小母线,制冷方案可按需部署列间空调和冷板式液冷。弹性方舱布局间可按需切换,灵活应对客户流动和机柜功率宽幅变化。弹性方舱作为基本单元,还可通过积木式堆叠方式实现弹性扩展,由方舱级扩容至机房级、楼层级的平面布局,组建万卡级智算集群,满足不同规模的智算需求业态[4]。
3)软件定义基础设施
为了提升系统灵活性和资源利用率,需要进一步深化“软件定义基础设施(SDI)”这一理念,基于API抽象层将硬件和软件分离,同时可以实现对异构算力资源的统一纳管与调度。
针对AI芯片高频迭代、供应链安全等问题,算力项目多采用“算力混合部署”方式,由此带来的跨芯片算力管理需求,可利用动态资源池进行分配调度,提供按需分配、按需使用的计算资源,实现算力资源弹性供给以及智能运维,增强智算中心对多样化应用场景下算力任务的适应能力。
4.全生命周期成本管控
建议从全生命周期成本(LCC)视角出发,建立包含规划、建设、运维退役等全周期的多目标成本优化体系;同时基于国产化设备分级替代原则,平衡初期投资与长期运营效益,优先选用技术成熟、易于维护的国产化软硬件解决方案。
1)基于LCC的决策模型
运用全生命周期成本(LCC)模型,将资本性支出(CAPEX)、运营支出(OPEX)、能耗支出(EC)、设备退役处置(DCC)等各阶段成本纳入同一评价体系并对比各种技术路径、设备选型下的长期经济性,据此合理配置资源,优化能效管理策略,提高智算中心经济性;引入蒙特卡罗模拟法开展技术选型及投资回报多情景风险评估,合理分配资源及配置投资组合,提高决策的科学性与抗风险能力。
2)国产化供应链分级替代路径
建立“国产化供应链分级替代路径”,按核心技术自主可控水平和成熟化程度,分阶段推进关键部件的国产化替代。优先实施基础设施层国产化替代(如电源、机柜),逐步推进计算层替代(如芯片),最终实现软件生态自主可控(如操作系统、开源框架),降低外部供应链风险,保障智算中心安全、稳定且可持续发展。
5.规划设计流程标准化建议
建议建立标准化的规划设计流程框架,推动跨学科协同机制,提升规划设计效率、提高系统集成标准化程度,确保多专业协作的高效性与一致性。
五、结论
本文从技术角度剖析了目前智算中心在规划设计过程中所面临的关键技术挑战及应对策略,阐述了高算力需求背景下基础设施建设存在的特殊问题与解决路径。通过采用动态资源调度模型、光互联/RDMA融合技术有效解决异构算力协同困难、网络架构不匹配及算力效率低下问题;针对能耗、可持续性问题,提出利用液冷、间接蒸发冷的混合散热方案结合AI驱动的节能算法降低PUE;对于扩展性、成本控制问题,选择预制模块化布局方式来支撑快速扩容需求,同时采取国产化分级替代方法降低LCC,提高系统的经济性、可控性。
智算中心作为新型信息基础设施,是支撑人工智能技术及产业发展的重要基石。智算中心高功率密度、绿色低碳等需求以及各子系统(供配电、暖通、算力等)新技术、新设备的快速演进给前期规划设计工作带来了全新挑战,需要产业链上下游通力合作、跨学科协同、不断创新,共同助力智算中心高质量发展。
参考文献
[1]国家数据局.2024年全国数据生产量同比增长25%智能设备数据增速居前列[EB/OL].https://mp.weixin.qq.com/s/cectoRtHiAGWqmHLGw-VEg.2025-04-30.
[2]工业和信息化部.工业和信息化部等六部门关于印发《算力基础设施高质量发展行动计划》的通知
[EB/OL].https://www.miit.gov.cn/jgsj/txs/wjfb/art/2023/art_ed448f60021741729f7ee8e36aaafdd7.html.2023-10-08.
[3]工业和信息化部.工业和信息化部等十一部门关于推动新型信息基础设施协调发展有关事项的通知
[EB/OL].https://www.miit.gov.cn/zwgk/zcwj/wjfb/tz/art/2024/art_b0927b0d4cba4ff89652bb64f74899d1.html.2024-09-04.
[4]中国电信集团有限公司.新一代智算数据中心(AIDC)基础设施技术方案白皮书(2023年)[EB/OL].https://mp.weixin.qq.com/s/Vhm_bmrExVxK9AKMa2ynKg.2024-12-29.
[5]钛媒体.智算中心太“多”,大模型不够用了[EB/OL].https://mp.weixin.qq.com/s/Mpy-AbQmu5y2PLXfyNxkFw.2024-11-20.
作者简介
丁宇亮,硕士,工程师,主要从事信息基础设施、数据中心及智算中心基础设施咨询、设计等工作。
编辑:Harris