随着信息技术的飞速发展,智算中心作为数据处理和计算的核心枢纽,其重要性日益凸显。智算中心承载着大量的计算任务,为人工智能、大数据分析等众多领域提供强大的计算支持。它就像是一个超级大脑,汇聚了海量的数据和先进的算法,能够快速处理复杂的问题,为各行业的发展提供有力的技术保障。
一、可靠的供电系统是智算中心的生命线
然而,要确保智算中心的稳定运行,其供电系统是至关重要的一环。首先,智算中心的设备通常具有高功率密度的特点,首先是要求供电系统能够提供足够的电力容量。如果电力供应不足,可能会导致设备无法正常运行,影响计算任务的完成,甚至可能造成数据丢失等严重后果。
其次,供电系统的稳定性也是关键。智算中心需要持续稳定的电力供应,任何短暂的停电或电压波动都可能对设备造成损害。因此,我们需要采用高质量的供电设备,如不间断电源(UPS)系统,以确保在市电中断的情况下,能够为设备提供临时的电力支持,保证数据的完整性和设备的安全。
另外,供电系统的可扩展性也不容忽视。随着智算中心的业务不断发展,计算设备的数量可能会增加,对电力的需求也会相应增长。这就要求供电系统能够方便地进行扩展,以适应未来的发展需求。
在设计和建设智算中心供电系统时,我们还需要考虑能源效率问题。智算中心的能耗通常较高,如何提高供电系统的能源效率,降低运营成本,是我们需要关注的重点。我们可以采用先进的节能技术,如智能电源管理系统,根据设备的实际运行情况动态调整电力供应,避免能源浪费。
同时,为了确保供电系统的可靠性和安全性,我们还需要建立完善的监测和维护机制。通过实时监测供电系统的运行状态,及时发现潜在的问题,并采取相应的措施进行修复。定期对供电系统进行维护和保养,更换老化的设备和部件,也是保障供电系统长期稳定运行的重要措施。
随着智算中心功率需求的快速增加,从原有的单柜6kW,直接跃升到要应对英伟达GB200级别的GPU超级芯片。2024年英伟达新近发布的这款芯片产品功率达到2024年英伟达新近发布NVL72,单柜到132kW,这种变化彻底重塑了电力设计的需求。传统的数据中心需要配置大量机柜,而如今的智算中心仅需少量高功率密度机柜即可满足需求,这对供配电系统的灵活性、不确定性和适应性提出了极为苛刻的要求。
资源池化成为解决这一问题的关键举措,通过资源池化可以实现高弹性供配电系统,从而适应不同的应用场景和快速变化的能源需求。在产品架构上,为了提高电源使用率和应对高功率消耗,维谛技术已经在海外采用分布冗余(DR)和后备冗余(RR)先进架构,并努力推动国内大型互联网公司向这一更加高效、可靠的供配电模式转型,这些新型架构能够更有效地利用电能,提升算力,同时降低电力损耗。
二、智算中心与通算中心具有的特点和区别
三、智算中心供电系统的节能技术
1.电源管理芯片技术
1)智能调节电压和频率
现代智算中心的服务器和相关设备通常配备先进的电源管理芯片。这些芯片能够根据设备的实际负载情况,动态地调节供电电压和频率。例如,当服务器处于低负载状态时,芯片会自动降低电压和频率,从而减少电能消耗。这种智能调节技术可以在不影响设备性能的前提下,显著提高能源效率。
2)实现精准供电
电源管理芯片可以对不同的组件或模块进行精准供电。它能够根据各个组件的功耗需求,分配恰到好处的电量,避免了过度供电造成的能源浪费。例如,对于一些暂时处于闲置状态的硬件模块,可以减少或暂停供电,直到其被重新启用。
2.高效不间断电源(UPS)系统
1)采用先进的电池技术
新型的UPS系统开始采用一些高性能电池技术,如锂离子电池。与传统的铅酸电池相比,锂离子电池具有更高的能量密度和充放电效率。这意味着在相同的储能需求下,锂离子电池可以更小更轻,并且充电过程中电能损耗更小,从而提高了整个UPS系统的能源利用效率。
2)智能休眠模式
一些高端UPS具备智能休眠模式。当市电正常且设备负载较低时,UPS的某些模块可以自动进入休眠状态,降低自身的能耗。一旦检测到市电异常或负载增加,这些模块能够迅速唤醒并恢复正常工作,确保对智算中心设备的不间断供电。
3.智能配电系统
1)实时负载监测与动态分配
智能配电系统可以实时监测各个支路和设备的用电负载情况。根据这些数据,它能够动态地调整电力分配,将电能优先供应给最需要的设备或区域。例如,如果某些服务器的负载突然增加,配电系统会及时分配更多的电力资源给它们,同时减少对负载较轻区域的供电,避免了整体电力的浪费。
2)功率因数校正
许多智算中心设备的非线性负载特性会导致功率因数降低,从而增加电网的无功损耗。智能配电系统可以集成功率因数校正技术,通过补偿无功功率,提高功率因数,使电能得到更有效的利用,减少了因无功电流在电网中传输造成的能量损失。
4.数据中心基础设施管理(DCIM)系统辅助节能
1)能耗数据分析与优化建议
DCIM系统可以收集和分析供电系统以及整个智算中心的能耗数据。它能够识别出能耗较高的设备、时间段或操作模式,并提供针对性的优化建议。例如,如果发现某个服务器在特定业务场景下能耗异常高,DCIM系统可以建议调整该服务器的配置参数或优化相关业务流程,以降低能耗。
2)与供电系统协同工作
DCIM系统可以与供电系统中的各种智能设备进行通信和协同工作。它可以根据供电系统的实时状态,如电压波动、剩余电量等,对智算中心的设备进行合理的调度和管理。例如,在市电不稳定且UPS电量有限的情况下,DCIM系统可以指导某些非关键设备进入低功耗模式,以延长UPS的供电时间,确保关键设备的正常运行。
四、智算中心的应用场景
1.自动驾驶:智算中心可以为自动驾驶提供强大的算力支持,帮助车辆实时处理大量的传感器数据,进行快速准确的环境感知、路径规划和决策制定。例如,小鹏汽车与阿里云共建的自动驾驶智算中心“扶摇”,将支持自动驾驶核心模型的训练时长大幅缩短。
2.智慧医疗:医疗机构可利用智算中心实现诊断、治疗工作的智能化。如辅助诊疗,通过分析医疗影像、病历数据等,提供更精准的诊断建议。
3.文娱创作:在文娱领域,AIGC(人工智能生成内容)将成为数字内容生产的长期发展方向,智算中心可助力创作,例如生成文本、图像、音乐等各种创意内容。
4.智慧科研:为各领域科技研发提供智能计算服务,加速科技研发的进程。例如,北京大学化学与分子工程学院靶向药物研究团队通过应用智能计算解决方案,构建了“超大规模蛋白—配体复合物动力学”数据集,计算效率大为提升,为人工智能辅助的活性预测模型提供了数据基础。
5.金融科技:支持实时数据分析和风险评估,提升客户服务水平和市场应变能力,例如高频交易和实时风险控制等。
6.生物识别:实现对人脸、指纹、虹膜等生物特征的快速准确识别和验证。
7.智慧城市:通过分析城市中的各种数据,如交通流量、能源消耗、公共安全等,优化城市管理和资源配置,提升城市的运行效率和生活质量。
8.工业制造:帮助企业优化生产流程、提高生产效率、实现质量检测和设备预测性维护等。例如智己汽车科技有限公司通过飞天智算平台提供的高性能计算,将智能驾驶训练效率提升了70%,加速了新车型的研发上市。
9.智能网联汽车:有效降低自动驾驶模型训练成本,大幅提升计算效率,推动车端感知架构升级。
10.科学计算:进行复杂的科学模拟和计算,例如天气预报、材料科学研究等。
随着技术的不断发展,智算中心的应用场景还将不断拓展和深化,为更多行业带来创新和变革。
以下是几个领先的智算中心案例:
1.华为云智算基地(贵州贵安新区)
华为云是华为全球最大且领先的智算中心。未来三年,华为将在贵安持续增加NPU卡部署,并确保智算中心的PUE值不高于1.2。贵安华为云数据中心全球指挥中心项目总建筑面积约14.4万平方米,其中,地下室面积约6.26万平方米、地上面积约8.14万平方米,主要由3栋办公楼、1栋食堂、5栋公寓共9个建筑单体组成。项目主要功能为华为全球管理数据存储中心(私有云)、华为全球IT维护工程师基地、华为大学战略预备队训战实习基地。
2.海底智算中心平台(海南陵水)
该平台是在海南陵水海底数据中心一期项目基础上迭代而来,海底智能计算中心项目规划建设超过2000PFlops(FP16精度,1PFlops等于1000万亿次计算)的高质量算力集群。将部署高功率密度的人工智能服务器,充分利用海底数据中心高功率、高能效的特性。以1MW外电配给为参考,海底智算中心凭借高功率密度设计,单舱可提供1400PFlops算力,算力效率提升40%。同时,海底智算中心全年使用海水作为自然冷源,海底智算中心常年实际运营PUE小于1.1。
3.中国移动智算中心(呼和浩特)
这是全球运营商最大单体智算中心。项目设备总功耗约19600kW,部署服务器总规模约2950台,算力能力可达到6E(6000P)FLOPS,总投资超20亿。其智能算力规模高达6.7EFLOPS(每秒670亿亿次浮点运算),国产化算力占比超85%,对于推动我国人工智能产业发展具有重要意义。
截至今年6月底,中国移动已在京津冀、长三角、粤港澳大湾区、内蒙古等投产首批13个智算中心节点,智能算力规模快速增长、达到19.6EFLOPS(2024年上半年新增智能算力9.5EFLOPS,智能算力在总算力占比超70%。
4.xAI超级计算中心
由马斯克的xAI团队和英伟达团队花费122天搭建完成。该计算中心由10万个液冷H100GPU组成,还可扩充5万个H100和5万个H200。其舍弃了传统的本地存储方式,采用超快的网络存储架构和数个EB大小的存储系统组成,网络架构传输速度快,且使用液冷设计系统和特斯拉的megapack电池组来确保供电的稳定,具有超强的计算能力。xAI在美国田纳西州孟菲斯建立的数据中心已初具规模。该数据中心宣称全球最大,用于训练xAI的AI模型Grok的新版本。为加速AI模型训练,马斯克已宣布将数据中心内的GPU数量从10万个增加到20万个。
xAI使用的是Supermicro 4U通用GPU系统。
5.贵安美的云
美的楼宇科技与华信设计院携手,为贵安美的云数据中心打造了全面的温控+电梯+一体化电源设备的整体解决方案,随着贵安美的云的投入使用,,实现了PUE低至1.17的效果,达到国内领先数据中心水平。该项目的成功实施,不仅为美的集团未来十年的数字化算力需求和制造业云服务等创新业务提供了有力支持,更为我国算力基础设施建设产业的绿色升级树立了典范。
结语:总之,智算中心及其供电系统是一个复杂而又关键的领域。我们需要充分认识到供电系统对于智算中心的重要性,从电力容量、稳定性、可扩展性、能源效率以及监测维护等多个方面进行综合考虑,设计和建设出一个可靠、高效的供电系统,为智算中心的稳定运行提供有力保障。
作者简介
中国电源学会信息系统供电技术专委会副主任委员,北京电子学会常务理事、北京电子学会计算机委员会秘书长,北京银星通达科技开发有限责任公司总裁,《数智元》杂志&机房360网总编。
编辑:Harris