国产芯片真的不够用么?中国数据中心芯片供应真相
- 2025/11/19 7:25:51 作者: 来源:UPS应用
-
第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。
第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。
这几天关于国产数据中心芯片有很多市场讨论,本文将综合2025年下半年以来各方消息从中国芯片供应角度为大家带来市场情况分析,由于当前大量国产芯片已经推出了最新版本,以下数据仅供参考。
中国AI芯片供应商格局及性能
与美国芯片供应主要由NVIDIA主导、许多领先CSP开发自有ASIC不同,中国AI芯片竞争格局同样更加分散,可分为四个群体,在芯片性能和服务不同类型客户方面存在显著差异:
以总处理性能(TPP)作为评估单芯片性能的指标,发现Ascend910C处于中国芯片性能的顶端,约为H100性能的65%,尽管实际计算能力受到许多AI芯片用户与CUDA基础设施兼容性的限制。
第二梯队包括HygonBW1000(DCU3)、Ascend910B和CambriconSiyuan590,性能与NVIDIAA100大致相当随着CloudMatrix384的推出,对于训练场景具有比较明确的竞争力
对于推理应用,许多中国芯片已经获得了一定份额,特别是凭借有吸引力的定价。值得注意的是,中国AI芯片供应商在过去几年一直积极投资新AI芯片型号的研发,考虑到出口限制,预计本土AI芯片相比全球领先企业的芯片将变得越来越有竞争力。在供应方面,竞争格局也非常复杂。不过,除了全球GPGPU供应商外,HuaweiAscend、Cambricon和Hygon被视为一级中国供应商。
P_005(1)
据估计,Nvidia在2024年中国AI芯片市场占66%市场份额,Huawei占23%。机构对2025年预测表示,预计即使H20重新开放,Nvidia的份额也将降至54%,因为中国本土供应几乎比去年翻倍——当然,今年的环境与机构预测有了较大差异,国产化的占比进一步提升。
P_006(2)
中国AI芯片市场预计在2025年翻倍,Nvidia和Huawei等主要供应商销量近乎翻倍,同时出现更多小型企业以及CSP自研ASIC。
P_007(1)
即使最优秀的中国AI芯片仍远落后于全球主要供应商,使得在GPGPU上训练与NV相当的大语言模型(LLM)变得困难。中国芯片目前依然更专注于推理优化以及小语言模型(SLM)微调和后训练,但Ascend910C应该可能在一些基础模型训练任务中发挥作用。
P_008(1)
"总处理性能"('TPP')是2×'MacTOPS'×'操作位长度',汇总集成电路上所有处理单元。3A090.a:(1)'总处理性能'4800或以上,或(2)'总处理性能'1600或以上且'性能密度'5.92或以上。3A090.b:(1)'总处理性能'2400或以上且少于4800,'性能密度'1.6或以上且少于5.92;或(2)'总处理性能'1600或以上,'性能密度'3.2或以上且少于5.92。
P_009(1)
Ascend、Cambricon和Hygon视为中国一级AI芯片企业。
P_010
接下来,重点阐述GPGPU/ASIC市场中全球和中国企业在架构、计算、存储、集群和软件维度的结构性和功能性差异。
P_011
架构
全球主要GPGPU企业采用自主开发的尖端架构,针对高性能计算(HPC)的通用性进行优化。例如:NVIDIA的Ampere、Hopper和Blackwell架构,专为AI训练、科学模拟和图形渲染等任务设计。AMD的RDNA(用于独立GPU)和CNDA(用于数据中心GPU),强调效率和可扩展性。这些架构优先考虑广泛适用性和技术领先地位。而中国GPGPU/ASIC企业则倾向于专注于针对细分市场或监管要求定制的特定应用架构。
计算精度和算力
全球主要供应商通常支持广泛的精度格式(FP64、FP32、FP16、BF16、FP8、FP4、INT8),支持多样化的HPC工作负载。NVIDIA的FP16计算能力范围从300-2000TFLOPS(如H200、B200)。AMD的FP16能力跨越300-1300TFLOPS(如InstinctMI250X/MI300X)。这种多功能性支持分子建模和实时分析等复杂任务。而中国企业主要支持FP16、BF16和INT8,对FP8/FP32的支持有限。他们的FP16/BF16计算能力通常在100-300TFLOPS范围内(如HuaweiAscend910、CambriconMLU270)。
存储和内存带宽
全球主要供应商采用多级缓存架构和高带宽内存(HBM)技术(如HBM2e、HBM3、HBM3e)来最大化数据吞吐量。例如,NVIDIAH100GPU通过80GBHBM3实现3TB/s内存带宽,B300通过144GBHBM3E实现8TB/s带宽。AMDInstinctMI250X通过HBM2E提供3.2TB/s带宽,MI300X通过192GBHBM3提供5.3TB/s带宽。这些配置减少了大规模AI训练等数据密集型工作流程的延迟。而中国企业使用更简单的缓存层次结构和较低带宽内存(如HBM2、GDDR6)。
集群和互连能力
全球主要供应商通过高速互连在大规模集群性能方面表现出色。NVIDIANVLink最新实现提供1.8TB/s带宽(如GB200/GB300NVL72形态)。AMDInfinityFabric支持896GB/s的GPU间通信(如InstinctMI300X)。这些技术支持百亿亿次超级计算等任务的可扩展数据中心。而中国企业提供中等集群性能(200-400GB/s),在大规模优化方面受限。值得注意的例外包括HuaweiCloudMatrix384:一个384-GPU集群,采用自主开发的统一总线用于AI工作负载。大多数中国解决方案在跨节点可扩展性方面仍然受限。
软件生态系统
全球主要供应商提供成熟的开源软件栈,拥有广泛的开发者支持,如NVIDIACUDA,GPU编程的事实标准,拥有cuDNN和TensorRT等库。以及AMDROCm,面向HPC和AI的开放生态系统,得到PyTorch和TensorFlow等框架支持。这些生态系统确保企业用户能够快速部署和优化。中国企业开发专有软件栈。
编辑:Harris
第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。
