咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
NVIDIA集成AI超算中心经验,打造AI就绪型数据中心
  • 传统数据中心向人工智能(AI)转型已是大势所趋。

    NVIDIA集成AI超算中心经验,打造AI就绪型数据中心
      
      传统数据中心向人工智能(AI)转型已是大势所趋。
      
      一方面,从智能客服、智能安防、智能风控、智能运维到智能质检,愈加丰富的智能化应用致使存储需求呈现指数级增长,并对数据中心的算力提出新的挑战。
      
      另一方面,AI正打破传统数据中心的管理和运营模式,完成更为精准的系统调优、故障预判等任务,替代更多人力,减少能耗和资源浪费,更大程度释放生产力。
      
      作为AI时代的基础设施,AI硬件正成为越来越多数据中心扩容建设的关键所在。尤其是能源、银行、保险、制造、电信、医疗等重度存储用户,急需加速AI的基础架构方案。
      
      当超强计算力成为数据中心的刚需,NVIDIAGPU凭借强大的并行计算和浮点能力突破了深度学习的算力瓶颈,成为AI硬件的首选。
      
      然而,对于许多传统数据中心而言,部署包含AI硬件的基础设施,需要耗费许多时间与人力。
      
      对此,NVIDIA基于GPU软硬件生态系统,提供了一站式交付节点解决方案DGXPOD。
      
      这一方案可以大大节省构建基础设施所花费的时间,帮助数据中心轻松快速进行AI部署,为扩展多GPU服务器节点提供更多支持。
      
      本期的智能内参,我们推荐《NVIDIADGXPOD数据中心参考设计》白皮书,从传统数据中心的AI转型之困着手,结合DGXPOD的应用实例,解读NVIDIADGXPOD交付节点的核心亮点,为亟待快速转型AI的数据中心架构师,以及准备构建AI就绪型数据中心提供参考。如需查阅此白皮书《NVIDIADGXPOD数据中心参考设计》,可直接点击:NVIDIADGXPOD数据中心参考设计白皮书-白皮书下载-英伟达AI计算专区-智东西下载。
      
      以下为智能内参整理呈现的干货:
      
      NVIDIA集成AI超算中心经验,打造AI就绪型数据中心
      
      数据中心AI转型遭遇困局
      
      大数据、AI与云计算等新兴技术卷起新的浪潮,在各类数据中心中形成连锁反应。海量数据处理任务涌入数据中心,面对人工智能应用的训练和推理,令传统的CPU服务器难以招架。
      
      深度学习算法属于计算密集型算法,与NVIDIAGPU计算架构十分契合。过去CPU需要花数十天完成的计算任务,通用GPU只用几小时就能完成,这大幅提升深度学习等并行处理数据方法的计算效率,使得以GPU为基础的设备日渐成为各大数据中心进行深度学习训练的首选。
      
      然而,即便部署了强大的硬件设备,也不意味着数据中心的AI转型计划就万事俱备了,还有一个关键问题摆在眼前——架构设计。
      
      数据中心需要考虑的因素远不止算力,还需兼顾网络、存储、电源、散热、管理和软件等方面问题。
      
      硬件组合不是简单粗暴的积木堆叠,并不是说计算节点越多,性能就会随之线性增长。其计算性能会受制于高速互联网络,一旦出现数据拥堵,整机系统的效率都可能被拖累。另外,过多计算硬件堆叠,可能导致功耗过大,不利于日后的运营。
      
      因此,数据中心必须思考如何打造了降本增效的最佳方式,将各种硬件资源协同组合,在稳定安全的状态下,以超低延迟和高带宽访问数据集。
      
      这对于缺乏AI部署经验的传统数据中心而言,无疑是个不小的挑战。如果DIYGPU计算节点,不仅需要耗费人力和时间成本,还要考虑计算、存储、交换机等各种硬件设备的集成兼容问题。
      
      对于这一痛点,NVIDIA提供了一个颇有吸引力的解决方案。
      
      它通过与领先的存储、网络交换技术提供商合作,提供一系列DGXPOD数据中心交付节点设计参考架构,将NVIDIA长期积累的超大规模数据中心AI部署经验,转化为可复制方案,无论是大中小型数据中心,均可以直接参考使用。
      
      NVIDIA集成AI超算中心经验,打造AI就绪型数据中心
      
      NVIDIAAI超级计算机构建经验转换
      
      DGXPOD交付节点(PointofDelivery)是一种经优化的数据中心机架,包含多台DGX-1或DGX-2服务器、存储服务器和网络交换机等最佳实践。
      
      NVIDIA集成AI超算中心经验,打造AI就绪型数据中心
      
      ▲DGXPOD参考架构正面图
      
      这是NVIDIA构建大量超大规模GPU加速计算节点的经验之集大成者。NVIDIA曾建立了大型的AI数据中心,包含数千台领先的DGX服务器加速计算节点。
      
      今年6月,NVIDIA宣布推出全球速度排名第22位的超级计算机DGXSuperPOD,为企业快速部署自动驾驶汽车项目,提供同等大小的超算无法匹敌的AI性能。
      
      SATURNV亦是NVIDIA基于DGX系统构建的AI超级计算机,支持自动驾驶汽车、机器人、显卡、HPC等多领域的NVIDIA内部AI研发。早在2016年推出之际,DGXSATURNV就登上Green500超算榜第一,被评为全球最经济高效的超算,整体运算速度位列第28位,是最快的AI超算。
      
      基于使用SATURNV所遵循的设计原则和架构,NVIDIA在短短三周内就打造出一套基于NVIDIADGX-2配置的全新系统DGXSuperPOD。近期NVIDIA借助一套基于DGX-2的配置在MLPerf基准测试中创下六项AI性能记录。
      
      在将DGXSATURAN打造成所有企业都可复制的、经验证的设计过程中,NVIDIA经过实地检验积累了丰富的经验,并将计算、网络、存储等多方面的最佳实践,集中于NVIDIADGXPOD的设计之中。
      
      如今,包括Arista、思科、DDN、DellEMC、IBMStorage、Mellanox、NetApp和PureStorage等在内的业内数据中心领导者已围绕DGXPOD,推出了基于其各自特有技术的相关产品。
      
      这些集成系统均为客户提供经过经验验证的可靠方法,这意味着,每个企业都能量身定制完全适配自身需求的AI超算中心。
      
      例如,基于DGXPOD,NetApp推出了NetAppONTAPAI融合基础架构。其由NVIDIADGX-1服务器、NetApp云互联存储系统提供支持,是NVIDIA和NetApp联合开发和验证的架构。
      
      借助这一架构,企业可以从小规模起步进行无缝扩展,智能管理跨边缘、核心和云以及反向数据传输的完整深度学习数据管道,简化AI部署。
      
      围绕NVIDIADGXPOD参考架构和NetAppONTAPAI,英国剑桥咨询公司构建了一套专门的AI研究设施,用于训练一个能即刻准确识别各种音乐流派的AI“狂热爱好者”。
      
      借助参考框架,其AI项目所带来的对计算、存储、网络设施的需求均得到满足。经过在16台NVIDIAGPU上接受数百小时的音乐训练,这位特殊的音乐爱好者,在“听音识流派”的准确度上,甚至超越了人类和传统编程。
      
      NVIDIA集成AI超算中心经验,打造AI就绪型数据中心
      
      AI软件:调优DGX硬件,降低管理门槛
      
      除了设计优化的DGX服务器、存储服务器和网络交换机组合,DGXPOD上还运行一整套适配的NVIDIAAI软件堆栈,极大简化DGXPOD的日常操作与维护,为大规模多用户AI软件开发团队提供高性能的深度学习训练环境。
      
      NVIDIA集成AI超算中心经验,打造AI就绪型数据中心
      
      ▲NVIDIAAI软件堆栈
      
      NVIDIAAI软件包括DGX操作系统(DGXOS)、集群管理和协调工具、工作负载调度器、来自NVIDIAGPUCloud(NGC)容器注册表的和优化容器,可以为使用者提供优化的操作体验。
      
      DGXPOD管理软件可根据需要,自动创新安装DGXOS。DGXOS是NVIDIAAI软件堆栈的基础,基于优化版UbuntuLinux操作系统构建,并专门针对DGX硬件进行调优,支持各种NVIDIA库和框架及GPU的容器进行时。
      
      NVIDIA集成AI超算中心经验,打造AI就绪型数据中心
      
      ▲DGXPOD管理软件层
      
      DGXPOD管理软件层由Kubernete容器协调框架上运行的各项服务组成,可通过网络(PXE)为动态主机配置协议(DHCP)和全自动DGXOS软件配置提供服务。
      
      通过使用其简单的用户界面,管理员可在由Kubernetes和Slurm管理的域中移动DGX服务器。未来Kubernetes增强功能预计在纯Kubernetes环境中,支持所有DGXPOD用例。
      
      DGXPOD上的NVIDIAAI软件可借助Ansible配置管理工具进行管理,白皮书中有提供其开源的软件管理堆栈和文档在Github上的链接。
      
      智东西认为,DGXPOD一站式交付节点解决方案,不仅能加速数据中心的AI部署效率,同时也通过提供更强大的算力,大幅度提升数据的利用效率。
      
      当前,很多数据中心刚刚踏入或计划踏入AI的大门,而当下主流的深度学习算法必须配备专业的AI基础设施。基于NVIDIADGXPOD的架构方案,对于快速构建大规模AI计算集群非常具有参考价值。随着此类基础架构逐渐普及,更多数据中心将得以消除设备与资本预算之间的鸿沟。
      
      这只是NVIDIA打造AI就绪型数据中心宏图的重要版面之一,利用DGX-1、DGX-2服务器和NVIDIAGPU大规模计算架构的发展进步,NVIDIA正将机器学习、深度学习和高性能计算(HPC)扩展到更多的数据中心,为金融、能源、制造、电信、医疗、科学计算等更多行业的生产力提升提供动力引擎。
      
      编辑:Harris

     

    传统数据中心向人工智能(AI)转型已是大势所趋。