咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
谷歌公司正在转向自驱动数据中心管理系统
  • 谷歌利用人工智能优化数据中心效率已经进入了一个新阶段,机器学习算法现在可以实时自动调整冷却设备设置,系统建立在谷歌之前透露的工作基础之上基于推荐的引擎,新系统可自动微调冷却。
  • 谷歌利用人工智能优化数据中心效率已经进入了一个新阶段,机器学习算法现在可以实时自动调整冷却设备设置,系统建立在谷歌之前透露的工作基础之上基于推荐的引擎,新系统可自动微调冷却。
      
      大多数数据中心运营商并不认为企业的监视时段是开始调整冷却系统设置以实现边际节能的最佳时间。通常希望其效果继续存在。人类有自己的优先事项。
      
      但是人工智能算法旨在寻找每个机会削减能耗,如果能实现它,无论天气如何,都会抓住机会。
      
      谷歌公司位于芬兰Hamina数据中心内的冷却设备
      
      在最近的一次龙卷风的观测中,管理谷歌公司位于美国中西部数据中心之一的制冷设备的人工智能系统改变了工厂的设置,使得该设施的人工操作员发现违反直觉。然而,经过仔细审查后,它确实需要做些什么才能在这些具体情况下节约能源。
      
      在可能形成严重雷暴的天气条件中,其中包括大气压力大幅下降以及剧烈的温度和湿度变化。天气在调整一些更加复杂的数据中心冷却系统的方式中起着重要作用,运行谷歌冷却系统的软件重新校准它以利用这些变化,而无论优势多么小。
      
      这与谷歌公司2014年数据中心副总裁JoeKava的系统不完全相同,当时他首次透露该公司正在使用人工智能来提高数据中心的能源效率。该系统由谷歌公司当时的数据中心工程师JimGao开发,并作为推荐引擎实现。
      
      “我们会运行一个独立的模型,这个模型会提供一些建议,然后数据中心设施中的工程师和操作员将改变冷却器,热交换器和泵的设定点,以及所有这些与人工智能系统所说的相符,而这些是人工操作的。”Kava表示。
      
      最近,使用人工智能管理谷歌数据中心的能源效率进入了一个新阶段。该公司现在正在积极推出Kava所称的“二级自动控制系统”。这个二级系统不是简单地提出建议,而是实时地连续实时地对所有冷却设备进行调整。
      
      第一个系统由JimGao开发的“20%项目”,之后由谷歌的DeepMindAI团队参与,可以将数据中心设施冷却系统的总能耗降低40%。Kava说,其新的迭代次数再减少15%。这是一级系统估计节省之后剩余的冷却能源开销的15%。
      
      自动控制系统建立在JimGao和DeepMind的原创作品之上。根据Kava的说法,JimGao已经加入了DeepMind团队。该公司正在考虑相同的输入变量:外部气温、气压、湿球温度、干球温度、露点、数据中心的电力负荷、空气热空气出来的服务器后面的压力等共21个变量。
      
      “它压缩了所有数据,并根据天气状况和数据中心的负载,优化了PUE(电源使用效率)。”Kava说。
      
      很多小调整
      
      龙卷风观测的例子很好地说明了谷歌公司用于数据中心管理的机器学习算法可以节省能源超出工作人员的能力。整体效益是通过不断进行的小调整实现的边际节省的总和。“它正在进行比通常作为人类更精细调整的调整。”Kava说。
      
      例如,如果外部温度从早上72华氏度变为下午76度,湿球温度保持不变,那么操作人员就不会改变冷却设备的设置来调整温度的很小变化。即使他们知道要做出哪些改变以减少能源使用,“他们可能会说它不会产生那么大的差别,”Kava解释道。
      
      当谷歌公司推出新的数据中心时,该系统的表现尤其出色(最近,由于它扩大了云计算服务业务的规模,它已经做了很多工作)。在通常情况下,新推出的数据中心运行效率最低,因为它没有利用大部分底层基础设施的容量。
      
      谷歌公司可能会在第一天在数据中心新建筑中部署一些服务器群集。然而,无论填充多少机架,跨越整个数据中心的网络结构都需要电力。“我们必须拥有所有行的能力,即使它们还没有部署满。”Kava说,“机器学习确实帮助我们提高了效率,即使在轻负载条件下也是如此。”
      
      他表示,新推出的轻载谷歌数据中心的典型PUE介于1.3和1.2之间。由人工智能控制的冷却系统可以降至1.1或1.09。“尽管听起来并不多......但在鉴于我们的规模,实际上节省了大量能源。”
      
      通过机器学习算法控制一些最关键任务的基础设施需要一些工作。
      
      企业积累的运行时间越多,收集的数据越多,机器学习算法就越好,并且可以更灵活地获得更多控制权。“企业开始进行防护以确保不会发生坏事,然后开始启动全自动系统而不是半自动化系统,”Kava说。“如果全自动系统真正开始运行得更好,那么就开始部署更多这些系统。”
      
      这种防护很重要,“如果要告诉机器优化PUE,机器可能会告诉人产关闭所有服务器,”他幽默地说。
      
      即使谷歌公司采用极端一致性来构建其基础设施,其均匀性是以这种规模运行的唯一方式,每个数据中心都与其他数据中心不同,基于人工智能的自动控制系统无法立刻在其中推广。
      
      每个站点的冷却系统都以最佳方式针对其特定位置进行部署,谷歌公司的数据中心工程师不断寻找减少能源使用的新方法,因此至少每18个月对设计进行一次更改。
      
      这意味着必须为每个站点训练机器学习模型。“企业必须为特定的架构训练其模型。”Kava说,“所以,这需要时间,但我们绝对相信它,将继续看到好处,我们在这方面也尽可能地具有攻击性。”
      
      JimGao现在在DeepMind工作,该组织的许多项目之一正在继续他在谷歌公司数据中心工程团队工作时所做的工作。该工作的范围现在远远超出了数据中心。
      
      JimGas开发的大部分模型适用于“任何类型的具有冷却和热负荷的工业设备。”Kava说。例如,它可以是化学工厂,也可以是炼油厂。最终,该模型可以作为谷歌公司为工业客户提供解决方案的基础,因此他们也可以使用人工智能来提高工厂效率。
      
      工作怎么样?
      
      随着越来越多的企业数据中心转向自动化基础设施控制,并且最终可能会在谷歌公司之外开始发生这种情况,这就产生了不可避免的就业问题。谷歌的数据中心工程师的设计会让自己和同事失去工作吗?
      
      Kava表示,到目前为止,还没有看到发生这种情况的证据。
      
      “我们仍然有人在那里,因为他们仍然需要做所有的维护工作。”他说,“所以,企业正在扩大现有团队的能力。他们不是试图自己调整系统,而是将更多的时间都集中在预防性维护和纠正性维修上。”
      
      他说,此外,人工智能在“训练范围之外”的情况下仍然表现不佳。换句话说,让人工智能微调冷却系统以提高效率是一个好主意,但如果出现问题,最好还是通过经验丰富工程师来进行操作。
      
      编译:Harris
      
      

  •