“熄灯”数据中心,你准备好了吗?
- 2021/4/30 8:01:12 作者: 来源:企鹅号
-
“熄灯”(lights-out)数据中心的概念已经流行了很多年,但是为什么要运营这样一个数据中心呢?它们会在不久的未来发展应用吗?
“熄灯”(lights-out)数据中心的概念已经流行了很多年,但是为什么要运营这样一个数据中心呢?它们会在不久的未来发展应用吗?
熄灯数据中心的基本思想非常简单,就是指一种无人值守的数据中心,其中部署着完全自动化的设施,无需任何人员参与即可完成操作。通过“熄灯”的方式,大大节省了能源和人员管理成本。
事实上,“熄灯”这个想法源自制造业,具体可以追溯到PhilipKDick在1955年发表的一篇短篇小说。文中提及,在荷兰,飞利浦工厂可以在少数质检人员的监督下制造剃须刀。而在日本Fanuc工厂,即便长期关闭空调和供暖系统,也完全不影响机器人的生产效率。
十多年来,传统数据中心一直通过运营人员管理和维护数百台甚至数千台服务器。除非更换硬件或修复故障,他们通常不会进入机房。数据中心的机械和电气设备也都是自动化的,因此冷却装置可以在无人值守的情况下运行,并且提示工程师或致电制造商,以进行偶尔的预防性维护。
长久以来,传统数据中心一直在通过人工来管理和维护服务器。为此,给运维人员提供工作环境和条件所进行的各种安全设置和环境设施或多或少的都需要利用一定的空间和能源。
熄灯数据中心在2011年首次亮相,当时美国互联网服务提供商AOL公司进行了一次大型展示,宣布推出名为ATC的小型无人值守微型设施。AOL公司技术副总裁MikeManos是一位曾在微软公司工作过的数据中心专家,他在一篇博文中对熄灯数据中心的理念表示赞赏,认为这种技术“从根本上改变了业务”。
熄灯数据中心的宣传炒作
如今,十年过去了,AOL公司早已不复存在,而数据中心仍然需要运营人员进行维护和管理。
确实,ATC的一些创意一直存在,通常可以采用预先安装服务器的方式将机架安装在这样的数据中心中。
数据中心设计师指出,数据中心的机架和服务器可以放置得更近一些,如果不考虑建筑物适宜人类居住的因素,则可以通过在较高的温度下运行来削减冷却费用。而抽取空气中的氧气可以防止火灾,并减少腐蚀。
但是总的来说,数据中心仍然充斥着大量大型设施,仍然需要配备现场工作人员。
UptimeInstitute是数据中心可靠性方面的权威机构,该机构一直建议数据中心运营人员需要随时准备处理出现的任何问题。该机构的技术专家RichardF.VanLoo在2015年发布的一份简报中表示,
对于需要在TierIII级或TierIV数据中心设施运营关键业务的组织来说,我们建议至少有一到两家数据中心运营商的工作人员全天候(一年365天24X7)在现场工作。
熄灯数据中心的发展在此后发生了一些变化,尤其是规模较小的数据中心提供商,例如EdgeConneX公司。
EdgeConneX公司在美国和欧洲构建的24个数据中心一直致力于采用一个熄灯运营模式。该公司的主要业务是二线数据中心市场的内容分发,以及不需专职人员操作的数据中心设施的设计,当需要提供上门服务时,可利用先进的监控设备,并进行远程操作。
EdgeConneX公司的设计也许是利用自动化来简化数据中心的运营的最雄心勃勃的例子,是一种利用设计作为工具改变商业模式的经济学。其采用了一种先进的设计和操作模板,让EdgeConneX公司快速改造现有数据中心建筑达到第三级的冗余度,可以支持更多的高功率密度的工作负载,每个机柜可超过20千瓦。
EdgeConneX公司CIOLanceDevin表示,
我们的整个业务前提都是基于熄灯数据中心的。我们通常部署电力容量为2MW的数据中心,而不是100MW的大型数据中心。因为我们无法承担在数据中心安排3名工程师、17名安全人员以及2名维护人员所需的成本。
EdgeConneX公司拥有广泛的客户群,并运行分段管理系统,该系统可以让客户控制IT硬件,而EdgeConneX公司则负责管理电源和冷却基础设施。
这样的数据中心虽说算不上完全“熄灯”,但EdgeConneX能够远程控制安全性,这样一来,客户服务人员就可以通过服务台来进行操作,无需与任何操作人员进行现实碰面。
疫情封锁推动熄灯运营
随着新冠疫情席卷全球,大多数公司(甚至是那些被认为不可或缺的公司)都采取了严格的居家隔离,在家办公政策。这也导致了一些问题的出现:
依靠现场数据中心支持人员的公司很快意识到,由于平时都是他们的员工在现场监视数据中心,因此他们自身对数据中心操作的了解有限或没有可视性;
许多积极主动型并且早前就已经部署了远程功能DCIM(数据中心基础架构管理)的公司很快就发现了他们在覆盖范围上的空白;
被视为“低优先级”的云迁移项目已经变为“高优先级”甚至“最高优先级”;
由于许多公司此次准备不充分,因此,他们更期待可以做好下一次准备。以下是大多数公司应该采取的一些非常具体的策略:
将数据中心外包给云服务提供商或托管公司,以保证正常情况下甚至危机期间,关键应用程序的正常运行;
通过远程或通过自动化监视和执行维护和升级功能,使内部数据中心尽可能“熄灭”。
当越来越多的工作人员需要远程居家办公时,数据中心运营商采用的远程控制服务也呈现激增趋势。根据数据中心运营商QTSDataCenters公司首席技术官BrentBensten的说法,在由于疫情而导致封锁的前三周内,该公司远程管理门户(服务交付平台或SDP)的登录量激增了30%,而用户在该系统上花费的时间也是原来的2倍。
Bensten表示,
新冠疫情加速了远程管理平台和工具的应用,因此可以远程完成以前在现场完成的工作。
熄灯运营还是继续面临技能短缺问题?
在许多情况下,“熄灯”是降低数据中心技能要求的一种方式,既可以作为一种削减成本的手段,也可以作为解决难以寻求熟练员工问题的一种方式。
施耐德电气公司的工程师StevenCarlini在一篇博客文章中对“为什么将来每个数据中心都将成为熄灯数据中心”进行了解释。他认为,企业应该“尽可能”让其内部部署数据中心实现“熄灯”,部分原因是为了应对疫情导致的封锁,另一部分原因是为了解决技能短缺问题。
Carlini表示,
熄灯和无人值守的说法可能并不完全准确,因为安全人员很可能会在现场工作。建议数据中心应该雇用具备机械技能的安全人员,并让他们实施即插即用的硬件更换工作,有些公司已经在尝试使用Zoom视频软件指导人员进行维护和维修。
在很多情况下,“熄灯”数据中心的概念已经演变为不需要太多技能的地方。
水下数据中心的探索
那么,真正“熄灯”运营的数据中心真的存在吗?可能有一些数据中心以这种方式运行,但是并未公开;也可能是出于保密的原因,或是因为最终失败了,例如AOL公司的ATC数据中心。
但是,我们确实知道一个知名案例。
早在2016年,微软公司就曾向外界发布了一个创新型的“环保”数据中心——ProjectNatick数据中心(事实上,该项目于2014年已经启动,2016年才正式对外公布)。最初,微软先是建造了一个水下数据中心的原型——代号LeonaPhilpot的数据中心胶囊,并于2015年安置在加州海岸附近10米深的海水下长达四个月。LeonaPhilpot数据中心胶囊无需人员值守,使用寿命可达20年以上,采用可再生能源,每五年更换一次服务器硬件。
2018年,ProjectNatick研究项目进入到第二阶段,开始设计和制造成熟完整的水下舱室。此次,微软公司研究团队在12个数据中心机架上放满服务器,然后将服务器部署在一个压力容器中,并将其沉入苏格兰海岸附近的海底。
2020年,微软公司从海底打捞回这个代号为“SSDC-002”的水下数据中心。这个数据中心是一种充满氮气的钢质容器,其中12个机架中运行864台服务器,其存储容量达到27.6PB,并通过电缆和光纤连接与地面的设施相连。
ProjectNatick水下数据中心负责人DavidCutler表示,
我们在无人接触的情况下运营了该设备长达25个月零8天,其结果无疑是令人满意的。
可靠性和摩尔定律
水下数据中心服务器的可靠性要比陆地上同类服务器高出7倍。ProjectNatick水下数据中心使用了一批二手服务器,并将其中135台服务器放置在陆基数据中心中运行,其余的855台服务器部署在这个水下数据中心。
结果显示,在135台陆地服务器中,有8台服务器在两年内发生了故障。而在水下数据中心的855台服务器中,只有6台服务器发生故障。这些服务器都执行相同的任务,并且没有进行任何维护,但是传统数据中心的振动和氧气环境似乎影响了其可靠性。
关于”熄灯“数据中心的一大反对意见是,需要定期更换服务器和存储设备,这并不是因为服务器和存储设备已经耗尽,而是因为它们已经过时。几十年来,IT硬件遵循摩尔定律(即硬件性能随着技术进步每18个月翻一番),采用新服务器仅在使用能源成本方面就可以在三年内收回投资。
如今,芯片工艺现在已经接近极限,摩尔定律也即将终结,而服务器的使用寿命将更长。Cutler预测,这将使数据中心运营商最终走向”熄灯“模式。在数据中心的整个生命周期中,服务器往往占据很大一部分成本。在后摩尔定律时代,实际上没有理由每两年更换一次基础架构。”
在边缘采用熄灯数据中心
尽管传统数据中心仍然需要运营人员进行管理,但新的应用场景和边缘计算领域将可能需要运营熄灯数据中心。
物联网等新技术以及人们将媒体和应用程序流氏传输到家中的需求,导致了对高度分散的低延迟资源的需求。这意味着需要靠近人员和数据源部署大量小型数据中心设施。大多数的边缘数据中心规模要比微软公司ProjectNatick水下数据中心(代号SSDC-002)小得多,还有一些甚至在灯柱上安装。
除非能够完全消除现场访问和运营,否则边缘数据中心的容量将成为经济成本上的噩梦,就像电话网络在光纤机柜中表现的一样。
让我们回到“熄灯”概念诞生的最初。当AOL公司技术副总裁MikeManosMikeManos提出这一想法时,他实际上是在谈论边缘计算设施,旨在使AOL公司的服务更贴近客户。
Cutler表示,随着技术的进步和发展,熄灯数据中心的发展可能比人们想象的还要快,将会成为数据中心行业的一种趋势。
虽然目前,“熄灯”数据中心仍然面临种种挑战,但有一件事是肯定的:无人值守的“熄灯”数据中心不再是一个科学项目或者一个幻想,随着技术的进步和发展,它的发展可能比人们想象的还要快,它将成为数据中心行业的一种趋势。
编辑:Harris
“熄灯”(lights-out)数据中心的概念已经流行了很多年,但是为什么要运营这样一个数据中心呢?它们会在不久的未来发展应用吗?