人们可以设想一下,边缘计算集群中的服务器出现故障,而存放备用的服务器的仓库却远达几百英里,服务商通过离客户位置最近的技术人员在24小时内进行更换,虽然及时解决了问题,但其成本高昂。
现在设想一下,服务商为客户托管运行关键应用程序的分布在各地的分布式平台。那么需要什么样的服务水平协议才能够满足用户的需求?
运营模式是构建最早的分布式边缘计算平台的企业正在努力解决的最大难题之一。那么如何让大量的远程站点能够以可行的成本水平运行?
解决这个难题是开源数据中心项目Open19的一个重要设计目标,Open19是LinkedIn公司创建的数据中心硬件标准,现在由非盈利机构Open19基金会监管。如果安装服务器如此简单,交付驱动程序可以做什么呢?如果只是在边缘集群附近存放一些可供替换的服务器,并且当集群中的实时服务器发生故障时,机器人手臂会将其取出,并更换新的服务器,那么该怎么办?如果自我监控系统发现服务器即将发生故障,自动订购替换设备,并及时关闭有问题的服务器,该怎么办?
在未来,企业可以在任何地方部署边缘数据中心:手机通信塔台、工厂、零售店、赛场,这些都是需要计算能力来摄取和处理数据的场合,从而在现场做出决策,而不需要连接到可能远达数百英里的中央数据中心。
更多的机架和机箱
Open19基金会总裁,LinkedIn公司全球数据中心架构首席工程师YuvalBachar表示,Open19以统一的机箱和多个供应商可以设计的连接器开始。标准化、机架内部的硬件隔离、自我监控和自我修复配置系统,都是创建全自动或“无人值守”边缘数据中心的难题。
许多关注边缘计算的公司已经加入Open19基金会,其中包括LinkedIn的基金会联合创始者VaporIO公司,该公司为边缘计算提供数据中心基础设施和软件。此外,还有开始将其云平台扩展到手机通信塔台的Packet公司。而美国无线塔台行业巨头CrownCastle公司是Vapor的投资者和合作伙伴,今年加入了该基金会。
Bachar在今年3月阐述了Open19对于边缘数据中心部署的好处,其中包括部署在数据中心的液体冷却系统。该系统将用于机器学习应用程序的高密度计算,预计将在边缘扩散的工作负载之一,以及下一代网络交换机。他表示将会实现更高的功率密度。
该设计已准备就绪,可用于可用的电源。“我们的电源架是普遍适用的。”Bachar说,“交流、直流、单相或多相设备都被放到电源架上,并分配到各个负载。”
Bachar说,“Open19标准使用服务器中具有完全电源隔离的分类硬件。我们没有在机架上共用配电母线,每个服务器都受到单独电源通道的完全保护、监控和启用。电源通道是隔离的,每个服务器都有用于保护的电子保险丝。”
远程监控更为重要
电子保险丝还提供实时功耗数据,可以揭示新出现的硬件问题。“如果看到服务器功耗波动,那通常表明存在问题。”Bachar解释说。而跟踪热量波动也可能了解网络故障或负载平衡器的问题。
LinkedIn公司使用该信息进行主动硬件维护,在异常问题影响工作负载之前,将具有异常电源活动的服务器用于测试。扩展预测性维护以创建自我修复系统,在硬件故障或数据丢失之前订购新服务器,并获得一个完全自动化的环境,非常适合边缘计算。“手机通信塔台并不会配备工作人员。”Bachar指出。
即插即用
Open19将所有电缆连接到机架背面,连接器的设计可以使新服务器安装到位并连接。这意味着理论上可以替换服务器而不会意外断开连接,或者不让电缆影响气流。
LinkedIn公司编写了相关软件,其功能是,一旦服务器插入机架可以自动联机。“供应系统已经实现自动化。”Bachar指出,“在Open19中将服务器替换后,系统会自动检测并自动配置。”
Bachar表示,该公司用于Open19基础设施的监控和配置软件最终将作为一个单独的项目开源,将提供给Open19基金会或与其他开源合作伙伴。Open19平台与现有的管理软件配合使用,因此客户可以按照LinkedIn公司使用自己的方式使用现有的自动化基础设施。
采用机器人替换服务器?
对于具有足够空间来存放替换服务器的组织,Bachar表示可以采用机器手移除故障服务器并替换新服务器,就像在数字磁带存档中更换磁带的磁带机器人一样。
“这就是无人值守的数据中心,因为数据中心没有配置工作人员。”他建议道,“他们将在紧急情况下随时待命,但是通过采用自动化系统,可以远程地自动改变服务器配置,了解情况,并主动更换服务器。”
他表示,从检测硬件问题到订购和安装新服务器,并进行设置,可以自动完成边缘数据中心的配置。
编辑:Harris