数据中心维护的未来发展 - 应用实践

您的位置: 首页»文章资料»应用实践»数据中心维护的未来发展

数据中心维护的未来发展

2025/1/15 6:49:08 作者：来源：机房360
分享:QQ空间新浪微博人人网腾讯微博网易微博

人工智能（AI）和高性能计算（HPC）加快了采用新的冷却和电源技术的步伐，加剧了数据中心维护中的资源可用性挑战，特别是规模和容量。

人工智能（AI）和高性能计算（HPC）加快了采用新的冷却和电源技术的步伐，加剧了数据中心维护中的资源可用性挑战，特别是规模和容量。
　　
　　随着技术和操作需求的发展，传统的基于间隔的预防性维护方法可以得到改进，以进一步降低昂贵的设备停机风险。人工智能与机器学习算法的发展为帮助数据中心的维护计划变得具有预测性奠定了基础。
　　
　　基于状态的维护（CBM）和高级监控服务利用设备数据生成健康评分和警报。现场工作人员可以使用这些信息来评估资产状况，并根据需要安排维护计划，改进了固定间隔的典型方法。通过先进的监控和数据中心服务，运营商可以提高运营效率，减少停机风险，并改善风险管理。
　　
　　比较传统与基于状态的维护服务模型：维护的演变表明，落后的、传统的和领先的实践的变化和随后的组合使公司能够创建一个维护模型，优化其资产的连续运行时间、效率和生命周期。
　　
　　了解基于状态的维护功能
　　
　　基于状态的维护和高级监控服务支持数据中心优化维护活动，提高其资产可用性。这种方法包括监视、捕获设备数据，并提醒员工注意潜在问题。
　　
　　（1）实时连接和数据收集
　　
　　数据中心运营商可以采用基于状态的维护和高级监控服务，通过安全的网关或由通信卡支持的直接物联网实现全天候连接，将资产健康数据传输到基于云的平台。可以适当的间隔收集详细的数据，以进行精确的监控和卓越的分析。
　　
　　（2）数据集中和处理
　　
　　一旦基于云的监控平台从设备中捕获数据，系统就会将这些信息集中并传输到一个私有的、安全的全球数据湖中。使用提取、加载、转换（ELT）过程对数据进行整理和转换，以便进行高级分析。利用人工智能和机器学习工具，算法处理相关信息并通过以下方式生成输出：
　　
　　从主题专家（SME）和部件制造商那里定义明确的问题陈述，以指导分析
　　
　　•使用设备行为和操作条件的反馈来不断改进算法
　　
　　•对具有相同设计、安装和配置的设备进行基准测试，以识别潜在的异常
　　
　　（3）警报生成和动作触发
　　
　　采用专有OEM算法生成健康评分、剩余使用寿命、异常检测和质量评估等分析，突出显示潜在性能下降的偏差。考虑到独特的工作条件和退化模式，每个警报都是针对特定的组件和技术量身定制的。当检测到异常时，将向网络运营中心的操作员发送警报，由操作员管理输出并指导所需的服务响应：
　　
　　•趋势表现
　　
　　•在下次计划的维护访问中进行调查
　　
　　•立即干预
　　
　　（4）运营实现
　　
　　基于状态的维护和高级监控服务为作业者提供了有关系统内资产状态和行为的更多信息，包括对环境因素、控制和使用情况如何驱动服务需求的洞察。
　　
　　能够建议防止停机和延长资产寿命的操作，可以将重点放在高影响项目上，而不是那些不会立即影响资产可靠性或寿命的任务上。这些项目包括生命周期部件更换、优化预防性维护计划、管理部件库存，以及优化控制逻辑。随后可以验证服务访问的有效性，因为所采取的行动反映在资产健康状况分析中。
　　
　　先进的人工智能数据中心报告
　　
　　基于状态的维护和高级监控服务包括一个客户门户，用于提供高效的设备运行状况报告。详细的指示板显示站点运行状况评分、关键事件和退化模式。
　　
　　客户门户的典型视图包括以下信息：
　　
　　•运行状况评分：总体数据中心校园当前状态的概述，包括组件、设备和站点状况
　　
　　•健康得分趋势线：健康得分迅速或逐渐下降的图形表示
　　
　　•每个站点的运行状况评分：按站点的运行状况评分，突出显示健康和潜在问题的位置
　　
　　•按站点趋势线划分的平均健康分数：按站点划分的健康分数快速或逐渐下降的图形表示
　　
　　•按站点划分的关键事件个数：显示频繁发生关键事件的站点
　　
　　•紧急警报：需要团队立即关注的警报列表
　　
　　•按描述列出的关键告警数量：用于更好地准备和预防的常见关键事件类型（即库存部件）
　　
　　在数据中心利用人工智能/机器学习进行基于状态的维护
　　
　　客户可以查看由专有的OEM算法处理的健康评分和早期预警。同时，这些服务使用这些信息来实现主动维护，帮助数据中心提高性能。
　　
　　（1）减少设备停机风险
　　
　　数据中心的设备停机会造成财务损失，并由于服务中断而降低客户满意度。基于状态的维护和高级监控服务通过启用主动维护计划来帮助数据中心降低这些风险。利用AI/ML进行高级资产监控，Vertiv团队可以评估健康状况评分并在导致故障之前识别问题。这使得他们能够帮助作业者主动计划维修和更换，最大限度地延长资产寿命。
　　
　　（2）提高运行效率
　　
　　这些解决方案通过关注通常检查表之外的关键事件资产，最大限度地提高了维护访问的好处。这种有针对性的方法使工程师能够监测退化和不规则模式，估计使用寿命，计划维护，并更有效地延长资产寿命，减少过早处理设备。
　　
　　（3）简化生命周期管理
　　
　　所讨论的服务计算设备的剩余使用寿命及其生命周期部件更换需求。Vertiv现场工程师使用这些信息来帮助数据中心更有效地计划更换和维修。运营商可以利用分析见解来提高服务部件的可用性，最大限度地降低供应链中断的风险，从而减少资产维修的平均时间。
　　
　　（4）加强资产管理
　　
　　在这些高级监控解决方案的帮助下，数据中心可以通过提供运行状况评分和全面的数据分析来对设备性能进行基准测试。这种监测性能的系统方法可以帮助客户在负载管理和温度调节方面做出更明智的决策，从而提高准备度和效率。
　　
　　（5）提高能源效率
　　
　　通过这些服务进行持续监控，可以帮助数据中心运营商识别和纠正低效率和能耗趋势，同时采取纠正措施来优化设备性能。从系统中获得的有价值的见解可用于：
　　
　　•最大化气流
　　
　　•调节温度设定点
　　
　　•在特定热点地区实施有针对性的节能措施
　　
　　•更换磨损的部件
　　
　　重新校准设备以达到最高效率
　　
　　优化设备维护，提高效率和可靠性
　　
　　数据中心维护的未来就在这里——比以往任何时候都更智能、更高效、更可靠。通过基于状态的维护和高级监控服务，数据中心可以预测风险并对资产进行基准测试，从而改进风险管理并增强可用性。
　　
　　高级人工智能模型可以从许多资产中收集数据，并提供跨单位和系统的复合生命值得分。这些报告可以使数据中心利益相关者能够做出更主动、更明智的决策，从而有可能实现前所未有的运营效率和弹性水平。
　　
　　编辑：Harris
　　
　　

最新文章

刊首语更多>>

资源下载更多>>


咨询QQ: 杂志订阅编辑网管培训班市场部发行部电话服务: 010-82024981