近年来,数据中心基础设施变得更加可靠,管理实践也得到改进,因此预计报告的停机事件数量正在减少是公平的。但事实并非如此。根据Uptime Institute 2018 年的一项调查,31% 的受访者在去年经历了停机事件或严重退化,48% 的受访者表示在过去三年中他们的站点或服务提供商至少发生过一次中断。
停机时间很昂贵。它既费时又费钱,并且可能对准备不足的组织造成严重后果。据 Gartner 称,停机时间平均每分钟造成 5,600 美元的损失。这导致平均成本在每小时 140,000 美元到 540,00 美元之间,具体取决于组织。导致与停机时间相关的成本的一些因素包括:
- 销售损失。对于在线开展业务的组织,停机时间直接导致客户无法购买,从而失去潜在收入。如果企业依赖于网络可用性来提供服务,则停机会导致无法与用户通信。
- 品牌美誉度。如果客户经常不得不处理妨碍他们轻松购买或使用服务的中断,他们将不再是客户并分享他们的糟糕体验,从而吓跑潜在客户。
- 生产力下降。现代企业严重依赖在线通信和服务。如果没有网络访问,由于员工无法完成大部分工作、生产线关闭或业务的其他方面受到阻碍,生产力通常会停滞不前。
- 支出。一些公司在 SLA 正??常运行时间合同中包含定义计划外停机时应支付的补偿的语言。
- 丢失数据。在中断期间,数据可能会被破坏,并且可能会为破坏数据的网络攻击创造机会。数据通常会备份,但中断会吓到客户并打击他们的信心。
数据中心故障的首要原因是人为错误。其他常见原因包括网络故障、停电、UPS 系统故障、自然灾害和网络犯罪。幸运的是,有一种解决方案可以帮助防止停机。
数据中心基础设施管理 (DCIM) 软件允许数据中心经理避免计划外停机,每次停机可能造成数十万美元的损失并对您的业务造成严重破坏。使用 DCIM 防止人为错误和最大化正常运行时间的一些方法是:
- 管理入口空气温度和湿度。机柜入口空气的温度和湿度很重要,因为这是流经机柜以降低热量的空气。如果入口空气太热,机柜将无法正常冷却。如果空气过于潮湿,则存在腐蚀和损坏设备的风险。如果空气太干燥,可能会产生静电。所有这些都可能导致代价高昂的停机时间。DCIM 软件从数据中心的环境传感器收集数据,并将信息显示在商业智能仪表板和 3D 平面图可视化中,以帮助您监控数据中心环境并识别热点。
- 安全升高温度。提高数据中心的温度可以提高能源效率,但它会带来过热和损坏设备的风险,从而导致停机。借助 DCIM,您可以设置温度阈值并在温度超出所需范围时接收警报。同样,DCIM 将帮助您避免过冷以优化效率并降低能源成本。
- 确保电源冗余。由于对计算硬件的需求不断增加,数据中心机柜现在更密集地装有耗电 IT 设备。而且由于数据中心团队通常专注于充分利用现有资源和延迟资本支出,他们可能直到为时已晚才意识到机柜超载。这使得设备故障时的电源冗余成为最大化正常运行时间的任何策略的关键组成部分。DCIM 软件允许您运行故障转移模拟报告并确定哪些机柜存在风险以及哪些设备可以在 PDU 出现故障时继续安全运行。数据中心经理可以利用此信息在真正发生故障之前对负载进行必要的更改。
- 健康投票。确保智能 PDU 和其他设备正常运行并可通过您的网络访问对于保持正常运行时间非常重要。设备在没有人注意到的情况下发生故障并非不可能。技术人员或工程师可能会不小心将 PDU 置于维护模式、忽略启动新资源或使用不正确的端口或电缆连接设备。借助 DCIM 软件,您可以通过以用户可配置的时间间隔轮询智能 PDU 和其他设备来确保它们可以访问,从而限制因设备故障而导致停电的可能性。如果无法访问设备,该软件会立即提醒您,以便您在出现危机之前就知道该问题。
借助 DCIM,您可以模拟故障转移并使用报告来测试假设情景,这些报告确定可用容量以确保发生故障时的覆盖范围,使用红-黄-绿颜色编码的健康地图可视化数据中心和设施健康状况,提供 at -机架负载水平、线路电流和环境条件一目了然,并通过自动电子邮件收到阈值违规警报,从而能够快速识别热点和潜在故障问题。凭借这些功能,DCIM 将在数据中心发生灾难时帮助保护您的基础设施。