当今数据中心专业人员面临的最大挑战之一是无法有效地远程管理他们的数据中心。由于越来越多的边缘数据中心部署、转移到托管设施以及需要在COVID-19 大流行期间在家工作等原因,所有数据中心经理必须能够解决复杂的数据中心问题,而无需去现场查看数据中心或查看本地仪表。
数据中心经理现在一直在思考诸如我有多少容量以及何时会用完之类的问题?如何用远程人员管理移动、添加和更改?如果我没有在数据中心地板上行走的奢侈,我可以在哪里部署设备?如何识别和管理热点?当我不在数据中心时,如何确保电力负载不会超过容量并导致停机?如果没有正确的解决方案,问题每天都会继续增加。
要回答这些问题,解决方案在于识别和监控关键绩效指标 (KPI),并利用洞察力优化您的数据中心并增加正常运行时间、提高效率、更好地利用容量并提高人们的生产力。
远程管理数据中心需要监控的前 15 个 KPI 是:
- 每个机柜的功率容量。数据中心电力资源越来越受限,而管理正常运行时间与推动高效电力利用竞争。通过在机柜级别监控您的电源容量,您将通过确保不超过容量来延长正常运行时间,并通过发现搁浅的电源容量来节省资金。
- 每个机柜的实际有功功率。许多数据中心经理每周或每月测量他们的功耗,使他们容易受到短期峰值和未检测到的潜在过载的影响。实时监控每个机架的功耗,连续趋势数据,并设置阈值和警报,以确保在出现重大问题或用户受到影响之前通知您并能够做出反应。
- 每个机柜的搁浅功率容量。数据中心经理通常会为每个机架分配比 IT 设备实际需求更多的功率。这会导致搁浅的电力可以部署在数据中心的其他地方以节省成本。对于单个机柜,几千瓦的搁浅功率看似微不足道,但当您考虑成百上千个机柜时,搁浅功率可能占所有可用功率的 50%。监控数据中心的功耗以确定闲置容量。然后,充满信心地部署该功能并推迟花费数百万美元来构建您的下一个数据中心。
- 冷却能力。为了让您的设备在建议的温度范围内安全运行,您必须跟踪您的冷却能力。这有助于保持正常运行时间,并确保您有能力冷却 IT 设备的热量输出。一定要有额外的容量来应对潜在的设备故障和负载增长。
- 免费机架单位趋势。此 KPI 允许您根据 RU 高度查看随着时间的推移可以在数据中心安装多少项目。确定空间使用效率的趋势并将部署新设备所需的空间与功率容量相关联非常有用
- 剩余可用楼层空间。除了跟踪可用机柜空间外,还可以通过开放机柜位置的数量来跟踪可用地板空间,以了解有多少空白空间可用于在数据中心地板上部署新机柜。
- 数据和电源端口容量和使用趋势。您在规划和管理数据中心容量方面的效率与数据的详细程度有关。跟踪数据和电源端口级别的容量可提供细粒度数据,让您了解剩余的可用端口数量。按连接器类型监控您的使用情况和容量,以确保您永远不会用完数据中心的免费数据或电源端口。
- 具有最多空闲数据和电源端口的机柜。在部署新设备时,您应该知道预留机柜空间的最佳位置,以实现资源的最佳利用。这需要知道哪些机柜具有可用数据和电源端口容量。通过跟踪机柜级别的物理端口容量,您可以智能地配置新设备,做出更明智的容量规划决策,更有效地使用电力和网络资源,并降低运营费用。
- 按请求者、阶段、类型和位置分类的请求。要在提高数据中心员工的效率和生产力的同时维护 SLA,您必须正确监控和管理移动、添加和更改。跟踪变更请求、工单和工单的数量、提出请求的人员和地点、取得的进展以及请求的变更类型。跟踪您的请求从创建到批准的整个过程,以确保工作订单的质量和透明度,同时通过改进协作来提高员工效率。
- 随着时间的推移完成的请求。了解数据中心正在完成多少工作很重要。执行此操作的一种方法是监视随时间推移完成的移动、添加和更改的数量。以这种方式跟踪数据中心的活动和生产力,可以让您确定数据中心的员工数量是否合理,更轻松地解决中断问题,并更准确地向客户收费。
- 资产审计跟踪。对数据中心内任何资产的信息和历史具有完整的可见性和透明度有助于提高效率并促进合规性。为了实现最有效的远程数据中心管理,请为数据中心的所有更改维护一个实时审计日志,其中包括采取了什么行动、由谁以及何时采取。
- 每个位置的能源消耗。随着性能的提高推动能源需求,每台服务器的能耗每年都在增长,能源消耗成本可占数据中心总运营费用的 50%。因此,需要监控并智能降低能耗。跟踪您的能源消耗并设定目标以减少消耗、向用户收费、满足企业可持续性和绿色倡议,以及收集能源回扣和碳信用额度。
- 每个机柜的最新温度。数据中心监控的一个常见错误是监控房间级别的温度而不是机架级别的温度,这可能会让您对在不安全温度下运行的机柜视而不见。相反,实时监控每个机柜的温度以确保您的设备在 ASHRAE 标准内安全运行,轻松识别热点,并通过避免过冷来节省资金。
- 一段时间内的平均温度。除了跟踪每个机柜的最新温度外,您还应该通过随时间推移对数据进行趋势分析以识别尖峰和异常情况,从而为您的监控增加一定程度的复杂性。通过监测每个机柜随时间推移的平均温度,您可以确保您的设备不仅现在而且始终在安全准则范围内运行。如果您看到温度峰值,您将有数据来确定问题所在并防止它再次发生。
- 每个机柜的 Delta-T。Delta-T 是机柜不同位置的两个传感器读数之间的温差。它用于测量 IT 设备的入口温度与 IT 设备散发的热量之比。您应该监控数据中心每个机柜的 Delta-T,以帮助平衡气流、识别热点并维护安全的环境。这将最大限度地提高您的冷却能力,减少运营费用,并推迟资本支出。
集成、分析对数据中心影响最大的 KPI 并采取行动比以往任何时候都更加重要,但是您如何开始远程监控这些指标?借助全面的远程数据中心基础设施管理 (DCIM)解决方案,这很容易。
现代 DCIM 工具通过零配置仪表板小部件、报告和可视化分析为您提供开箱即用的所有最重要的 KPI 。企业级数据和健康轮询器直接从设施设备收集数据,以确保获得准确、高质量的信息,从而获得更深入、更可靠的洞察力。第二代 DCIM使数据中心专业人员可以轻松地做出更智能、更明智的远程数据中心管理决策,以改善数据中心的健康状况和效率,同时显着简化容量管理。