当 IT 工作负载从本地IT 基础架构转移到异地云数据中心时,确保服务级别与您的业务需求一致非常重要。为云解决方案的每个元素定义服务级别的参数和指标应该满足这些要求。服务提供商应保持高性能、安全性和合规性标准,同时仍提供吸引客户的负担得起的成本结构。
为了实现这些目标,组织必须根据明确定义的目标来理解、衡量和评估服务行为。服务水平协议 (SLA)的主题被广泛讨论,以讨论云服务提供商的责任。但是,更好地理解服务水平目标 (SLO) 可以帮助评估对最终用户真正重要的服务性能测量。那么,让我们看看这些 SLO。
什么是服务水平目标?
服务水平目标 (SLO) 用作指标、参数或用特定服务水平目标定义的指标的基准。目标可以是构成云服务的每个服务功能或流程的最佳范围或特定值。
SLO 也可以称为 SLA 的可测量特征,例如服务提供商和客户都可以实现、可测量、有意义和可接受的服务质量 (QoS) 方面。SLO 作为一项义务在 SLA 中被约定,在特定条件(例如时间段)下有效,并在 SLA 文档中表达。
SLO 的工作原理
虽然定义有效 SLO 的最终目标是为最终用户提供可靠的服务,但接近 100% 可靠性的成本和复杂性呈指数级增长。(看看这如何通过服务可用性得到回报。)
云服务的每个组件都会对客户感知的服务性能产生不同的影响。例如,应用程序可能需要特定性能级别的响应能力,超出该级别客户就无法再感受到差异。
响应能力和应用程序性能的衡量标准可以通过数字指标来定义,例如:
- 请求延迟
- 批量吞吐量
- 每秒失败次数
- 其他指标
这些指标随时描述服务水平。
要了解在商定的 SLA 合同或可用性要求的上下文中的整体性能,您必须在更长的时间段内分析这些数字。在数学上,SLO 分析涉及:
- 长时间聚合服务水平指标性能。
- 将结果与系统可用性的数字目标进行比较。
SLO 是一个范围
SLO 并非旨在定义最佳性能级别。相反,它应该定义一系列可能的最佳和最不可接受的性能标准。想象一下这样一个场景,其中以 99% 的正常运行时间的 SLA 购买云服务,转换为每月 7.31 小时的停机时间。几个月过去了,系统保持在 SLO 的上限,提供 99.9% 的正常运行时间,或者每月的停机时间少于一小时。
突然,当系统确实连续几个小时停机时,最终用户会对服务表现低于他们通常的预期感到不快。同时,如果服务提供商不打算或不承诺提供可能的最佳 SLO,它可能没有义务提供支持。
由于 SLO 涉及对描述系统可靠性的几个可量化指标的测量,因此您应该仔细理解术语 Reliability 和 Availability 之间的区别。在实践中,SLO 由可接受的最低可靠性标准定义。
SLO 最佳实践
简而言之,服务水平目标描述了基于特定服务水平指标的测量在特定时间段内服务可靠性的好坏程度。
以下最佳实践可以帮助您实现这些目标:
- 确定正确的指标和指标,以准确描述您的组织和最终用户所感知、预期和要求的系统可靠性。
- 确保合适的人了解 SLO。技术团队和组织领导应该很好地理解 SLO。组织应根据业务需求以及组织可用的技术能力和专业知识来设计 SLO。
- 使技术团队和业务利益相关者在 SLO 目标上保持一致。如果工程师无法实现 SLO 目标,组织将面临无法向客户遵守其 SLA 的风险。
- 为系统的每个逻辑组件使用独立的 SLO。每个系统组件可能对整个系统产生不同的影响或贡献。因此,重要的是根据成本、复杂性和其他相关的业务和技术挑战为每个系统组件定义最佳 SLO。
- 共同测量多个服务水平指标以评估单个 SLO 目标。例如,可能需要延迟、错误和其他 QoS 指标来评估关于特定目标的完整系统性能。
- 为所有利益相关者记录和传达 SLO。这些信息通常对技术团队或业务领导者做出相关决策至关重要。
- 为某些客户优先考虑 SLO。与免费增值用户相比,为具有严格可用性要求的付费客户可能需要更高的 SLO 基线。
- 将SLO 视为一项持续的承诺,即在各种服务水平指标中提供最佳系统性能。SLO 会随着时间的推移而发展;它们不能被视为静态目标。IT 工作负载和最终用户的期望不断变化。为当前工作负载要求设计的 SLO 可能不适用于其未来的性能要求。
- 保持 SLO 简单、少且现实。避免不切实际的绝对数字。您可以设置一个内部 SLO,作为安全边际或缓冲区,以提供最终用户同意的较低 SLO 目标。
不需要完美
可能无法 100% 地满足服务水平目标。云服务提供商需要创新、添加功能和更新系统,这可能涉及多个数据中心实例的临时停机。
考虑这是实现 SLO 以提供更好服务的权衡
服务水平目标都是关于服务水平不被客户和最终用户接受的目标。设定切合实际的期望并且不过度实现目标可能是以可承受的预算提供具有可接受的最终用户体验的云服务的第一步。