数字化转型正在推动 IT 生态圈不断演进,而竞争的必然性也在加速演进。企业正在使用数字技术来增加收入并降低成本。未能有效竞争将产生毁灭性的后果。数字化转型要求 IT 从成本中心发展为价值创造者。FinOps 和 DevOps 是整个企业参与价值创造的过程。IT,尤其是云计算成本被视为创造回报的投资。
转型的速度推动了云的采用。根据 Gartner 的数据,超过 92% 的企业使用公共云。此外,Gartner 推测 81% 将使用多云或混合云模型。这篇博文将讨论拥有一个统一的监控平台来实施和管理数字化转型计划的重要性。
监控演变
监控已从其传统的 ITSM 功能演变为各种业务流程的数据提供者。例如,网络使用统计数据可以让营销人员深入了解活动的有效性。这就产生了对全栈监控的需求。
什么是全栈监控?
全栈由整个应用生态系统组成。因此,这包括从裸机到最终用户界面的所有内容。基础架构、网络、应用程序架构、数据库、业务逻辑、API 和最终用户界面是一些主要的全栈组件。全栈监控将全栈警报、消息、日志文件、指标和其他遥测信息集成到单个可观察性平台中。
为什么要全栈监控
最终用户对您的 IT 计划是否成功做出最终决定。SLA 应该描述他们的期望。全栈监控对于满足 SLA 要求至关重要。应用程序问题可能在堆栈中的任何位置引起。例如,从交换机上的错误端口到错误配置的 API,任何事情都可能导致性能问题。因此,了解完整堆栈的行为至关重要。
全栈监控挑战
全栈需要监控具有潜在不同代码库的临时工作负载。它们通过具有专有管理接口的跨多个云的 API 联网。此外,工作负载会遍历基于硬件和软件的交换机、路由器和安全设备的混合基础架构。底层网络由多个运营商组成。这些运营商提供从 SD/WAN 到开放互联网连接的一切服务。堆栈中任何地方的问题都会影响满足 SLA 要求的能力。
具体监测并发症
有不同的监控并发症,了解您可能遇到的具体问题很重要。
配置数据库
您如何在具有多个管理界面和控制台的地理位置分散的基础架构中跟踪配置更改、临时工作负载、硬件、虚拟服务器和网络设备?一句话,基本不可能。
多个专有管理接口
每个云提供商都有一个专有的管理界面。接口提供监控信息。但是,需要有人整合和关联来自每个来源的消息,以了解基础架构和应用程序行为。
此外,堆栈层中通常存在多个接口。再一次,有人需要弄清楚所有这些警报和消息之间的关系。这使事件和性能管理复杂化,因此危及满足 SLA 要求。
多个跨平台依赖
有效的故障排除和规划需要了解一切是如何连接的。现代软件依赖于分布式 API 连接服务。服务、数据库和其他堆栈资源之间的通信跨分布式基础架构流动。快速部署和不断变化使得保持拓扑和依赖关系图准确和最新成为不可能。
建立基线全栈行为和阈值
了解堆栈的基线行为很重要。这可以帮助您建立阈值。阈值异常会通知您异常的基础设施行为。这是对潜在问题或安全违规的警告。此外,在添加其他应用程序之前,您必须了解您的基线。这将使您能够模拟它们对您的基础架构的影响。
如果没有基础设施的全栈视图,这几乎是不可能的。每个单独的堆栈组件都有其基线行为。但是,也需要对堆栈中的行为进行建模。再一次,为了满足 SLA 和部署要求,需要了解很多依赖项。
疲劳警报
各种堆栈层不断发出警报和消息。一个堆栈层中的问题可能会触发来自其他堆栈的一连串警报。很难甚至不可能从所有这些信息中理解。当它们没有整合到一个管理控制台中时尤其如此。
供应商管理
监控供应商绩效至关重要。供应商绩效会影响您满足 SLA 要求的能力。因此,您必须衡量您的供应商是否符合 SLA。首先,您要对违规行为收取任何处罚。其次,您需要了解供应商的服务对您的运营的影响。
供应商 TAC 工程师需要详细的日志跟踪和警报日志。此外,问题的非常清晰的呈现减少了解决时间。将他们的警报和日志与堆栈的其余警报隔离开来很重要。但是,如果有多个警报源由相同的根本原因触发,这将非常困难。
挑战解决
这些复杂性的答案是拥有一个平台,该平台可以自动发现来自所有堆栈源的消息并将其整合到一个单一的真实数据库源中。随后,平台 AI 和 ML 引擎对数据进行分析、过滤和关联。因此,只有单一的事实来源。