从表面上看,提供网络托管服务似乎是一项相当简单的工作。托管服务提供商拥有一组服务器(本质上是非常强大的计算机),它租给在其上存储网站的网站所有者。服务器永远不会关闭,网站可以 24/7 访问。从那时起,托管服务提供商所要做的就是支付电费并确保其托管的网站不违反规则。
当然,还有很多事情要做。服务器必须为托管在其上的网站提供稳定且安全的环境。它需要以一种能够确保所有应用程序运行良好并且不会以任何方式受到抑制的方式进行配置和维护。这是一个巨大的挑战,需要仔细的计划、协调和大量的专业知识。
如果服务器要正常运行,需要检查的不同指标的数量实际上是无穷无尽的,托管服务提供商必须确保如果服务器的健康受到威胁,其技术专家团队会知道这一点立即做出反应,并在为时已晚之前做出反应。今天,我们将介绍服务器管理员经常监控的一些最关键的方面,以确保提供可靠的服务。
正常运行时间
这是客户最感兴趣的。在线开展业务的主要优势之一是与实体办公室或商店不同,该网站全天候 24/7 可用。托管服务提供商的工作是确保尽可能多地访问服务器。
这并不像让所有东西都插上电源那么容易。一个由硬件和软件组成的极其复杂的生态系统对于您的网站托管环境的存在至关重要,而且不可避免地,事情时不时会出错。不过,将中断保持在最低限度是必不可少的。
为确保他们能够及时采取适当的措施,服务器管理员密切关注服务中断的时间,理想情况下,仔细消除每次中断的原因,以最大限度地降低未来服务的风险中断。一般来说,低于 99%的正常运行时间百分比被认为是应该研究的,如果它低于 95%,那么肯定有理由担心。
并发用户数和每秒请求数 (RPS)
对于许多人来说,检查网站运行情况的最佳方法是确定它可以同时支持多少用户。事实上,访问者的数量是衡量网站受欢迎程度的最终标准 ,在评估项目需求时应该发挥关键作用。
在压力测试期间,管理员会模拟 大量同时进行的会话,以便粗略估计服务器一次可以处理多少访问者。应该密切关注用户数量的统计数据,因为如果一个网站变得太受欢迎,它可能会影响性能甚至 导致整个服务器停机。
但是,并发用户的数量与服务器上的负载没有直接关系。例如,点击大量链接并在每个页面上花费不超过几秒钟的用户将比阅读冗长文章但同时不与网站交互的用户对服务器造成更大的压力。
用户的每一次点击都会产生多个不同的请求,这些请求需要由服务器处理。如果该网站很受欢迎,我们每秒可能会讨论数千个请求。这是服务器必须能够处理的实际负载。
太多的同时请求可能会减慢它的性能并完全降低它的性能,这就是为什么服务器管理员必须弄清楚每秒的最大请求数是多少,然后他们必须密切监控这个指标,以确保如果真正-世界负载接近它,他们可以采取适当的行动。
错误率
服务器上的负载越大,用户收到错误消息的机会就越大。处理请求的偶尔失败并不是真正令人担忧的主要原因,但仍然应密切监视服务器生成的错误数量。
更具体地说,管理员应该根据请求的总数来查看它。越来越多的错误可能意味着一个严重的问题,应该彻底调查其原因。服务器错误会生成 5XX 代码,并且有一些机制可以在记录到更多错误时提醒管理员。
线程数
用户看到的错误百分比可能与服务器在任何给定时间需要处理的线程数直接相关。在配置阶段,管理员通常会限制每个进程可以生成的线程数,如果超过该限制,请求可能会被搁置。如果他们保持太久,他们最终会超时,并且用户将收到一条错误消息。
密切关注活动线程的数量是评估在任何给定时间使用了多少服务器容量的重要部分,它可以说明当前托管在其上的项目的需求。这可以帮助管理员确定他们需要对硬件或软件配置进行哪些更改以优化性能。
系统级性能指标——CPU 和内存利用率以及磁盘使用率
我们不能忘记,服务器本质上是一台大型计算机。它有一个操作系统,进程在其上运行并利用底层硬件。监控有多少资源在使用中应该始终是系统管理员的优先级列表。高 CPU 或 RAM 使用率会显着降低网站速度,如果服务器存储空间不足,它将无法记录新信息,这可能会阻碍某些任务并给最终用户带来很多挫败感。
大多数托管服务提供商都会为您提供易于使用的工具,帮助您密切监控这些指标。尽可能多地利用它们至关重要,因为它们可以为您提供对于减少停机时间和限制可能尚未对所有人可见的问题的影响至关重要的信息。例如,处理器和 RAM上的负载增加可能意味着服务器上托管的项目之一占用了太多资源,但这也可能表明硬件组件本身存在潜在问题。
平均响应时间 (ART) 和峰值响应时间 (PRT)
您可能会争辩说,从用户的角度来看,这些是所有指标中最重要的指标。每当您访问网站时,您都会发送请求,服务器必须响应这些请求。发送请求和响应所花费的时间是网站的实际加载时间。与网站的每次交互都会产生多个请求(针对 HTML 文档、CSS 表、图像、JavaScript 文件等)。有些请求的处理时间比其他请求长,当他们测试服务器时,管理员寻找的主要数据点之一是平均响应时间 (ART)。
它的计算方法是将响应所有请求所需的时间除以请求数。这是服务器在负载下执行情况的一个很好的指标,如果它太高,则可能意味着存在问题。不过,体面的 ART 并不一定意味着一切都很好。管理员在测试服务器性能时还会记录峰值响应时间 (PRT) ,以找出处理时间较长的请求。这样,他们可以更轻松地识别潜在问题。
例如,假设您有一台看似运行良好的服务器,在每秒被数百个请求轰炸后,显示出相对较低的 ART。然而,仔细查看统计数据可能会发现一些数据库查询需要更长的时间,因此会产生较高的 PRT。即使整体性能良好,高 PRT 也可能表明存在问题,应该进行调查。
安全相关指标
客户往往更关注正常运行时间和速度,他们经常忘记,如今与运行网站相关的最大挑战之一是保护网站免受黑客攻击。服务器管理员不应该犯同样的错误。为获得最佳性能和正常运行时间而 优化网站和服务器的所有工作都可能被分布式拒绝服务 (DDoS)攻击所破坏。服务器所有者必须制定措施和严格的协议,以便在任何潜在攻击造成重大停机之前有效缓解它们。
可悲的是,DDoS 远非唯一的安全问题。数十个进程在生产服务器上同时运行,这通常意味着检测恶意活动可能很困难。除了确保已应用所有安全补丁外,服务器管理员还必须有适当的机制来跟踪和记录与文件修改和配置更改相关的活动。预防和早期发现对于确保人们的网站安全至关重要。
其他指标
你会认为检查我们已经提到的所有指标可以保证完美的性能,但你错了。有时,问题并非源于物理机或其配置。过时或有问题的应用程序、主题和插件也会极大地降低网站速度,并且有可用的工具可以有效地查明问题。应用程序性能监控是维护服务器和托管在其上的网站正常工作的主要部分。
很可能,在服务器上安装和运行的应用程序使用某种SQL 数据库。优化应用程序和数据库之间的连接不仅可以显着提高网站的性能,还可以降低 CPU 使用率并降低服务器的整体负载。Web 服务器的情况几乎相同。无论您使用的是 Apache 还是它的竞争对手之一,确保负责处理和响应所有请求的软件及其所有组件都经过优化和顺利运行是很重要的。
最后需要
如您所见,创建一个稳定的托管环境比设置服务器并确保没有人关闭它要困难得多。这是一个极其复杂的连续过程。技术一直在发展,随之而来的是网站所有者的需求也在发生变化。掌握行业的所有变化和动向是托管公司面临的最大挑战之一。