由“ hyper ”(极端,比平常更大)和“ scale ”(改变大小)这两个词组成,术语 hyperscale 代表了 IT 行业的可扩展性和可用性的黄金标准。具有此类基础设施的数据中心可以无缝且经济高效地运行世界上最繁重的工作负载,满足无法在任何其他类型的设施中运行的用例需求。本文探讨了超大规模数据中心的核心概念,并展示了它们与传统托管设施的区别。我们还将解释超大规模系统的工作原理,并向您介绍超大规模计算的主要特征(以及优势)。
什么是超大规模?
超大规模是 IT 架构的扩展能力,可以自动、实时、无延迟地响应增加或减少的需求。这样的基础设施运行在数以万计的相同大小的服务器上,这些服务器可以自动激活和停用以适应当前的需求。
超大规模系统背后的主要理念是为最苛刻的 IT 需求集提供最高效和最具成本效益的托管环境。这样的基础设施几乎可以立即扩展,不仅可以从一台服务器扩展到几台,还可以从几百台扩展到几千台。此功能对于托管波动和需要大量处理的服务至关重要,例如:
- 云计算。
- 视频流。
- 社交媒体。
- 基于人工智能和机器学习的大型应用程序。
- 在线游戏。
超大规模计算完全依赖于水平扩展(或“向外扩展”)。该系统将更多相同大小的服务器添加到集群中,并在更大的设备池中分担工作负载以满足不断增长的需求。这种策略不同于垂直扩展(或“向上扩展”),在垂直扩展中,您可以改进机器的规格以提高其性能(例如,为服务器添加更多内存或更好的CPU )。
那么为什么要水平缩放而不是垂直缩放呢?以下是主要原因:
- 使用相同的服务器可以标准化操作并简化日常管理。所有设备都有相同的更新、安全补丁、操作系统等。
- 每台机器都有一个用于垂直扩展的硬“上限”,之后就无法再进一步升级设备。
- 由于规模经济,从长远来看,小型、便宜的服务器更具成本效益。
- 依赖相同的服务器会带来更一致的性能。
- 水平扩展不需要管理员让机器离线来升级它们。
- 由相同大小的服务器组成的网络很容易避免停机,因为如果一台机器出现故障,相同的节点会接管工作负载。
什么是超大规模运营商?
超大规模运营商是一个或多个数据中心的所有者和运营商,这些数据中心容纳超大规模所需的水平链接服务器。市场上最著名的超大规模提供商是三大领先的公共云提供商(AWS、微软 Azure 和谷歌云)。像 Facebook 和 Apple 这样的大公司也拥有以超大规模方式运行服务的设施。
以下是超大规模提供商和常规提供商之间的主要区别:
- 超大规模数据中心拥有数以万计的服务器和数 PB 的数据存储空间。相比之下,标准中心和服务器机房平均只有几百到几千台服务器。
- 由于规模经济和商品硬件的使用,超大规模供应商的成本结构较低。这些设施依赖于更便宜的服务器,而不是传统数据中心中更复杂、更昂贵的机架。
- 得益于节能设计和先进的冷却系统,超大规模服务器的每台服务器功耗更低。
- 常规数据中心严重依赖手动配置和资源管理,而超大规模数据中心则采用高度自动化的配置、监控和日常操作。
- 常规数据中心提供的按需服务灵活性较低,并且需要更长的更改准备时间。
- Hyperscalers 在确保高水平的冗余和可用性方面投入更多。
- 平均而言,由于高度自动化,超大规模企业雇佣的 IT 员工较少。安全团队成员的数量通常超过计算人员的数量。
- Hyperscalers 依赖标准化的模块化设计,可以轻松扩展和升级。常规设施使用定制设计的解决方案,这使得扩展和升级变得困难且耗时。
虽然只有少数组织有资格成为超大规模企业,但这些设施中使用的一些技术正越来越多地用于小型数据中心,例如:
- 软件定义网络 (SDN)。
- 融合基础设施。
- 微细分。
超大规模计算如何工作?
超大规模计算将数万(或更多)小型、简单的服务器组合在一起,并将它们横向联网。“简单”并不意味着原始,只是服务器有一些基本的约定(例如,网络协议)来制作它们:
- 易于联网和管理。
- 反应灵敏,能够满足不断变化的容量需求。
- 作为一个群体更容错。
这些服务器在虚拟机 (VM)中运行应用程序,虚拟机是依赖软件定义资源而不是专用硬件的计算环境。一台服务器可以托管多个 VM 并使每个 VM 独立运行,这允许工作负载在硬件之间移动而不会出现错误或减速。
每个超大规模网络都包含一个负载均衡器,它不断地重新分配计算、存储和网络资源。该设备管理所有传入的网络请求,并将它们路由到容量最大的服务器。平衡器持续监控每个服务器上的负载,根据当前需要处理的数据量打开或关闭它们:
- 如果负载平衡器检测到对工作负载的需求增加,它会将服务器添加到当前的专用池中。
- 一旦需求下降,平衡器就会从池中移除服务器,要么关闭它们,要么将它们重新分配给另一个工作负载。
此过程实时进行,以最大限度地提高成本效益(对用户和设施所有者而言)。自动化是超大规模计算的重要组成部分,因为不可能手动协调通常跨越一个设施的数千台服务器。超大规模系统还需要顶层网络来实现这种高度分布式和可扩展的架构。超高速、高光纤数网络连接服务器、负载平衡器和所有互连的数据中心。
什么是超大规模数据中心?
超大规模数据中心是容纳超大规模计算设备的设施。2021 年,官方公布的超大规模数据中心数量为 728 个。专家预测,到 2026 年,这一数字将达到 1000 个大关。
虽然没有官方标准,但平均超大规模设施是:
- 至少 10,000 平方英尺(尽管有更大的设施,例如 Microsoft 的 Northlake 数据中心占地 700,000 平方英尺或 Apple 的 Mesa 数据中心占地 1.3 平方英尺)
- 拥有至少 5,000 台专用服务器。
- 存储数百拍字节 (PB) 的数据。
- 提供至少 40 Gbps 的网络连接。
- 每年消耗超过50MW。
大多数超大规模系统在统一的设施网络中运行,而不是在一栋建筑物中运行。这些数据中心群作为高度连接的集群运行。一些中心相邻,而另一些则相距数千英里——这种距离使公司能够:
- 降低局部停电和网络攻击的影响。
- 从附近的设施为所有客户提供服务,以确保快速响应时间。
以下是超大规模数据中心的特征:
- 规模:超大规模数据中心是通常容纳数万台服务器的大型设施。
- 可扩展性:超大规模数据中心内的设备有一个主要目标:尽可能快速且高度可扩展。
- 高度模块化设计:这些设施依赖于精简的硬件,可以轻松扩展。
- 更低的价格:这些设施利用规模经济以低于常规数据中心对相同资源收取的费用提供服务。
- 范围:超大规模数据中心始终是全球网络的一部分,提供从世界任何地方访问资源的途径。
- 自动化:这些数据中心在配置、监控和管理资源时采用高度自动化。
- 冗余:设施采用多层冗余以确保高服务可靠性。
超大规模的好处
如果您有合适的用例,超大规模计算可提供其他托管解决方案无法提供的一系列优势。以下是依赖超大规模计算的主要优势:
- 没有实际可实现的扩展上限,因此在高需求时不存在资源耗尽的风险。
- 由于顶层冗余会在出现错误时自动自我修复系统,因此最终用户永远不会遇到过长的加载时间或停机时间。
- 缩放会根据当前需求自动发生,因此无需不断地管理环境和手动调整资源。
- 超大规模计算利用规模经济来降低基础设施、电力和冷却成本。如果您想外包超大规模服务,请期望您的服务水平协议 (SLA)中的条款比您从典型数据中心获得的条款更好。
- 向上和向下扩展的能力确保您避免任何不必要的开销。
- 高度自动化使内部团队无需维护和升级 IT 系统。组织释放内部资源用于其他业务途径,例如创新和创收。
- 您可以访问范围广泛的按需计算资源(存储、处理能力、网络带宽等)。该团队可以不受传统计算基础架构的限制,快速部署新的应用程序和服务。
- 由于超大规模数据中心拥有比典型数据中心更多的服务器,因此这些设施将工作负载分配到更多设备上以避免出现过热问题。工作负载往往比传统托管环境更加平衡。
- 超大规模计算可轻松应对 AI、ML 和IoT等尖端技术的高级处理挑战。
- 虽然超大规模系统中的所有服务器都是相同的,但其中的虚拟机却不同。用户选择操作系统和首选编程语言,因此团队可以创建适合其用例的自定义系统。
对于大多数用例来说太多了,但对于某些用例来说是唯一的托管选项
超大规模是一项昂贵且复杂的技术,大多数组织无法负担或无法从中受益(通常两者兼而有之)。但是,特定的大规模用例(如云服务或社交媒体)只能通过超大规模计算高效运行。没有其他设置可以满足他们令人难以置信的可扩展性要求,因此随着世界联系越来越紧密以及公司对数据中心外包越来越满意,预计会看到更多的超大规模。