VMware 高可用群集与容错

发表于2020-07-232020-07-24 作者 chpdirector

本章节目录

一、介绍

高可用性和容错需要 vmotion、storage vmotion、vsphere HA、vsphere DRS、存储 DRS、vsphere fault tolerance等技术支持。

1.1 vmotion

vmotion是一种可用于将正在运行的虚拟机从一个esxi主机迁移到另一个esxi主机上，并且不会中断服务的功能。

1.2 storage vmotion

将运行中虚拟机的磁盘和配置文件从一个数据存储移至另一个数据存储，而不会中断服务。

1.3 HA（High Availablity）

如果一台主机出现故障，则该主机上运行的所有虚拟机都将立即在同一群集的其他主机上重新启动。

HA通过在主机出现故障时重新启动虚拟机来为虚拟机提供基本级别的包含。vmware 容错可提供更高级别的可用性，允许用户对任何虚拟机进行保护以防止主机发生数据、事物等故障。

如果允许主虚拟机的主机发生故障，则会发生透明故障切换。

1.4 DRS（Distributed Resource Scheduler）

DRS是一种有助于改善所有主机和资源池之间的资源分配及功能消耗状况的功能。

1.5 FT（Fault Tolerance）

FT通过创建和维护与主虚拟机相同，且可在发生故障切换时随时替换主虚拟机的的辅助虚拟机，来确保虚拟机的连续可用性。

二、vMotion

2.1 冷迁移

您可将已关闭电源或已挂起的虚拟机移至新主机。您可选择将已关闭电源或已挂起虚拟机的配置文件和磁盘文件重定位到新的存储位置。您也可以使用冷迁移将虚拟机从一个数据中心移至另一数据中心。要执行冷迁移，您可手动移动虚拟机或设置调度的任务。

2.2 热迁移

根据您使用的迁移类型是 vMotion 还是 Storage vMotion，您可以将已打开电源的虚拟机移至其他主机，或者将其磁盘或文件夹移至其他数据存储，而不破坏虚拟机的可用性。同时，您还可以将虚拟机移动至其他主机和其他存储位置。

2.3 迁移资源类型

仅更改计算资源：将虚拟机（而不是其存储）移动至其他计算资源，如主机、群集、资源池或vApp。您可使用 vMotion 将已打开电源的虚拟机移至另一计算资源。您可使用冷迁移或热迁移将虚拟机移动至另一主机。
仅更改存储：将虚拟机及其存储（包括虚拟磁盘、配置文件或其组合）移至同一主机上的新数据存储。您可使用冷迁移或热迁移更改数据存储。您可使用 Storage vMotion将已打开电源的虚拟机及其存储移至新数据存储。
更改计算资源和存储：将虚拟机移至另一主机，并将其磁盘或虚拟机文件夹移至另一数据存储。您可

三、DRS

VMware的分布式资源调度（Distributed Resource Scheduler，DRS）可以持续不断地监控VMware主机集群中资源池的利用率，并能够根据商业需要在虚拟机中智能地分配其所需的资源。通过动态分配和平衡计算资源，VMware DRS能够整合服务器，降低IT成本，增强灵活性；减少停机时间，保持业务的持续性和稳定性；减少需要运行服务器的数量以及动态地切断当前未需使用的服务器的电源，提高了能源的利用率。

一旦客户将服务器整合到资源较少的物理主机上，虚拟机的资源需求往往会成为意想不到的瓶颈，全部资源需求很有可能超过主机的可用资源。VMware DRS则提供了一个自动化机制，通过持续地平衡容量将虚拟机迁移到有更多可用资源的主机上，确保每个虚拟机在任何节点都能及时地调用相应的资源。即便大量运行SQL Server的虚拟机，只要采用了DRS，就不必再对CPU和内存的瓶颈进行一一监测。全自动化的资源分配和负载平衡功能，也可以显著地降低数据中心的成本与运营费用。

3.1 运作方式

DRS允许用户自已定义规则和方案来决定虚拟机共享资源的方式以及它们之间优先权的判断根据。当一台虚拟机的工作负载增加时，VMware DRS会根据先前定义好的分配规则对虚拟机的优先权进行评估。如果该虚拟机通过了评估，那么DRS就为它分配额外的资源，当主机资源不足的时候，DRS就会将寻找集群中有多余可用资源的主机，并将这个虚机迁移到上面，以调用更多的资源进行其重负载业务

DRS分配资源的方式有两种：将虚拟机迁移到另外一台具有更多合适资源的服务器上，或者将该服务器上其他的虚拟机迁移出去，从而为该虚拟机腾出更多的“空间”。虚拟机在不同物理服务器上的实时迁移是由VMotion来实现。

四、FT容错（透明切换）

4.1 简介

FT建立在ESX/ESXi主机平台，通过创建一个虚拟机一个完全相同的副本。

FT启动后，VM Tools从每个虚机中发送心跳到VMM，此心跳与HA的心跳类似。VMM检查以确保主要和次要副本都在运行。如果主副本所在的host丢失，VMM将不再发送心跳。此时，次要副本立刻变为活动的，并成为主要副本，服务不会经历任何中断。

FT提供了比HA更高的商业连续性级别。FT发生时，次要立刻被激活，所有关于虚机状态的信息都会被完整的保留。存储在内存中的数据不需要被re-entered或reloaded。而HA则要将任何丢失的虚拟机进行重启。这会结束所有虚拟机进程和状态信息，程序和未保存的用户输入信息都会丢失。

4.2 提供连续可用性

容错使用 ESX/ESXi 主机平台上的 VMware vLockstep 技术以提供连续可用性。

通过确保主虚拟机和辅助虚拟机的状态在虚拟机的指令执行的任何时间点均相同来完成此过程。vLockstep 通过使主虚拟机和辅助虚拟机执行相同顺序的 x86 指令来完成此过程。主虚拟机捕获所有输入和事件 — 从处理器到虚拟 I/O 设备 — 并在辅助虚拟机上进行重放。辅助虚拟机执行与主虚拟机同一系列的指令，而仅可看到单个虚拟机映像（主虚拟机）在执行工作负载。

如果运行主虚拟机的主机或运行辅助虚拟机的主机发生故障，则会发生透明故障切换，仍在无缝工作的主机将借此变为主虚拟机的主机。使用透明故障切换，不会有数据损失，并且可以维护网络连接。在发生透明故障切换之后，将自动重新生成新的辅助虚拟机，并将重新建立冗余。整个过程是透明且全自动的，并且即使 vCenter Server 不可用，也会发生。

4.3 工作方式

VMware 容错可通过创建和维护等同于主虚拟机并可在发生故障切换时替换主虚拟机的辅助虚拟机来为虚拟机提供连续可用性。

可以为大多数任务关键虚拟机启用容错。并会创建一个重复虚拟机（称为辅助虚拟机），该虚拟机会以虚拟锁步方式随主虚拟机一起运行。VMware vLockstep 可捕获主虚拟机上发生的输入和事件，并将这些输入和事件发送到正在另一主机上运行的辅助虚拟机。使用此信息，辅助虚拟机的执行将等同于主虚拟机的执行。因为辅助虚拟机与主虚拟机一起以虚拟锁步方式运行，所以它可以无中断地接管任何点处的执行，从而提供容错保护。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31