记一次项目上vCenter集群恢复过程
一、背景
某同事说某个项目虚拟化集群异常,虚拟机状态变成了无效状态,vCenter虚拟机也找不到了!
后续经过排查,集群共9台主机,每台主机一张SSD和两张2T机械硬盘做的vsan,无本地磁盘!
二、处理过程
现状:
排查思路:
检查所有esxi主机是否都启动!
尝试找到vCenter虚拟机并开起来,然而找到所有esxi主机都未找到
新部署一台vCenter并重新纳管主机
2.1、部署一台新的vCenter
通过部署一台新的vCenter,然后将主机全部纳管到新vCenter
新部署vCenter后发现很多不可访问虚拟机,以及很多/vmfs 目录文件!
2.2、尝试恢复不可识别虚拟机
处理过程,vCenter中操作不可访问虚拟机,从清单内移除虚拟机,然后在存储上找到虚拟机文件重新注册虚拟机!
然而重新注册后过几分钟又变成了不可识别状态!
2.3、最终问题定位
其中一台服务器整列卡被误操作启用了直通!导致vsan丢失磁盘组,从而引起以上一系列问题!
将阵列卡禁用直通等待vsan对象重新同步!
以上,已经能看到虚拟机状态已恢复正常!