virtualization/VMware

[VMware] Virtual SAN 장애발생시의 동작

yueisu 2014. 11. 25. 21:17

Virtual SAN은 '스토리지 정책'이외에 하드웨어의 장애발생시 다음 동작이 실행되도록 설계되어있습니다.


  • 네트워크, 네트워크 어댑터나 ESXi 호스트에 장애가 발생했을 경우
  • HDD나 SSD 혹은 RAID컨트롤러나 HBA등 스토리지 컨트롤러에 장애가 발생했을 경우


네트워크, 네트워크 어댑터나 ESXi 호스트에 장애가 발생했을 경우는 60분후에 데이터의 재동기가 이루어집니다. 이것을 Absent 라고 합니다. 장애가 발생했는데도 불구하고 60분후에 데이터의 재동기가 이루어지는 것은, 60분이내에 장애가 복구될 수 있을 가능성이 있기 때문이죠.



HDD나 SSD 혹은 RAID컨트롤러나 HBA등 스토리지 컨트롤러에 장애가 발생했을 경우는 즉시 데이터의 재동기가 이루어집니다. 이것을 Degraded라고 합니다. HDD나 SSD는 데이터의 쓰기/읽기에 직접 영향을 주기 때문에 장애발생시에는 즉시 재동기를 실행하여, 데이터를 보호하게 됩니다.


또한 Virtual SAN 네트워크의 장애로 인해 고립된 ESXi가 발생했을 경우는 오브젝트 수(witness포함)가 적은 ESXi의 데이터를 잠금상태로 만들어 데이터의 정합성을 확보하게 됩니다.  


이외에도 HA가 유효화 되었을 경우의 동작은 다음과 같다고 합니다.

ESXi에 장애가 발생시 가상머신은 다른 ESXi로 failover되어진 후, Virtual SAN상에서 레플리카를 작성하게 된다고 합니다. 


Virtual SAN 네트워크에 장애가 발생했을 경우는 가상머신은 정지, 오브젝트 수(witness포함)가 적은 ESXi의 데이터를 잠금상태로 만들어 버리게 됩니다. 이 경우 가상머신은 기동이 불가능하게 됩니다.


이를 방지하기 위해서는 격리용 네트워크를 Virtual SAN 네트워크로 설정, 가상머신의 "Host isolation response"옵션을 [Power off then failover]로 설정변경을 해줘야 한다고 합니다.


몇회에 걸쳐 Virtual SAN에 대해서 간단히 소개를 했습니다.

다음 버전의 Virtual SAN에서 가상머신의 제한이나 UI 등이 대폭 개선된다고 하니, 현버전에서 충분히 테스트를 거치신 뒤에 다음 버전으로 실환경 도입이 좋을거 같네요. 흐흐