virtualization/VMware

[VMware] 인벤토리에 레플리카가 표시됨

yueisu 2017. 10. 27. 20:09

2017/12/5 Updated

커뮤니티 회원님에게 좋은 정보를 들었습니다. 어쩌면 이 KB가 해결방법인지 모르겠네요. 다음에 또 다시 발생한다면 써봐야겠네요.

A virtual machine on a vSAN datastore might be renamed when vSAN becomes inaccessible





얼마전 vSAN을 도입한 고객사에서 장애가 발생했습니다. 

4 호스트의 소규모 구성이었습니다만 운없게 2 호스트가 1시간안에 멈춰버린거 같았습니다.(FTT=1임에도 불구하고 "접근불가" 상태의 가상머신이 많았기 때문이죠)


장애 발생후 호스트는 복구를 했으며 vSAN 클러스터의 헬스 상태나 오브젝트의 헬스 상태도 정상이었도 모든 가상머신도 정상적이었던거 같습니다.(표면적으로는 말이죠)


몇시간 뒤에 고객으로부터 연락을 받았습니다. 일부 리눅스 가상머신의 반응이 느려진거 같다고 하더군요. 아울러 이상하게도 가상머신에 로그인하여 명령어를 실행하면 일부 명령어가 먹히질 않는다고 하더군요. 


다음날 직접 확인을 해봤습니다.

확실히 고객이 말한대로 더군요. SSH의 접속도 늦고 일단 접속이 되더라도 일부 명령어, 예를들어 sudo나 reboot 등을 실행하면 "버스 에러"란 메시지가 표시되더군요. 리눅스에 대해서 그다지 자세하질 않아서 검색을 해보니 "버스 에러"는 일반적으로 리소스가 부족하거나 일부 라이브러리가 파손되었을 경우 발생하는 것 같더군요. 장애 발생전과 후에 해당 가상머신의 리소스를 변경한 일은 없으니, 역시나 호스트 장애로 HA가 발동한 타이밍에 게스트 OS에 영향이 있던 것이 아닌가라는 잠정 결론의 분위기였습니다.


다행히도 문제가 발생한 가상머신은 수일전에 새롭게 작성한 것으로 최악의 경우 삭제를 해도 문제가 없다길래 일단 가상머신을 강제적으로 정지했습니다.

정지했더니 인벤토리에서 가상머신이 사라졌더군요. 대신 FTT=1로 생성된 레플리카가 표시되더군요. 이렇게 말이죠.



음... 호스트 장애로 HA가 발동한 타이밍에 레플리카가 인벤토리에 등록이 된 것일까요? 자세한 내용은 확인을 할 수가 없었습니다만, 인벤토리에서 레플리카를 삭제한 뒤에 가상머신을 인벤토리에 재등록 해주니 가상머신이 등록되었고 반응도 정상적으로 돌아왔으며 모든 명령어도 실행을 할 수 있게 되었습니다.  


추축에 불과합니다만 레플리카가 인벤토리에 등록된 바람에 가상머신의 화일이 읽기 전용이 되어 명령어가 실행되지 않았던거 같네요... 쩝... 좀더 빨리 로그를 수집해서 지원부서에 돌리지 않은게 후회되네요.