virtualization/VMware

[ESXi 5] iSCSI 스토리지와의 연결 에러

yueisu 2012. 2. 9. 10:12
소규모의 VDI 안건이 있어서 ESXi5 3대와 iSCSI 스토리지 1대의 환경을 구축했습니다.

인프라 구축후 한동안 별탈없이 View의 환경을 구축중이었는데, 어느 날 ESXi가 먹통이 되더군요.
결국 스토리지를 재기동해서 연결은 되었습니다만, ESXi의 vmkernel.log를 확인하니 5분 간격으로 다음과 같은 에러가 기록되고 있었습니다.

2012-01-25T11:05:39.161Z cpu9:2210)ScsiDeviceIO: 2316: Cmd(0x412440f3b000) 0x28, CmdSN 0x1c85f to dev "naa.600144f0a2130a0000004f1e7cb30002" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

2012-01-25T11:07:54.313Z cpu10:2058)ScsiDeviceIO: 2316: Cmd(0x412440f66280) 0x12, CmdSN 0x1510 to dev "naa.600508e000000000189bee96f6793107" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0.

2012-01-25T11:12:54.311Z cpu14:2062)ScsiDeviceIO: 2316: Cmd(0x412440dfee80) 0x12, CmdSN 0x1518 to dev "naa.600508e000000000189bee96f6793107" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0.


"ScsiDeviceIO: 2316"와 "H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0"로 검색을 해보니, 다음과 같은 2가지 의심적은 부분을 발견했습니다.

(1) VAAI의 버그 (KB2007427)
ESXi 4.1부터 추가된 VAAI UNMAP기능의 버그에 의해, 스토리지의 성능이 저하되거나 스냅숏 등이 실패할 수 있다
라고 말입니다.
따라서 KB대로 UNMAP 기능을 무효화했습니다.

(2) Delayed Ack (KB1002598)
TCP/IP의 응답지연 설정에 의해, 복수의 Deyaled Ack가 발생할 경우, 스토리지의 읽기 성능이 저하된다
라고 말이죠.
KB의 경우는 EMC 스토리지에 대한 것이었습니다만,  TCP/IP를 이용한 iSCSI 스토리지는 다 똑같으리라 생각, Delayed Ack를 일단 무효화 -> ESXi 리붓 ->  Delayed Ack를 유효화 했습니다.

제경우는 결과적으로 (2)를 실행함으로써 에러가 기록되는 것을 해결했습니다.

라이센스 판매회사에 문의도 했었습니다만, 대답은
에러코드로 D:0x2가 있으니 스토리지의 HBA의 문제니 확인하라
고 하더군요. 확인 결과, 아무런 문제도 없었습니다. 쩝...