Compute Engine의 “호스트 유지보수”와 “호스트 오류” 이벤트는 무엇이 다르며, 각각 어떻게 동작하나요? – 메가존클라우드

Q: Compute Engine의 “호스트 유지보수”와 “호스트 오류” 이벤트는 무엇이 다르며, 각각 어떻게 동작하나요?

상세 설명: Compute Engine을 운영하다 보면 VM이 재시작되거나 마이그레이션 되는 상황을 겪게 됩니다. 이 현상은 크게 "계획된 유지보수(Host Maintenance)"와 "계획되지 않은 오류(Host Error)" 두 가지로 나뉩니다. 두 이벤트의 발생 원인 및 처리 메커니즘은 다음과 같습니다.

1. 호스트 유지보수 (Host Maintenance)

이 이벤트는 Google Cloud 운영팀이 데이터센터의 물리적 인프라를 최신 상태로 유지하기 위해 사전에 계획(Scheduled)하여 수행하는 작업입니다.

발생 배경:
- 보안 및 성능 업데이트: 하이퍼바이저(Hypervisor) 소프트웨어 패치, BIOS 업데이트, 보안 취약점 해결 등을 위해 수행됩니다.
- 하드웨어 교체: CPU, 메모리, 네트워크 카드 등 물리적 부품의 노후화가 감지되거나 업그레이드가 필요할 때 발생합니다.

핵심 기술: 라이브 마이그레이션 (Live Migration)

표준 인스턴스는 '라이브 마이그레이션 (Live Migration)' 기술을 사용합니다.

작동 원리: VM이 실행 중인 상태에서 메모리, CPU 상태, 네트워크 연결 정보를 인접한 다른 물리적 호스트로 실시간 복제합니다. 복제가 완료되면 아주 짧은 순간(Blackout time)에 제어권을 새 호스트로 넘깁니다.

사용자 경험: VM이 새 호스트에서 즉시 다시 실행됩니다. 전체 과정에서 IP 주소, 네트워크 연결, 스토리지 등은 그대로 유지됩니다.
- 주의 사항: GPU, TPU 등 특수 목적 리소스는 기술적으로 라이브 마이그레이션을 지원하지 않습니다.

2. 호스트 오류 (Host Error)

이 이벤트는 물리적 서버나 데이터센터 인프라에 예기치 못한 하드웨어 장애가 발생하여 Google 시스템이 더 이상 해당 호스트를 정상적으로 운영할 수 없는 상태를 말합니다.

발생 배경:
- 하드웨어 고장: 메모리(RAM) 오류, 팬(Fan) 고장, 전원 공급 장치(PSU) 불량, 디스크 컨트롤러 장애 등
- 인프라 장애: 데이터센터의 특정 랙(Rack) 단위 전원 차단이나 네트워크 스위치 장애 등

핵심 기술: 자동 재시작 (Automatic Restart)

물리적 호스트가 다운되면 그 위의 VM들도 즉시 종료되며, 이후 다른 호스트에서 재시작됩니다.

작동 원리: Google의 모니터링 시스템이 호스트 장애를 감지하는 즉시, 해당 호스트에 있던 VM들의 소유권을 건강한 다른 호스트로 넘깁니다. 그리고 VM 설정에 따라 새로운 호스트에서 재시작(Restart)합니다.

사용자 경험: 사용자는 인스턴스 재시작(Restart) 현상을 겪게 됩니다. VM이 완전히 껐다 켜지는 것이므로 재부팅되는 시간만큼의 서비스 다운타임(Downtime)이 발생합니다.

3. 두 이벤트에 대한 권장 대응 전략

두 상황을 모두 방어하고 고가용성을 확보하기 위해 Google Cloud는 다음과 같은 설정을 권장합니다.

onHostMaintenance 설정은 'MIGRATE'로 유지하세요. (계획된 작업 시 무중단 이동)
automaticRestart 설정은 반드시 'ON'으로 설정하세요. (장애 발생 시 자동 복구)

관련 공식 문서:

[+] 호스트 유지보수 개요 (Host maintenance overview)

호스트 이벤트 정보 | Compute Engine

[+] VM의 호스트 유지보수 정책 설정

컴퓨팅 인스턴스의 호스트 유지보수 정책 설정 | Compute Engine

[+] 라이브 마이그레이션에 대한 이해

유지보수 이벤트 중 라이브 마이그레이션 프로세스 | Compute Engine

관련 문서