EC2 인스턴스 상태 검사(Status Check) 실패 시 자가 진단 및 복구 방법은 무엇인가요? – 메가존클라우드

EC2 인스턴스 상태 검사 실패 대응 가이드

먼저 EC2 콘솔의 [상태 검사] 탭에서 실패 유형을 확인해야 합니다.

무작정 껐다 켜기 전에, 왜 죽었는지 알아야 재발을 막을 수 있습니다.

인스턴스 스크린샷 캡처: 작업 -> 모니터링 및 문제 해결 -> 인스턴스 스크린샷 가져오기를 누르세요. 블루스크린(BSOD)이나 커널 패닉(Kernel Panic) 메시지가 떠 있다면 범인은 내부 소프트웨어입니다.
시스템 로그 확인: 시스템 로그 가져오기를 통해 부팅 과정의 에러 메시지를 확인합니다. (예: Fsck 실패, 네트워크 드라이버 로드 에러 등)

물리적인 호스트 서버에 문제가 생긴 경우입니다.

해결책: 인스턴스를 중지(Stop)했다가 다시 시작(Start) 하세요.
원리: 중지 후 시작하면 AWS가 자동으로 해당 인스턴스를 건강한 다른 물리 호스트로 옮겨서 다시 띄워줍니다. (단순 '재부팅'으로는 호스트가 바뀌지 않으니 주의하세요!)

OS 내부의 문제입니다. 대부분 메모리 부족이나 설정 변경 직후에 발생합니다.

해결책 1: 재부팅(Reboot)을 시도합니다. 단순한 일시적 에러라면 리부팅만으로 해결됩니다.
해결책 2: 최근에 수정한 네트워크 설정이나 /etc/fstab 파일이 있다면, 볼륨을 분리하여 임시 인스턴스에 붙인 뒤 수정해야 합니다. (수술용 서버 방식)

매번 사람이 수동으로 조치할 수는 없습니다. CloudWatch Alarm을 사용해 자동화를 구축하세요.

설정: CloudWatch 경보 생성 -> StatusCheckFailed_System 지표 선택 -> 작업(Action)에서 '이 인스턴스 복구(Recover this instance)' 선택.
효과: AWS 하드웨어 장애 발생 시, 시스템이 알아서 인스턴스를 건강한 호스트로 이사 보내고 부팅까지 완료해 줍니다.

만약 '인스턴스 상태 검사 실패'가 자주 일어난다면?

메모리(RAM) 부족: 인스턴스 타입이 너무 작아 애플리케이션이 메모리를 다 써버리고 커널이 멈춘 것일 수 있습니다. 인스턴스 타입을 한 단계 높이는 것을 고려해 보세요.

관련 문서