EC2 인스턴스 상태 검사 실패 대응 가이드
1단계: 어떤 검사가 실패했는지 확인하기
먼저 EC2 콘솔의 [상태 검사] 탭에서 실패 유형을 확인해야 합니다.
상태 검사 유형 | 실패 원인 (주로) | 해결 주체 |
시스템 상태 검사 (0/2) | 하드웨어 문제, 네트워크 연결 손실, 물리적 호스트 장애 | AWS |
인스턴스 상태 검사 (1/2) | 커널 오류, 파일 시스템 손상, 메모리 부족(OOM), 설정 오류 | 사용자 (고객) |
2단계: 진단 도구 활용 (데이터 수집)
무작정 껐다 켜기 전에, 왜 죽었는지 알아야 재발을 막을 수 있습니다.
인스턴스 스크린샷 캡처:
작업 -> 모니터링 및 문제 해결 -> 인스턴스 스크린샷 가져오기를 누르세요. 블루스크린(BSOD)이나 커널 패닉(Kernel Panic) 메시지가 떠 있다면 범인은 내부 소프트웨어입니다.시스템 로그 확인:
시스템 로그 가져오기를 통해 부팅 과정의 에러 메시지를 확인합니다. (예:Fsck실패, 네트워크 드라이버 로드 에러 등)
3단계: 유형별 복구 방법 (Action)
상황 A: 시스템 상태 검사 실패 (0/2)
물리적인 호스트 서버에 문제가 생긴 경우입니다.
해결책: 인스턴스를 중지(Stop)했다가 다시 시작(Start) 하세요.
원리: 중지 후 시작하면 AWS가 자동으로 해당 인스턴스를 건강한 다른 물리 호스트로 옮겨서 다시 띄워줍니다. (단순 '재부팅'으로는 호스트가 바뀌지 않으니 주의하세요!)
상황 B: 인스턴스 상태 검사 실패 (1/2)
OS 내부의 문제입니다. 대부분 메모리 부족이나 설정 변경 직후에 발생합니다.
해결책 1: 재부팅(Reboot)을 시도합니다. 단순한 일시적 에러라면 리부팅만으로 해결됩니다.
해결책 2: 최근에 수정한 네트워크 설정이나
/etc/fstab파일이 있다면, 볼륨을 분리하여 임시 인스턴스에 붙인 뒤 수정해야 합니다. (수술용 서버 방식)
4단계: 자동 복구 설정 (Prevention)
매번 사람이 수동으로 조치할 수는 없습니다. CloudWatch Alarm을 사용해 자동화를 구축하세요.
설정: CloudWatch 경보 생성 ->
StatusCheckFailed_System지표 선택 -> 작업(Action)에서 '이 인스턴스 복구(Recover this instance)' 선택.효과: AWS 하드웨어 장애 발생 시, 시스템이 알아서 인스턴스를 건강한 호스트로 이사 보내고 부팅까지 완료해 줍니다.
5단계: 리소스 확인 (Optimization)
만약 '인스턴스 상태 검사 실패'가 자주 일어난다면?
메모리(RAM) 부족: 인스턴스 타입이 너무 작아 애플리케이션이 메모리를 다 써버리고 커널이 멈춘 것일 수 있습니다. 인스턴스 타입을 한 단계 높이는 것을 고려해 보세요.
댓글
댓글 0개
이 문서에는 댓글을 달 수 없습니다.