Summary
"Insufficient instance capacity" 오류는 선택한 가용 영역에서 요청한 인스턴스 타입의 가용 용량이 부족할 때 발생합니다. 해결 방법으로는 다른 가용 영역이나 인스턴스 타입 사용, 시간 경과 후 재시도가 있으며, 온디맨드 용량 예약을 통해 사전 예방할 수 있습니다.
Details
1. Insufficient Capacity 오류 원인
- 요청한 가용 영역에 해당 인스턴스 타입을 실행할 물리적 용량 부족
- 수요 변동, 리전/AZ별 하드웨어 가용성에 따라 일시적 또는 지속적으로 발생
2. 즉시 시도 가능한 해결 방법
방법 1: 가용 영역 변경
- 현재 가용 영역에서 실패 시 같은 리전 내 다른 AZ로 변경
예: ap-northeast-2a → ap-northeast-2b 또는 ap-northeast-2c
- 각 가용 영역은 독립적인 용량 풀을 보유하므로 다른 AZ에서는 용량이 있을 수 있음
- 다른 가용 영역의 서브넷을 선택하여 인스턴스 시작
방법 2: 인스턴스 타입 변경
- 동일 패밀리 내에서 다른 사이즈 시도
예: m5.xlarge 실패 → m5.2xlarge 또는 m5.large 시도
- 최신 세대 인스턴스로 변경
예: m5.xlarge → m6i.xlarge 또는 m7i.xlarge
- 동일 세대의 다른 패밀리 시도
예: c5.xlarge → c5a.xlarge 또는 c5n.xlarge
**주의: 프로세서 아키텍처에 따른 애플리케이션 호환성 및 성능 요구사항 검토 필요
방법 3: 시간 경과 후 재시도
- 몇 분 ~ 몇 시간 후 다시 시도 (다른 고객이 용량을 반환했을 가능성)
- 며칠 간격으로 재시도 (용량 추가 가능성)
방법 4: 리전 변경 (필요 시)
- 동일 리전 내에서 지속적으로 실패하는 경우 비즈니스 요구사항에 맞는 범위 내에서 다른 리전 검토
3. 장기적 해결책: 용량 예약
빈번한 Insufficient Capacity 에러 발생 또는 비즈니스 크리티컬한 워크로드의 경우 사전에 용량을 예약할 수 있습니다.
온디맨드 용량 예약 (ODCR)
개요:
- 특정 가용 영역에서 EC2 인스턴스 용량을 사전 예약
- 예약된 용량은 다른 계정이 사용할 수 없음
- 즉시 예약 또는 미래 날짜 예약 가능
사용 사례:
- 예상되는 스케일 업 이벤트 대비
- 재해 복구 및 고가용성 요구사항
- ICE가 자주 발생하는 인스턴스 타입
비용:
- 인스턴스 실행 여부와 관계없이 예약한 용량만큼 시간당 온디맨드 요금 발생 (Savings Plans/RI 할인 적용 가능)
ML용 EC2 용량 블록
- ML 워크로드를 위한 GPU 인스턴스 전용 (P5, P4d)
- 1~14일 또는 7일 단위로 최대 182일까지 예약 가능(ex. 21일, 28일)
Guidance
Insufficient Capacity 발생 경향
- 모든 인스턴스 타입에서 발생 가능하나 수요에 따라 빈도 차이
- 최신 세대가 이전 세대보다 용량 확보에 유리할 가능성이 있음
- 리전/AZ별로 발생 빈도가 상이할 수 있음
- 실시간 용량 현황은 AWS에서 공개하지 않음
예방 조치
1. 용량 예약 사용
- 비즈니스 크리티컬 워크로드로 용량 보증이 필요한 경우
- 현재 또는 미래의 특정 시점에 확실한 용량 확보가 필요한 경우
- 예상되는 스케일 업 이벤트 대비 (블랙 프라이데이, 마케팅 캠페인 등)
- 필요한 기간 동안 언제든지 예약한 용량에 액세스 가능
- ML 워크로드: ML용 용량 블록으로 미래 날짜에 중단 없는 GPU 인스턴스 예약 가능
2. 다중 AZ 아키텍처
- 애플리케이션을 여러 가용 영역에 분산 배포
- Auto Scaling 그룹 사용 시 여러 AZ 구성
- 한 AZ에서 Insufficient Capacity 오류 발생 시 다른 AZ에서 스케일 가능
댓글
댓글 0개
댓글을 남기려면 로그인하세요.