다중 AZ(Multi-AZ) 구성된 RDS의 페일오버(Failover) 발생 시 애플리케이션 연결 유지 방법은 무엇인가요? – 메가존클라우드

RDS Multi-AZ 페일오버 대응 및 연결 전략

애플리케이션이나 운영체제(OS)가 예전 Primary의 IP 주소를 너무 오래 기억(캐싱)하고 있으면, DNS가 바뀌어도 계속 죽은 서버에 접속을 시도하게 됩니다.

Java/JVM 환경: JVM은 보안상의 이유로 DNS 조회 결과를 영원히(forever) 캐싱하는 경우가 많습니다. networkaddress.cache.ttl 값을 60초 이하로 반드시 설정해야 합니다.
OS 레벨: nscd 같은 DNS 캐싱 서비스를 사용 중이라면 TTL 설정을 확인하세요. AWS RDS의 DNS TTL은 기본적으로 60초입니다.

2026년 현재, 대규모 트래픽을 다루는 서비스에서 RDS Proxy는 선택이 아닌 필수입니다.

작동 원리: 애플리케이션과 DB 사이에 위치하며, 페일오버 발생 시 애플리케이션의 연결을 끊지 않고 잠시 대기시켰다가 새 DB가 준비되면 즉시 트래픽을 넘겨줍니다.
장점: 일반적인 DNS 방식보다 페일오버 시간을 최대 66%까지 단축시킬 수 있으며(보통 수십 초 내외), 애플리케이션에서 별도의 복잡한 재연결 로직을 짤 필요가 없습니다.

네트워크는 언제든 끊길 수 있다는 가정하에 코드를 작성해야 합니다.

Connection Pool 설정: HikariCP 같은 라이브러리를 사용한다면, maxLifetime과 connectionTimeout을 적절히 설정하여 유효하지 않은 연결을 빠르게 버리고 새로 맺도록 하세요.
에러 핸들링: ReadOnly 에러나 Connection Timeout이 발생했을 때, 즉시 에러를 뱉는 대신 지수 백오프(Exponential Backoff) 알고리즘을 적용한 재시도 로직을 구현하세요.

일반 MySQL/PostgreSQL 드라이버는 DNS가 바뀌기만을 기다립니다. 하지만 AWS Advanced JDBC Driver는 클러스터의 상태(Topology)를 직접 확인하여 페일오버 시간을 수초 내로 단축시킵니다.

관련 문서