DataSync 전송 구조 및 준비
1단계: 데이터 센터 내 에이전트(Agent) 배포
DataSync의 엔진 역할을 하는 에이전트를 온프레미스 환경에 설치해야 합니다.
배포 방식: VMware ESXi, Microsoft Hyper-V, KVM 등의 가상 머신(VM) 이미지로 제공됩니다.
성능 팁: 대규모 전송 시 에이전트 하나에 최소 4 vCPU, 32GB RAM을 할당하세요. 전송 속도가 매우 빠를 경우(10Gbps 이상) 에이전트를 여러 대 배포하여 부하를 분산할 수 있습니다.
2단계: 보안 연결 및 엔드포인트 설정
데이터가 인터넷을 타지 않게 하려면 VPC 엔드포인트(PrivateLink)를 활용하는 것이 보안 표준입니다.
Private 연결: AWS Direct Connect 또는 VPN을 통해 VPC 엔드포인트로 데이터를 쏘면, 공용 인터넷 노출 없이 안전하게 S3로 전달됩니다.
포트 개방: 에이전트가 AWS 서비스와 통신할 수 있도록 HTTPS(443) 포트가 열려 있는지 확인하세요.
대용량 전송 최적화 전략
3단계: 태스크(Task) 구성 및 병렬 처리
단일 태스크보다 데이터를 나누어 여러 태스크를 동시에 돌리는 것이 효율적입니다.
필터 및 매니페스트(Manifest): 1억 개 이상의 객체를 옮길 때는 매니페스트 파일(CSV 형식)을 사용하여 전송할 파일 목록을 직접 지정하세요. 불필요한 스캐닝 시간을 줄여줍니다.
대역폭 제어(Throttling): 낮시간 업무에 지장을 주지 않도록 대역폭 한도를 설정하거나, 야간에만 동작하도록 스케줄링을 적용하세요.
4단계: 데이터 무결성 및 S3 최적화
검증(Verification): 전송 완료 후 소스와 대상의 체크섬(Checksum)을 비교하여 데이터가 100% 일치하는지 확인합니다. (태스크 설정에서 '전체 검증' 선택 권장)
S3 버킷 키(Bucket Key) 활용: 2026년의 비용 절감 핵심 팁입니다. SSE-KMS 암호화를 사용한다면 'S3 버킷 키'를 활성화하여 KMS 호출 비용을 99%까지 아끼세요.
5단계: 모니터링 및 자동화
CloudWatch 통합: 실시간 전송 속도, 오류 발생 여부, 성공한 파일 수를 대시보드로 확인하세요.
이벤트 기반 실행: 온프레미스에 새 파일이 생성될 때마다 자동으로 DataSync 태스크를 트리거하도록 AWS Lambda와 연동할 수 있습니다.
전송 방식 비교: DataSync vs Snowball
항목 | AWS DataSync | AWS Snowball Edge |
연결 방식 | 온라인 (Network 기반) | 오프라인 (물리 장비 배송) |
전송 속도 | 대역폭에 따라 가변적 (최대 10Gbps) | 장비당 80TB~ (물리적 한계) |
추천 상황 | 지속적인 증분 데이터 복제, 1PB 미만 | 초기 1회성 대량 이관, 1PB 이상 |
장점 | 즉시 시작 가능, 자동화 용이 | 네트워크 대역폭 부족 시 유리 |
Tip
데이터 전송 자체보다 파일 시스템 스캔에 시간이 더 걸릴 수 있습니다. 수백만 개의 작은 파일이 있는 경우, 에이전트가 파일을 하나하나 확인하는 속도가 병목이 됩니다. 이럴 때는 상위 폴더별로 태스크를 5~10개로 쪼개서 병렬로 실행하세요. 총 작업 시간을 절반 이하로 줄일 수 있습니다!
마이그레이션이 끝난 후에는 에이전트를 바로 삭제하지 마세요. '증분 전송(Incremental Transfer)' 모드를 활용하면 바뀐 파일만 골라내어 최종 동기화를 수행할 수 있습니다. 실제 서비스 전환(Cut-over) 직전에 마지막 동기화를 돌리는 용도로 요긴하게 쓰입니다.
댓글
댓글 0개
이 문서에는 댓글을 달 수 없습니다.