DataSync 작동 구조 및 설정
1단계: 온프레미스 에이전트(Agent) 배포
데이터가 있는 곳(온프레미스)에 일꾼을 보내야 합니다.
설치: VMware, Hyper-V, KVM 또는 EC2 환경에 DataSync 에이전트를 가상 머신(VM) 형태로 설치합니다.
사양 최적화: 대역폭이 10Gbps 이상이라면 에이전트에 최소 32개 이상의 vCPU와 64GB RAM을 할당하세요. 일꾼이 똑똑하고 힘이 세야 데이터 처리 속도가 빨라집니다.
2단계: 위치(Location) 및 작업(Task) 정의
Source: NFS, SMB, HDFS 또는 자가 관리형 객체 스토리지를 지정합니다.
Destination: 데이터를 받을 S3 버킷과 스토리지 클래스(Standard, Intelligent-Tiering 등)를 선택합니다.
Task 생성: 소스와 대상을 연결하는 '작업'을 만듭니다. 여기서 데이터 검증(Verification) 옵션을 '전체 검증'으로 두면 보안상 가장 확실하지만, 속도를 중시한다면 '전송된 데이터만 검증'으로 타협할 수 있습니다.
3단계: 자동화 스케줄링 (Automation)
DataSync는 별도의 Lambda 없이도 자체 스케줄러 기능이 매우 강력합니다.
콘솔 설정: 작업 설정에서
1시간 단위,매일, 혹은특정 요일을 선택하여 자동으로 동기화가 시작되도록 예약합니다.EventBridge 연동: 작업이 완료되거나 실패했을 때 즉시 Slack 알림을 받도록 설정하세요.
성능을 극한으로 끌어올리는 최적화 팁
단순히 켜두는 것과 최적화하는 것은 전송 완료 시점을 며칠이나 앞당길 수 있는 차이를 만듭니다.
최적화 항목 | 권장 전략 | 기대 효과 |
대역폭 제어 | 비즈니스 시간에는 제한(Throttling), 야간에는 최대 개방 | 업무망 간섭 최소화 및 야간 속도 극대화 |
병렬 처리 | 여러 대의 에이전트를 그룹화하여 사용 | 단일 에이전트의 물리적 한계 극복 |
증분 전송 | 첫 전송 후 '변경된 데이터만' 전송 옵션 유지 | 전송 시간 및 네트워크 비용 90% 이상 절감 |
VPC 엔드포인트 | 공용 인터넷 대신 AWS PrivateLink 사용 | 보안 강화 및 일정한 네트워크 성능 유지 |
Tip
수백만 개의 작은 파일(Small Files)은 DataSync의 적입니다. 파일 하나가 1KB인 데이터 1억 개를 옮기는 것이 100GB 파일 하나를 옮기는 것보다 훨씬 오래 걸립니다. 파일 수가 너무 많다면 전송 전 온프레미스에서 하나의 아카이브(TAR 등)로 묶어서 보내거나, DataSync의 '여러 작업(Multiple Tasks)' 기능을 써서 병렬로 나누어 처리하는 것이 좋습니다.
댓글
댓글 0개
이 문서에는 댓글을 달 수 없습니다.