[DataBricks] 2. ETL – 메가존클라우드

2.1 ETL > 단계별 처리 절차

데이터의 단계별 처리는 Databricks의 Medallion Architecture를 사용하여 이루어 집니다. Bronze(원시 데이터), Silver(정제된 데이터), Gold(비즈니스 요구에 맞게 집계된 데이터) 세 단계로 이루어지며 이 과정에서 데이터는 원시 형태의 raw 데이터 상태에서 정제과정을 거쳐 마지막 Gold 단계에서는 분석 준비가 완료된 고품질의 데이터 세트로 변환되게 됩니다.

2.2 ETL > 안정성 기반

Databricks는 ETL 작업의 안정성과 신뢰성을 보장하여 데이터 변환 및 적재 과정에서의 오류를 최소화합니다. 이를 통해 기업은 데이터 파이프라인의 연속성을 유지하며, 높은 수준의 데이터 처리 품질을 확보할 수 있습니다.

2.3 ETL > 사용 용이성 기반

Databricks는 GUI기반의 사용자 친화적 ETL 작업 개발 환경을 제공하여 데이터 엔지니어링의 복잡성을 줄이고 효율성을 높입니다. 이를 통해 기업은 빠르고 효과적인 ETL 잡 개발을 통해 데이터 파이프라인을 간소화하고 운영할 수 있습니다.

2.4 ETL > SQL 기반

Databricks는 SQL 기반의 ETL 작업 개발을 간편화하여 데이터 엔지니어와 분석가가 쉽게 접근하고 효율적으로 데이터 파이프라인을 구축할 수 있도록 지원합니다. 이를 통해 조직은 복잡한 데이터 처리를 더 빠르고 정확하게 수행하여 비즈니스 가치를 증대시킬 수 있습니다.

2.5 ETL > 아키텍처 (Batch)

Databricks의 ETL(Batch) 아키텍처는 체계적인 데이터 파이프라인 관리와 통합된 환경을 제공하여 복잡한 배치 처리 작업을 단순화합니다. 이는 높은 처리 성능과 스케일링 능력을 바탕으로 대용량 데이터 처리를 최적화하며, 다양한 데이터 소스와의 효율적인 통합을 지원합니다.

2.6 ETL > 아키텍처 (Streaming)

Databricks의 ETL(Streaming) 아키텍처는 실시간 데이터 스트림 처리를 위한 고급 분석 및 처리 기능을 제공하며, 높은 처리량과 낮은 지연 시간을 보장합니다. 이 아키텍처는 복잡한 스트리밍 파이프라인을 손쉽게 구축하고 관리할 수 있도록 지원하며, 데이터 실시간 분석 및 반응성을 극대화합니다.

2.7 ETL > 아키텍처 (Change Data Capture)

Databricks의 ETL(CDC) 아키텍처는 지속적인 데이터 변경을 실시간으로 포착하고 통합하여 데이터의 신뢰성과 가용성을 보장합니다. 이 아키텍처는 세밀한 데이터 변화 추적을 가능하게 하여 변화 데이터의 빠른 분석과 활용을 지원하며, 복잡한 데이터 환경에서의 유연성과 확장성을 제공합니다.