DataWarehouse, DataLake, DataLakehouse 비교 분석
|
2 min read
데이터 관리 아키텍처는 데이터 웨어하우스(DW)와 데이터 레이크(DL)를 거쳐 최근에는 데이터 레이크하우스(Lakehouse)로 진화하고 있습니다. 각각의 특징과 장단점을 비교해 보겠습니다.
1. 데이터 웨어하우스 (Data Warehouse)

DW는 전통적으로 기업의 중심 저장소로 사용되고 있는 시스템입니다. 여러 DB로부터 데이터를 ETL(Extract, Transform, Load)하여 통합한 후, 구조화된 형태로 저장합니다.
- 장점: BI 보고 및 의사결정 지원에 최적화되어 있으며, 정형화된 쿼리를 매우 빠르게 처리합니다.
- 단점: 사전에 정의된 스키마(Schema-on-write)가 필요하여 비정형 데이터를 다루기 어렵고, 초기 구축 비용이 높습니다. ML/AI 작업에는 유연성이 떨어집니다.
2. 데이터 레이크 (Data Lake)

DL은 다양한 원천의 대용량 데이터를 원시 형태(Raw Data) 그대로 저장하는 중앙 저장소입니다.
- 장점: 스키마를 미리 정의하지 않는 Schema-on-read 방식을 취해 유연성과 확장성이 뛰어납니다. 비용이 저렴하며 BigData/ML 프로젝트에 적합합니다.
- 단점: 거버넌스가 부족할 경우 데이터 품질 저하로 인해 '데이터 늪(Data Swamp)'이 될 위험이 있습니다. 트랜잭션 보장이 어려워 데이터 일관성 유지가 까다롭습니다.
3. 데이터 레이크하우스 (Data Lakehouse)

LH는 데이터 레이크의 유연한 저장 능력과 데이터 웨어하우스의 관리 및 분석 기능을 결합한 새로운 플랫폼입니다.
- 핵심 특징: 저렴한 분산 스토리지에 모든 형태의 데이터를 저장하면서도, ACID 트랜잭션과 데이터 품질 관리를 지원합니다.
- 이점: 데이터 거버넌스와 관리 도구를 통합 제공하여, 하나의 플랫폼에서 BI 분석부터 머신러닝까지 모두 수행할 수 있습니다.
최근 레이크하우스가 주목받는 이유는 데이터 중복을 줄이고, 신선한 데이터를 기반으로 분석과 AI 모델링을 동시에 수행할 수 있는 효율성 때문입니다. 데이터의 양이 폭발적으로 증가하는 현대 인프라에서 가장 합리적인 대안으로 떠오르고 있습니다.