

데이터 관리 아키텍처는 데이터 웨어하우스(DW)와 데이터 레이크(DL)를 거쳐 최근에는 데이터 레이크하우스(LH)로 진화하고 있습니다. 논문을 토대로 각각 DW, DL, LH의 장단점과 실험 설계와 결과를 설명하고 왜 최근 LH가 주목받는지 얘기를 해보겠습니다.
데이터 웨어하우스

DW는 정통적으로 기업의 중심 저장소로 사용되고 있는 시스템입니다. 여러 DB로부터 데이터를 ETL하여 통합한 후, 다차원 데이 터 큐브 형태로 저장함으로써 여러 데이터를 연계한 분석 쿼리를 빠르게 실행할 수 있습니다. BI보고 및 의사결정 지원에 최적화 되어 있고, 정형화된 쿼리를 빠르게 처리할 수 있다는 강점이 있습니다. 그러나 스키마가 사전에 정의된 구조화 데이터만 효과적으로 다룰 수 있고, 새로운 형태의 비정형 데이터는 직접 수용하기가 어렵습니다. DW에 데이터를 넣기 전에는 schema-on-write 방식을 거치며 정제, 변환이 필요하므로 초기 구축과 변경에 많은 시간과 비용이 듭니다. 사전에 정의된 분석 질의에 특화되어 있어서 ML/AI작업에는 유연하지 않습니다.
데이터 레이크

DL은 다양한 원천의 대용량 데이터를 원시 형태로 있는 그대로 저장하는 중앙 저장소입니다. 스키마를 미리 정의하지 않고 데이터 생성 속도에 맞춰 실시간 또는 배치로 받아들이는 schema-on-read 방식을 취하기 때문에, DW처럼 사전 정제에 드는 시간과 비용을 줄이고 유연한 확장성과 다양성을 제공합니다. 저렴한 분산 저장을 활용하므로 확장성이 뛰어나고 비용이 저렴하며, 대용량 데이터에 대한 애드훅 분석이나 실시간 처리도 지원합니다. 이러한 이유로 DL은 BigData/ML 프로젝트에서 원천 데이터를 모아 두는 용도로 인기가 있습니다. 하지만 DL도 DW와 마찬가지로 단점이 존재합니다. 저장된 데이터에 대한 거버넌스가 부족하면, 방대한 원시 데이터가 품질 저하나 중복으로 이어져 Data Swamp이 될 위험이 있습니다. 실제로 DL에는 스키마나 품질 규칙없이 무엇이든 담기 때문에 나중에 필요한 데이터를 찾거나 신뢰성을 확보하기 어려워질 수 있습니다. 또한 데이터 수정이나 삭제 시 ACID 트랜잭션이 보장되지 않아서 일관성 유지가 어렵고, 권한 제어나 보안 측면도 상대적으로 취약합니다. DW에 비해서는 원시 데이터를 바로 저장해서 초기에는 빠르지만 결국 활용하려면 나중에 정제 및 변환이 필요하기 때문에 분석 준비에 시간이 걸릴 수 있고 성능 최적화도 추가 작업을 거쳐야 합니다. 요컨대 DL은 유연성과 확장성은 높지만 대이터 품질관리, 일관성 즉시 분석 측면에서는 한계를 보입니다.
데이터 레이크하우스

LH는 DL의 유연한 저장과 DW의 관리, 분석 기능을 결합한 새로운 플랫폼입니다. LH는 DL처럼 저렴한 분산 스토리지에