Skip to content

데이터 웨어하우스, 마트, 레이크

Last updated: 2025-07-10  •7 min read

데이터 웨어하우스, 데이터 마트, 데이터 레이크 비교

데이터는 쌓이는데, 왜 활용하기 어려울까?

Section titled “데이터는 쌓이는데, 왜 활용하기 어려울까?”

서비스가 커지면서 데이터는 자연스럽게 쌓입니다. 사용자 행동 로그, 거래 내역, 마케팅 캠페인 결과까지—하루에도 수백, 수천만 건의 데이터가 만들어지죠.

그런데 쌓인 데이터를 실제로 분석하고 활용하는 건 전혀 다른 이야기입니다. 막상 지난 분기 채널별 광고 효율은 어땠지? 혹은 특정 사용자 그룹의 이탈 징후는 무엇일까? 와 같은 질문에 답하려면 여기저기 흩어져 있는 데이터를 취합하고 정제하느라 며칠을 보낼 때도 있어요.

단순히 데이터를 모으는 것은 비교적 쉬울 수 있습니다. 하지만 그 데이터를 활용 가능한 자산으로 만드는 것은 훨씬 어려운 일입니다.

그래서 생겨난 게 데이터 웨어하우스, 데이터 레이크, 그리고 데이터 마트입니다. 이름은 익숙하지만, 각자의 역할과 쓰임새는 생각보다 다릅니다. 이번 포스트에서는 이 세 가지 데이터 저장소의 기본적인 개념에 대해 다뤘습니다.

1. 데이터 웨어하우스(Data Warehouse)

Section titled “1. 데이터 웨어하우스(Data Warehouse)”

데이터 웨어하우스는 말 그대로, 깔끔하게 정제된 데이터를 저장해두는 공간입니다.

운영 DB, CRM, 로그 시스템 등 다양한 소스에서 데이터를 가져와서(Extract), 쓸 수 있는 형태로 변환하고(Transform), 웨어하우스에 적재(Load)하는 ETL 방식으로 운영됩니다.

예를 들어, 이커머스 회사에서 매출 리포트를 만들거나, 재고 현황을 확인하거나, 고객 세그먼트를 나눌 때 웨어하우스를 사용합니다. BI 툴과 연결해 빠르게 시각화하거나 정기 보고서를 자동으로 생성하기에도 적합하죠.

장점은 명확합니다. 정제된 데이터라 품질이 높고, 분석 쿼리도 빠릅니다.

대신 단점은 유연하지 않다는 것이죠. ETL 과정에서 필요 없는 데이터는 버리게 되고, 나중에 새로운 분석을 하려면 다시 처음부터 파이프라인을 손봐야 합니다.

데이터 레이크는 일단 쌓고 보자는 접근에 가깝습니다.

정형, 비정형, 반정형 데이터를 가리지 않고 원시 상태 그대로 저장합니다. 저장 먼저 하고(Load), 나중에 필요할 때 꺼내서 변환(Transform)하는 ELT 방식이죠.

예를 들어, 소셜미디어 플랫폼이라면 텍스트, 이미지, 영상, 클릭 로그, 위치 정보 등 다양한 형태의 데이터를 수집합니다. 이걸 일일이 정제하기엔 시간도 없고 그 기준도 애매하죠. 그럴 땐 일단 데이터 레이크에 넣어두고 필요할 때 꺼내 분석하거나 모델 학습에 활용합니다.

장점은 유연함입니다. 당장 쓸 계획이 없어도 저장해두면 미래에 활용할 수 있습니다.

대신 관리하지 않으면 데이터 늪이 되기 쉽습니다. 쌓기만 하고 안 쓰면, 찾지도 못하고 써먹지도 못하는 창고가 되는 거죠.

데이터 마트는 웨어하우스에서 필요한 데이터만 뽑아, 특정 팀이나 목적에 맞게 구성한 저장소입니다. 말하자면, 백화점에서 인기 상품만 따로 모아놓은 매대 같은 거죠.

예를 들어 마케팅팀은 전체 매출보다, 고객 반응이나 캠페인 성과에 더 관심이 많습니다. 그래서 마케팅 마트를 따로 구성해, 필요한 테이블만 담아두고 가볍게 분석하는 거죠.

장점은 빠르고 단순하다는 것. 팀에서 바로 써먹을 수 있게 구성되니, 속도와 효율이 올라갑니다.

단점은 마트가 여러 개 생기다 보면 데이터가 중복되거나, 서로 다른 기준으로 운영돼 전사적인 관점에서 봤을 때 일관성이 무너질 수 있다는 점입니다.

과거에는 이 세 가지를 별개의 선택지로 여겼지만, 현대적인 데이터 아키텍처에서는 이들이 상호 보완적으로 협력하는 경우가 대부분입니다.

  1. 데이터 수집레이크: 일단 데이터는 다 모읍니다. 쓸지 안 쓸지 몰라도, 버리지 않고 저장해두는 게 기본입니다.

  2. 정제웨어하우스: 레이크에 있는 데이터 중 자주 쓰고, 품질이 중요한 건 웨어하우스로 옮겨 정제합니다.

  3. 활용마트: 각 팀이 실무에서 자주 쓰는 데이터는 마트로 구성해 빠르게 써먹습니다.

이번 포스트에서는 데이터 웨어하우스, 데이터 레이크, 데이터 마트의 기본 개념에 대해 알아보고, 각 데이터 저장소의 장단점을 비교해 보았습니다.

이제는 이해하셨겠지만 이 셋 중 뭐가 정답이냐고 묻는다면, 그건 조직마다 다르다고밖에 말할 수 없습니다. 결국 중요한 건 현재 조직에 맞는 구조를 찾고 그걸 계속 다듬어 나가는 과정입니다.