media-blend
text-black

비즈니스 회의에서 대화형 화면으로 그래프를 연구하는 비즈니스 관계자들

데이터 레이크 vs 데이터 웨어하우스

데이터 레이크는 소스 데이터가 어떤 형태로 도착하든 관계없이 원시 데이터를 원래 형식으로 저장합니다. 데이터 웨어하우스는 미리 정의된 방식으로 정리되고 구조화된 데이터를 저장합니다.

default

{}

default

{}

primary

default

{}

secondary

데이터 레이크 및 데이터 웨어하우스 소개

데이터 레이크와 데이터 웨어하우스는 대량의 디지털 데이터를 저장, 관리 및 검색하는 시스템입니다. 기업은 운영, 고객, 시장 및 공급망에 대한 통찰력을 얻어 보다 전략적으로 대응할 수 있도록 데이터를 수집합니다.

데이터 웨어하우스데이터 사일로를 제거하고 여러 시스템, 형식 및 부서에 흩어져 있는 비즈니스 데이터 문제를 해결하기 위한 솔루션으로 등장했습니다.

일관적이지 않아 사용자는 패턴을 발견하거나 수요를 예측하거나 비즈니스 성과를 평가하기 위해 이러한 데이터에 접근하고 통합하며 분석하기가 어려웠습니다. 데이터 웨어하우스는 이 데이터를 중앙 집중식 저장소로 통합하여 분석을 위해 데이터를 통합, 정리 및 정형할 수 있도록 개발되었습니다. 이 접근 방식은 규정 준수, 성과 모니터링 및 비즈니스 인텔리전스 프로세스를 지원하기 위한 "단일 진실의 원천"을 확립했습니다.

반면 데이터 레이크는 소셜 미디어, IoT 기기, 센서, 모바일 앱 등 새로운 출처에서 생성되는 비정형 및 반정형 데이터의 폭발적 증가를 데이터 웨어하우스가 적절히 처리하지 못하는 한계를 해결하기 위한 솔루션으로 등장했습니다. 이미지, 동영상, 텍스트 등 방대한 양의 다양한 데이터를 저장하고 처리하는 것은 기존 데이터 웨어하우스가 저장 전 데이터 정제 및 처리를 요구했기 때문에 비용이 너무 많이 들고 비효율적이었습니다.

기업들은 원시 데이터의 원래 형식으로 저장할 수 있는 더 유연하고 비용 효율적인 방법이 필요했으며, 데이터 레이크가 그 해결책으로 탄생했습니다.

오늘날 많은 현대 기업들은 데이터 웨어하우스와 데이터 레이크를 모두 포함하는 하이브리드 접근 방식인 '데이터 레이크하우스'를 도입하고 있습니다. 이 아키텍처는 전자의 빠른 구조화된 보고 기능과 후자의 AI 및 머신러닝 애플리케이션 적용 가능성을 모두 제공합니다.

데이터 레이크와 데이터 웨어하우스 비교: 주요 차이점

데이터 레이크와 데이터 웨어하우스의 핵심 차이는 저장하는 데이터 유형과 저장 방식에 있으며, 이 두 가지 모두 조직의 데이터 전략에서 핵심적인 역할을 합니다.

데이터 웨어하우스는 미리 정의된 구조(스키마)에 따라 정리 및 처리된 구조화된 데이터를 저장합니다. 데이터 저장 전에 스키마가 적용되기 때문에 이 접근법을 '쓰기 시 스키마 적용(schema-on-write)'이라고 합니다.

예를 들어, 스키마는 고객 ID 데이터는 정수여야 하고, 주문 날짜 데이터는 YYYY-MM-DD 형식이어야 하며, 총 판매 금액 데이터는 십진수 형식이어야 한다고 규정할 수 있습니다. 모든 데이터가 이러한 규칙을 준수하므로 사용자는 "2025년 4월 고객별 총 매출액 조회"와 같은 쿼리를 신속하고 안정적으로 실행할 수 있습니다. 이러한 속도와 정확성 덕분에 데이터 웨어하우스는 보고, 대시보드, 비즈니스 인텔리전스 용도에 이상적입니다.

반면 데이터 레이크는 구조와 무관하게 원시 데이터를 원래 형식 그대로 저장할 수 있습니다. 미리 정의된 스키마가 필요하지 않습니다.

스키마는 데이터가 쿼리될 때만 정의되므로, 이 접근법을 읽기 시 스키마 적용(schema-on-read)이라고 합니다. 이때서야 원시 데이터가 쿼리에 따라 파싱, 정형 및 해석됩니다.

요약하자면, 데이터 웨어하우스는 모든 데이터가 구조화되고 정제되어 사용될 수 있도록 데이터를 저장하기 전에 스키마를 적용합니다. 데이터 레이크는 데이터가 쿼리될 때 스키마를 적용하며, 처음부터 구조화되었는지 여부와 상관없이 모든 데이터를 저장할 수 있습니다.

데이터 레이크와 데이터 웨어하우스의 차이점

데이터 레이크
데이터 웨어하우스
데이터 형식
정형, 반정형, 비정형 데이터(예: 로그, 동영상, 텍스트) 저장.
정형 데이터(예: 판매 거래 내역, 재무 데이터)만 저장.
스키마
읽기 시 스키마 적용: 데이터 쿼리 시 스키마 적용.
쓰기 시 스키마 적용: 데이터 저장 전 스키마 적용.
사용자
데이터 과학자, 엔지니어, 분석가가 패턴 탐색, 모델 훈련, 머신러닝 워크플로 실행.
비즈니스 분석가, 경영진, 운영팀이 리포트 및 KPI 생성.
목적
데이터 탐색, AI, 머신러닝을 위한 대용량의 다양한 원시 데이터를 유연하게 보관할 수 있는 저장소.
보고, 대시보드, 비즈니스 인텔리전스에 사용되는 구조화되고 처리된 데이터를 위한 중앙 집중식 저장소.
비용
저비용 객체 저장소
사전 처리 및 최적화로 인한 높은 저장 및 처리 비용.

데이터 레이크 선택과 데이터 웨어하우스 선택 비교

데이터 레이크는 원시 데이터를 어떤 형식으로도 저장할 수 있으므로 유연성이 필요한 기업에 이상적입니다. 예를 들어, 소매업체는 웹사이트, 모바일 앱, 소셜 미디어, POS 시스템 등 다양한 출처에서 방대한 양의 데이터를 수집합니다. 수집한 데이터를 정리, 변환 또는 구조화할 필요가 없기 때문에 쉽게 확장 가능한 비용 효율적인 스토리지 시스템을 사용할 수 있습니다. 그러나 쿼리 시점에 원시 데이터를 처리하는 비용은 데이터 웨어하우스의 최적화된 쿼리에 비해 더 높을 수 있습니다.

이에 비해 데이터 웨어하우스는 비용이 더 많이 듭니다. 로드 전의 정리, 변환, 구조화 과정과 로드 후의 인덱싱 및 파티셔닝 작업에는 추가적인 자원과 저장 공간이 필요합니다. 그러나 이러한 최적화를 통해 비즈니스 인텔리전스, 보고, 운영 분석에 바로 사용할 수 있는 데이터를 얻을 수 있습니다. 데이터 웨어하우스를 통해 분석가와 경영진은 리포트를 생성하고, KPI를 모니터링하며, 신속하고 쉽게 정보에 기반한 의사결정을 내릴 수 있습니다.

데이터 레이크가 AI 및 머신러닝 애플리케이션에 새로운 기회를 열어준다는 점은 주목할 필요가 있습니다. 데이터 레이크가 저장하는 방대하고 다양한 데이터셋을 통해 데이터 과학자들은 트렌드를 발견하고, 예측 모델을 구축하며, 머신러닝 애플리케이션을 실행할 수 있습니다. 이를 통해 예를 들어 과거 상호작용을 기반으로 사용자에게 제품을 추천하는 추천 시스템이나 고객 리뷰나 소셜 미디어 댓글에 대한 감성 분석을 실행하는 자연어 처리 툴 등이 구현됩니다.

오늘날 많은 현대 기업들은 본질적으로 두 가지를 결합한 데이터 아키텍처를 운영하고 있습니다. 이러한 데이터 레이크하우스는 데이터 레이크의 유연성과 데이터 웨어하우스의 거버넌스 및 성능을 동시에 제공하기 위해 설계되었습니다. 도입이 빠르게 증가하고 있지만, 많은 기업들은 여전히 중요한 보고를 위해서는 기존 웨어하우스를 활용하고 있습니다.

실제 사례 및 사용 사례

다양한 산업이 고유한 요구사항을 지원하기 위해 데이터 레이크, 데이터 웨어하우스 또는 양자의 요소를 결합하여 활용하는 사례를 소개합니다.

의료: 병원에서는 운영 과정에서 생성되는 방대한 양과 다양한 유형의 데이터를 저장, 관리 및 분석하기 위해 데이터 레이크 아키텍처를 자주 사용합니다. 여기에는 비정형 웨어러블 데이터 및 의료 영상, 반정형 HL7 환자 데이터, 정형화된 검사실 결과 등이 포함됩니다. 모든 데이터를 중앙 저장소에 통합함으로써, 원시 데이터에 고급 분석 및 AI를 적용하여 위험에 처한 환자를 식별하거나 유전체학을 분석해 맞춤형 치료 계획을 수립할 수 있습니다. 이제 환자에게 중요한 신호에 데이터를 스트리밍하는 "스마트" 웨어러블 장치가 장착되어 있어 의료 서비스 제공업체는 조기 경고 신호를 감지하고 더 빠르게 개입할 수 있습니다.

재무: 은행 및 기타 금융 기관은 자금 세탁 방지(AML) 규정과 엄격한 재무 보고 규정(미국의 사베인스-옥슬리법 또는 국제적인 바젤 III 등)을 준수해야 합니다. 데이터 웨어하우스를 활용해 거래 기록, 계좌 잔액, 거래 데이터 등 여러 시스템의 구조화된 금융 데이터를 저장함으로써, 거버넌스 및 보안 요건을 충족하는 규제 리포트를 생성할 수 있습니다. 규정 준수에 더해, 금융 기관들은 데이터 웨어하우스를 활용해 비즈니스 인텔리전스를 강화하고, 위험을 관리하며, 과거 및 현재 데이터셋에 걸쳐 복잡한 쿼리를 실행하여 사기를 탐지합니다.

미디어: 비디오 스트리밍 서비스는 데이터 레이크하우스 접근 방식을 사용하여 사용자 데이터를 수집, 저장 및 분석하여 개인화된 경험을 제공합니다. 스트리밍 로그 및 소셜 미디어 피드백과 같은 여러 소스에서 다양한 유형의 데이터를 수집하여 중앙 저장소에 저장합니다. 그런 다음 이 데이터를 사용하여 가장 관련성 높은 콘텐츠를 추천하는 머신 러닝 모델을 구축할 수 있습니다. 동일한 데이터는 분석 또는 보고 요구에 맞게 하위 집합으로 선별 및 구조화되어 유지율 대시보드를 구동하거나 콘텐츠 확보 결정에 정보를 제공할 수도 있습니다.

데이터 플랫폼의 최신 동향

데이터 레이크하우스는 데이터의 가치를 극대화하려는 기업들에게 빠르게 선호되는 옵션이 되고 있습니다. 단일 플랫폼에서 비즈니스 인텔리전스와 AI 및 머신러닝 사용 사례를 모두 지원할 수 있습니다. 그러나 데이터 레이크하우스는 여전히 진화 중이며, 일부 기업은 여전히 미션 크리티컬한 보고를 위해서는 기존의 데이터 웨어하우스를 활용하고 있다는 점에 유의해야 합니다.

생산성과 효율성의 동력으로서 AI의 잠재력은 특히 데이터 아키텍처에 영향을 미쳤으며, 일부 새롭게 떠오르는 데이터 레이크 및 데이터 레이크하우스 플랫폼은 이제 LLM과 통합되었습니다. 이를 통해 비기술 분야의 사용자도 일반 언어로 질의를 하여 데이터를 탐색하고 분석할 수 있습니다. 예를 들어, 사용자가 "2분기 판매 동향을 보여줘"라고 요청하면 LLM이 시스템이 이해할 수 있는 SQL을 생성합니다. 이를 통해 데이터 기반 인사이트에 대한 액세스를 민주화할 수 있습니다.

기업이 클라우드 제공업체에 데이터 인프라 관리를 위탁하는 방식인 서버리스 아키텍처도 전략으로 떠오르고 있습니다. 이 구조에서 기업은 자체 플랫폼 구축 및 관리 대신 데이터 플랫폼 사용 권한에 대한 비용을 지불합니다. 이 방식의 장점은 확장성과 비용 효율성이 더 용이하다는 점입니다. 클라우드 공급자는 데이터 양이나 쿼리 부하가 급증할 경우 대역폭 유연성을 제공하며, 기업은 사용한 만큼만 비용을 지불합니다. 이렇게 하면 개발자는 인프라 고려 사항과 씨름할 필요가 없어 더 빠르게 배포할 수 있습니다.

일부 기업은 멀티 클라우드 전략을 선택하여 데이터 레이크와 웨어하우스를 여러 클라우드 서비스에 분산하기도 합니다. 주요 이점은 중복성으로 인한 복원력입니다. 한 클라우드 서비스가 중단되더라도 다른 클라우드에서 비즈니스를 계속 운영할 수 있습니다. 또한 특정 클라우드에서 특정 워크플로를 최적화할 수 있습니다. 예를 들어, 한 서비스가 머신러닝을 전문으로 하는 경우입니다. 일부 산업이나 국가에서는 민감한 데이터를 현지 규정 준수 요건을 충족하는 지역 또는 클라우드 공급자에 저장해야 합니다.

여러 클라우드 환경에 걸쳐 데이터를 연결, 관리 및 통제하기 위해 기업은 데이터 패브릭 아키텍처를 구현할 수 있습니다. 이는 분리되어 있지만 동기화된 시스템과 애플리케이션 전반에 걸쳐 데이터에 대한 실시간 접근을 제공하여 환경 전반에 걸쳐 통합된 뷰를 생성합니다.

의료 기록, 사회 보장 번호, 소스 코드와 같은 민감한 데이터를 보호하기 위해 조직은 데이터 플랫폼에 제로 트러스트 접근 제어와 같은 정책도 도입하고 있습니다. 이러한 통제 수단은 모든 사용자가 필요한 데이터에 접근하기 위해 신원을 확인하도록 요구합니다.

FAQ

데이터 레이크란?
데이터 레이크는 숫자, 텍스트, 이미지, 동영상 또는 로그와 같은 원시 데이터를 대량으로 원본 형식 그대로 보관하도록 설계된 저장 시스템입니다. 즉시 정렬되지 않은 모든 종류의 정보가 유입될 수 있는 거대한 '디지털 저수지'라고 생각하면 됩니다.

데이터 레이크는 콘텐츠 추천 시스템을 구동하는 머신러닝 모델을 훈련하려는 데이터 과학자에게 유용합니다.
데이터 웨어하우스란?

데이터 웨어하우스는 주로 대량의 정형 데이터를 저장하도록 설계된 저장 시스템입니다. 정형 데이터는 특정 방식으로 정리, 조직화 및 형식이 지정됩니다. (스프레드시트의 정의된 행과 열을 생각해 보세요). 현대적인 웨어하우스는 JSON이나 XML과 같은 특정 반정형 형식도 처리할 수 있습니다.

기업은 데이터 웨어하우스를 활용해 신속한 질의 응답, 리포트 생성, 핵심 성과 지표 추적을 수행합니다. 이러한 기능은 비즈니스 인텔리전스 범주에 속합니다.

데이터 레이크하우스란?
데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 현대적 데이터 플랫폼입니다. 원시 데이터, 비정형 데이터, 반정형 데이터 등 모든 유형의 데이터를 사전에 정리할 필요 없이 저장할 수 있습니다. 필요할 때 신속한 구조화된 분석과 보고를 가능하게 합니다.
스키마란? 읽기 시 스키마 적용과 쓰기 시 스키마 적용의 차이점은 무엇인가요?

스키마는 데이터가 어떻게 구성되는지에 대한 규칙입니다. 예를 들어, 저장 가능한 데이터 유형(숫자, 날짜), 데이터 배열 방식(테이블과 열), 정보 간의 관계 등을 규정합니다.

쓰기 시 스키마 적용은 데이터가 저장되기 전에 미리 정의된 구조(스키마)에 맞춰야 함을 의미합니다. 데이터 웨어하우스가 작동하는 방식입니다. 데이터 웨어하우스는 데이터가 정리되고 분석 준비가 된 상태를 사전에 보장합니다.

읽기 시 스키마 적용은 누군가가 데이터를 사용하거나 분석하고자 할 때만 구조가 적용됨을 의미합니다. 데이터 레이크가 바로 이 방식으로 작동합니다. 데이터를 먼저 어떤 형태로든 저장할 수 있고 즉시 정렬할 필요가 없으므로 더 많은 유연성을 제공합니다. 그러나 이 접근법의 단점으로는 쿼리 속도 저하와 잠재적 불일치가 있습니다. 서로 다른 사용자가 동일한 원시 데이터를 다르게 해석할 수 있기 때문입니다.

반면, 쓰기 시 스키마 적용은 사전에 일관성을 강제하지만 유연성은 감소시킵니다.

정형 데이터, 비정형 데이터, 반정형 데이터의 차이점은 무엇인가요?

정형 데이터는 체계적으로 정리되어 검색이 용이하며, 일반적으로 테이블에 저장됩니다. 고객 이름, 판매 수치, 날짜 등이 해당됩니다.

비정형 데이터는 고정된 형식이 없어 정리가 어렵습니다. 동영상, 이미지, 오디오 파일, 소셜 미디어 게시물 등이 이에 해당합니다.

반정형 데이터는 그 중간 형태입니다. 일정한 체계는 있지만, 테이블처럼 엄격하지 않습니다. JSON 파일, XML 문서, 전자메일을 예로 들 수 있습니다.

SAP 로고

데이터 가치를 극대화하세요.

이 모든 것을 SAP Business Data Cloud로 통합하세요.

자세히 알아보기