건너뛰고 콘텐츠로 이동
호수 사진

데이터 레이크란?

본질적으로 데이터 레이크는 정보 저장소입니다. 데이터 레이크는 데이터 웨어하우스와 혼동되기도 하지만 데이터 레이크와 데이터 웨어하우스는 서로 다른 비즈니스 요구사항을 충족하며 아키텍처가 다릅니다. 특히 클라우드 데이터 레이크는 소셜 데이터, 사물인터넷(IoT) 기계 데이터, 트랜잭션 데이터가 점점 더 빠른 속도로 확산되면서 오늘날 데이터 관리 전략의 핵심 요소로 자리 잡았습니다. 데이터 레이크의 모든 데이터 유형을 저장, 변환, 분석할 수 있는 기능은 새로운 비즈니스 기회와 디지털 혁신을 지원합니다.

90

%

빅데이터 이니셔티브가 미래의 성공을 결정한다고 믿는 금융 기관 비율 

64.2

2020년에 생성된 디지털 데이터의 용량(제타바이트) 

176억

2026년까지 예상되는 데이터 레이크 시장 가치(달러)

데이터 레이크 정의

데이터 레이크는 데이터 단절 문제를 해결하는 중앙 데이터 저장소입니다. 무엇보다 중요한 점은 데이터 레이크에 방대한 양의 원시 데이터가 네이티브 형식, 즉 원본 형식으로 저장된다는 점입니다. 이러한 형식은 정형, 비정형, 반정형일 수 있습니다. 특히 클라우드의 데이터 레이크는 비용이 저렴하고 쉽게 확장이 가능하며 응용 머신러닝 분석과 함께 사용할 수 있습니다.

데이터 레이크 vs 데이터 웨어하우스

데이터 레이크와 반대로 데이터 웨어하우스는 데이터 관리 기능을 제공하며 사전 정의된 질문이나 적용 사례에 대해 이미 처리되고 필터링된 데이터를 저장합니다.

데이터 레이크 vs 데이터 웨어하우스

데이터 레이크와 데이터 웨어하우스를 비교하는 다이어그램

데이터 웨어하우스와 데이터 레이크는 상호 보완하는 경우도 있습니다. 예를 들어, 데이터 레이크에 저장된 원시 데이터는 비즈니스 질문에 대답하기 위해 필요하며 향후 분석을 위해 데이터 웨어하우스에서 추출, 정리, 변환, 사용할 수 있습니다.

 

’데이터 레이크하우스’는 새롭게 떠오르고 있는 개념으로, 기존 데이터 레이크에 데이터 관리 기능을 추가한 것입니다. 결국 데이터 레이크와 데이터 웨어하우스의 결합이라고 볼 수 있습니다. 

 

데이터 유형 및 앞서 언급한 프로세스의 차이점과 더불어 데이터 레이크와 데이터 웨어하우스 솔루션의 자세한 차이점은 다음과 같습니다.

Edit Table Feature Comparison Component

궁극적으로 데이터 볼륨, 데이터베이스 성능, 스토리지 가격은 올바른 스토리지 솔루션을 선택하는 데 중요한 역할을 합니다.

데이터 레이크 솔루션의 주요 요소

  • 데이터 이동: 데이터 레이크는 다양한 소스의 모든 데이터 유형을 네이티브 형식으로 들여옵니다. 이를 통해 비즈니스는 데이터 구조, 스키마, 변환을 정의하지 않고도 필요에 따라 데이터 크기를 확장할 수 있기 때문에 간접비를 절감할 수 있습니다.
  • 안전한 데이터 저장 및 카탈로그화: 데이터 레이크는 CRM 또는 ERP 소프트웨어, IoT 장치, 소셜 미디어의 비즈니스 데이터, 심지어는 레거시 시스템의 과거 데이터와 같이 다양한 소스의 정형, 비정형, 반정형 데이터를 저장합니다. 그리고 데이터 레이크를 통해 배치 및 스트리밍 데이터를 포착함과 동시에 거버넌스, 보안, 제어를 적용할 수 있습니다. 올바른 툴을 사용해 데이터를 직접 쿼리하거나 데이터 웨어하우스로 수집할 수 있습니다.
  • 분석 및 머신러닝: 데이터 레이크는 데이터를 개별 분석 데이터베이스로 이동할 필요 없이 분석 기능과 머신러닝 분석을 실행할 수 있도록 역할 기반의 정보 액세스를 허용합니다. 또한 데이터 레이크는 이력 데이터를 실시간 데이터와 결합해 머신러닝이나 예측 분석 모델을 개선해 더 나은 결과나 새로운 결과를 제공하도록 합니다.

데이터 레이크의 작동 방식

오늘날의 데이터 레이크는 3가지 주요 기능을 갖추고 있습니다.

  1. 원시 데이터를 위한 랜딩 존
  2. 분석 목적으로 데이터를 변환하는 스테이징 존
  3. 분석, 애플리케이션, 머신러닝 모델의 피드를 위해 데이터가 사용되는 데이터 탐색 존

데이터 레이크의 정보는 분석 또는 기타 비즈니스 애플리케이션과 같은 다양한 소스로 전달되거나 추가 분석을 위해 머신러닝 툴로 전달됩니다.

 

데이터 레이크의 적용 사례

소매 부문의 데이터 레이크 적용 사례로는 다음의 두 가지가 있습니다.

 

장기 판매 데이터는 웹사이트 클릭스트림, 날씨, 뉴스, 거시/미시 경제 데이터와 같은 비정형 데이터와 함께 데이터 레이크에 저장됩니다. 이러한 데이터를 함께 저장해 액세스할 수 있다면 데이터 과학자는 이처럼 다양한 소스의 정보를 특정 제품이나 제품 라인의 수요 예측 모델에 더 쉽게 결합할 수 있습니다. 이후 이러한 정보는 소매유통 ERP 시스템에 입력되어 생산 계획을 늘리거나 줄이는 데 사용합니다. 

 

한편 마케팅 전문가는 동일한 데이터 레이크에 액세스해 뉴스, 거시경제, 판매 이력 데이터를 통해 웹사이트 감성을 분석하고 소셜 미디어 참여를 확인해 어떤 제품에 집중할지와 판매량, 수익 및 채택률을 어떻게 극대화할 수 있는지 결정할 수 있습니다.

데이터 레이크 유형

데이터 레이크는 온프레미스, 클라우드, 하이브리드 및 Amazon Web Services (AWS), Microsoft Azure, Google Cloud 같은 다양한 클라우드 하이퍼스케일러에 존재할 수 있습니다.

 

지금까지 가장 많이 사용된 데이터 레이크 유형은 클라우드 데이터 레이크입니다. 클라우드 데이터 레이크는 일반적인 데이터 레이크 기능 전부를 완벽하게 관리되는 클라우드 서비스 내에서 제공합니다.

  • 온프레미스 데이터 레이크: 사내 IT 엔지니어링 리소스는 온프레미스 데이터 레이크를 사용해 하드웨어, 소프트웨어, 프로세스를 관리합니다. 이러한 접근 방식은 자본지출(CAPEX) 투입량이 더 많고, 데이터가 단절되는 경향이 있습니다.
  • 클라우드 데이터 레이크: 클라우드 데이터 레이크에서는 온프레미스의 인프라가 아웃소싱됩니다. 따라서 운영비용(OPEX) 투입량이 많지만 이 방식으로 배포에 접근하면 비즈니스는 보다 쉽게 규모를 확장하고 다양한 이점을 누릴 수 있습니다(아래 참조).
  • 하이브리드 데이터 레이크: 일부 기업은 특정한 상황에서 온프레미스 데이터 레이크와 클라우드 데이터 레이크를 동시에 유지하려고 합니다. 이러한 상황은 아주 드물며 대부분은 온프레미스에서 클라우드로 마이그레이션하는 시나리오에서 볼 수 있습니다.
  • 멀티 클라우드 데이터 레이크: 멀티 클라우드 데이터 레이크에서는 두 가지 이상의 클라우드 서비스가 결합됩니다. 예를 들어 기업은 클라우드 데이터 레이크를 관리 및 유지하기 위해 AWS와 Azure를 같이 사용할 수 있습니다. 서로 다른 플랫폼이 원활하게 통신하기 위해서는 높은 전문성이 요구됩니다.

클라우드 데이터 레이크의 6가지 이점

클라우드 데이터 레이크를 선택해야 하는 이유 데이터를 고부가가치 비즈니스 자산으로 전환하면 디지털 혁신을 촉진할 수 있습니다. 데이터 레이크와 결합된 클라우드의 장점은 바로 이러한 기반을 제공한다는 점입니다. 클라우드 데이터 레이크는 기업이 로그 파일, 클릭스트림, 소셜 미디어, 인터넷 연결 장치 등 새로운 데이터 소스뿐 아니라 이력 데이터에도 분석을 적용해 실행 가능한 인사이트를 얻게 해 줍니다.

 

데이터 레이크를 통해 기대할 수 있는 주요 이점은 다음과 같습니다.

  1. 비용 효율성: 클라우드 스토리지 사업자는 다양한 스토리지 및 가격 옵션을 제공합니다.
  2. 오토 스케일링: 클라우드 서비스는 스케일링 기능을 제공해 기업이 온디맨드 방식으로 저장 용량을 계산하고 활용할 수 있도록 설계되었습니다.
  3. 중앙 데이터 저장소: 클라우드 데이터 레이크는 정보를 한데 모으고 데이터 액세스를 관리하는 단일 데이터 소스로서 팀 간 프로세스 효율성을 높입니다.
  4. 데이터 보안: 클라우드 스토리지 사업자는 공유 책임 모델을 통해 데이터 보안을 보장합니다.
  5. 툴: 클라우드 스토리지 사업자와 그 외 벤더는 데이터를 크롤링하고 데이터 카탈로그를 구축할 뿐 아니라 데이터 쿼리 지원을 위해 데이터를 준비, 변환, 수집하는 ETL 툴을 제공합니다.
  6. 새로운 인사이트 및 더 나은 비즈니스 성과를 위한 분석 개선: 클라우드 데이터 레이크는 새로운 방식으로 데이터를 결합할 수 있습니다. 예를 들어 CRM 데이터와 소셜 미디어 분석은 이탈 원인에 대한 새로운 고객 인사이트를 제공하거나 어떤 프로모션이 고객 충성도를 높이는지 보여줍니다. 또한 IoT 데이터 분석을 통해 운영 효율성을 개선할 수 있습니다.  
placeholder

데이터 레이크 솔루션 시작하기

SAP HANA Cloud 내의 데이터 레이크 기능을 살펴보세요.

시리즈 추가 내용

데이터 레이크 자주 묻는 질문(FAQ)

아래에서 데이터 레이크에 관한 FAQ를 살펴보고, 더 많은 정의가 궁금하다면 SAP 데이터 관리 용어집을 검토해 보세요.

‘데이터 레이크’라는 용어는 보다 단절되고 잘 정의된 정형 데이터 마트에 비해 더 유동적이고 규모가 큰 데이터 저장소라는 개념을 반영해 진화해 왔습니다.

 

10년도 더 전에 데이터 소스가 늘면서 데이터 레이크는 향후 분석을 위해 아직 정의되지 않은 페타바이트 단위의 데이터를 저장할 필요성을 해결하는 방향으로 발전했습니다. 초기 데이터 레이크는 Hadoop 파일 시스템(HDFS) 기반이기도 했고 온프레미스 데이터 센터 기반의 양산형 하드웨어이기도 했습니다. 하지만 분산된 아키텍처 특유의 난제가 있었고 사용자 정의 데이터 변환 및 분석이 필요해 하둡(Hadoop) 기반 시스템이 최선의 성능을 발휘하지 못하는 문제가 있었습니다.

 

클라우드 컴퓨팅과 데이터 스토리지 기술은 이제 최신 데이터 스택과 클라우드 데이터 레이크를 위한 주요 토대가 되고 있습니다.

데이터 웨어하우스(DW)는 다양한 소스에서 얻은 대량의 정형화되고 형식이 지정된 데이터를 연결하고 통합하는 디지털 스토리지 시스템입니다. 반면에 데이터 레이크는 비정형 또는 형식이 지정되지 않은 원본 데이터를 저장합니다.

데이터 관리란 생산성, 효율성, 의사결정을 지원하기 위해 데이터를 수집, 구성, 사용하는 프로세스를 의미합니다.

데이터 레이크하우스는 기존 데이터 레이크 기능에 데이터 관리와 웨어하우스 기능을 더한 것입니다. 새롭게 성장하며 빠르게 변화하고 있는 분야입니다.

멀티 클라우드는 단일 이기종 아키텍처에서 여러 클라우드 컴퓨팅 및 스토리지 서비스를 사용하는 방식입니다. 예를 들어 여러 클라우드 호스팅 환경에 클라우드 자산, 소프트웨어, 애플리케이션을 배포하는 것을 말합니다.

파일 스토리지는 데이터를 여러 개의 폴더 내에 파일 계층 구조로 구성하고 표시합니다. 블록 스토리지는 데이터를 균일한 크기의 조각으로 분리해 임의로 구성합니다. 오브젝트 스토리지는 데이터를 관리하고 관련 메타데이터와 연결합니다. 오브젝트 스토리지 시스템은 매우 큰 용량의 비정형 데이터를 보존할 수 있습니다.

SAP Insights 뉴스레터

placeholder
지금 구독하기

뉴스레터를 구독하고 핵심 인사이트를 얻으세요.

추가 자료

맨 위로