데이터 웨어하우스란?

데이터 웨어하우스(DW)는 다양한 소스의 대량의 데이터를 연결하고 조정하는 디지털 저장 시스템입니다.

데이터 웨어하우스 개요

데이터 웨어하우스(DW)는 다양한 소스의 대량의 데이터를 연결하고 조정하는 디지털 저장 시스템입니다. 데이터 웨어하우스의 목적은 비즈니스 인텔리전스(BI), 리포팅, 분석을 제공하고 규제 요구사항을 지원해 기업이 데이터를 인사이트로 전환하고 데이터 기반의 스마트한 의사결정을 지원합니다. 데이터 웨어하우스는 현재와 과거의 데이터를 한 곳에 저장하며 조직의 단일 데이터 소스의 역할을 합니다.

 

데이터는 운영 시스템(예: ERPCRM), 데이터베이스는 물론, 파트너 시스템, 사물인터넷(IoT) 장치, 날씨 앱, 소셜 미디어 같은 외부 소스에서 정기적으로 데이터 웨어하우스로 유입됩니다. 클라우드 컴퓨팅의 출현으로 큰 환경 변화가 발생했습니다. 최근 데이터 스토리지 위치는 기존의 온프레미스 인프라에서 온프레미스, 프라이빗 클라우드, 퍼블릭 클라우드를 포함한 다양한 위치로 이동하고 있습니다.

 

최신 데이터 웨어하우스는 영상, 이미지 파일, 센서 데이터 같은 정형, 비정형 데이터를 모두 처리하도록 설계되었습니다. 일부 데이터 웨어하우스는 통합 분석 및 인메모리 데이터베이스 기술(데이터 세트를 디스크 스토리지가 아닌 컴퓨터 메모리에 보관)을 활용해 신뢰받는 데이터에 대한 실시간 액세스를 제공하고 확신에 찬 의사결정을 이끌어냅니다. 데이터 웨어하우징이 없으면 다양한 소스로부터 얻은 데이터를 결합하거나 분석에 적합한 형식인지 확인하거나 시간이 지남에 따라 현재 및 장기적인 데이터 뷰를 모두 확보하기가 어렵습니다.

데이터 웨어하우스란?

데이터 웨어하우스란?

데이터 웨어하우징의 도입효과

제대로 설계된 데이터 웨어하우스는 성공적인 BI 또는 분석 프로그램을 위한 초석이 됩니다. 데이터 웨어하우스의 주요 역할은 오늘날 비즈니스에 없어서는 안 될 리포트, 대시보드, 분석 툴을 강화하는 일입니다. 데이터 웨어하우스는 데이터 중심의 의사결정을 위한 정보를 제공하며 신제품 개발에서 재고 수준에 이르는 모든 사항에 대한 올바른 결정을 내리도록 지원합니다. 데이터 웨어하우스의 도입효과는 매우 다양합니다. 다음은 대표적인 몇 가지 효과입니다. 

  • 더 나은 비즈니스 분석: 의사결정자는 데이터 웨어하우징을 통해 다양한 소스의 데이터에 액세스하고 불완전한 정보를 기반으로 의사결정을 내리지 않아도 됩니다.  

  • 신속한 쿼리: 데이터 웨어하우스는 특히 빠른 데이터 검색 및 분석을 위해 구축됩니다. IT 부서의 지원 없이도 데이터 웨어하우스로 엄청난 양의 종합 자료를 매우 빠르게 요청할 수 있습니다.  

  • 데이터 품질 개선: 데이터 웨어하우스로 로드되기 전에 시스템에서 데이터 클렌징 케이스를 생성하고 추가 처리를 위해 작업 리스트에 입력해 데이터가 고품질의 정확한 데이터를 바탕으로 한 분석과 의사결정을 지원하도록 일관된 형식으로 변환할 수 있습니다.

  • 이력 인사이트: 데이터 웨어하우스는 풍부한 이력 데이터를 저장함으로써 의사결정자가 과거의 동향과 당면 과제로부터 학습해 예측하고 지속적인 비즈니스 개선을 이끌어가도록 지원합니다.

placeholder

데이터 계보를 보여주는 데이터 웨어하우스 스크린샷

데이터 웨어하우스, 무엇을 저장할 수 있나요?

데이터 웨어하우스가 처음 대중화되었던 1980년대 말 데이터 웨어하우스는 사람, 제품, 거래에 관한 정보를 저장하기 위해 설계되었습니다.  정형 데이터라고도 불리는 이러한 데이터는 손쉽게 액세스할 수 있도록 간결하게 구조화해 일정한 형식으로 저장되었습니다. 하지만 얼마 지나지 않아 기업들은 문서, 이미지, 영상, 전자메일, 소셜 미디어 포스트, 기계 센서의 원시 데이터 같은 비정형 데이터를 저장, 검색, 분석하기를 원했습니다.

 

최신 데이터 웨어하우스는 정형, 비정형 데이터를 모두 수용할 수 있습니다. 이러한 데이터 유형을 통합하고 두 유형 간의 사일로(단절)를 제거함으로써 기업은 가장 가치 있는 인사이트에 대한 완전하고도 포괄적인 그림을 확보할 수 있습니다.

주요 용어

데이터 웨어하우스를 이해하기 위한 다양한 용어가 있습니다. 여기에서는 몇 가지 중요한 용어에 관해 살펴보도록 하겠습니다. 그 외 다른 용어와 FAQ는 SAP 용어집에서 확인할 수 있습니다.

 

데이터 웨어하우스 vs 데이터베이스

 

데이터베이스와 데이터 웨어하우스는 모두 데이터 스토리지 시스템입니다. 하지만 각각 다른 목적을 수행합니다. 데이터베이스는 특정 비즈니스 영역에 해당하는 데이터를 저장합니다. 데이터 웨어하우스는 비즈니스 전체에 해당하는 현재 및 이력 데이터를 저장하며 BI와 분석을 제공합니다. 데이터 웨어하우스는 데이터베이스 서버를 사용해 기업 데이터베이스에서 데이터를 가져오고 데이터 모델링, 데이터 수명주기 관리, 데이터 소스 통합 등을 위한 추가적인 기능을 갖추고 있습니다.

 

데이터 웨어하우스 vs 데이터 레이크

 

데이터 웨어하우스와 데이터 레이크는 빅데이터를 저장하는 데 사용되지만, 매우 다른 특성을 지닌 스토리지 시스템입니다. 데이터 웨어하우스는 특정 목적을 위해 형식이 지정된 데이터를 저장하지만, 데이터 레이크는 처리되지 않은 원시 상태, 즉, 아직 정의되지 않은 데이터를 저장합니다. 데이터 웨어하우스와 데이터 레이스는 상호 보완적인 관계를 갖기도 합니다. 예를 들어, 데이터 레이크에 저장된 원시 데이터는 비즈니스 질문에 답하기 위해 필요한 경우 추출, 정리, 변환되어 분석을 위해 데이터 웨어하우스에서 사용할 수 있습니다. 데이터 볼륨, 데이터베이스 성능, 스토리지 가격은 적합한 스토리지 솔루션을 선택하는 데 중요한 역할을 합니다.

데이터 레이크와 데이터 웨어하우스를 비교하는 다이어그램

데이터 웨어하우스 vs 데이터 마트

 

데이터 마트는 데이터 웨어하우스의 하위 섹션으로, 영업, 마케팅 또는 재무와 같은 부서 또는 사업부를 위해 분할되어 있습니다. 일부 데이터 마트는 오직 운영 목적으로만 생성되기도 합니다. 일부 데이터 마트는 오직 운영 목적으로만 생성되기도 합니다. 데이터 웨어하우스가 기업 전반의 중앙 데이터 스토리지 역할을 한다면, 데이터 마트는 일부 선택된 사용자 그룹에게 관련 데이터를 제공합니다. 이는 데이터 액세스를 간소화하고, 분석 속도를 높이며, 자체 데이터에 대한 통제력을 부여하게 됩니다. 개의 데이터 마트가 데이터 웨어하우스 내에 배포되기도 합니다.

데이터 마트 다이어그램과 작동 방식

데이터 웨어하우스의 주요 구성 요소는 무엇인가요?

전형적인 데이터 웨어하우스는 중앙 데이터베이스, ETL(추출, 변환, 로드) 툴, 메타데이터 및 액세스 툴이라는 4가지 주요 요소로 구성되어 있습니다.이 모든 구성 요소는 빠르게 결과를 확보하고 데이터를 분석할 수 있도록 설계되었습니다.

데이터 웨어하우스의 구성 요소를 보여주는 다이어그램

  1. 중앙 데이터베이스: 데이터베이스는 데이터 웨어하우스의 기반이 됩니다. 전통적으로 이러한 표준 관계형 데이터베이스는 온프레미스나 클라우드에서 운영되었습니다. 하지만 빅데이터, 진정한 실시간 성능에 대한 필요성, RAM 비용의 급격한 하락으로 인해 인메모리 데이터베이스가 빠르게 인기를 얻고 있습니다.
  2. 데이터 통합: 데이터는 소스 시스템에서 추출되어 ETL(추출, 변환, 로드) 및 ELT를 비롯해 실시간 데이터 복제, 벌크 로드 처리, 데이터 변환, 데이터 품질 및 강화 서비스와 같은 데이터 통합 접근 방법을 활용하는 빠른 분석 이용에 잘 맞게 정보를 사용하도록 수정됩니다.
  3. 메타데이터: 메타데이터는 귀사의 데이터에 관한 데이터를 말합니다. 즉, 데이터 웨어하우스의 데이터 세트의 소스, 사용, 값 및 기타 기능을 지정합니다. 데이터에 컨텍스트를 추가하는 비즈니스 메타데이터와 보관 위치 및 구성 방법을 포함하여 데이터에 액세스하는 방법을 설명하는 기술 메타데이터가 있습니다.
  4. 데이터 웨어하우스 액세스 툴: 액세스 툴을 사용하면 사용자가 데이터 웨어하우스의 데이터와 상호작용할 수 있습니다. 액세스 툴의 예로는 질의 및 보고 툴, 애플리케이션 개발 툴, 데이터 마이닝 툴, OLAP 툴 등이 있습니다.

데이터 웨어하우스 아키텍처

과거에는 데이터 웨어하우스가 비즈니스 데이터 흐름과 일치하는 여러 계층으로 운영되었습니다.

데이터 웨어하우스 아키텍처 다이어그램 
일반적인 데이터 웨어하우스는 위와 같은 3가지 개별 레이어를 포함합니다. 오늘날, 최신 데이터 웨어하우스는 단일 시스템에 OLTP와 OLAP를 결합합니다.

  • 데이터 계층: 데이터는 소스에서 추출해 ETL 툴을 사용해 하위 계층으로 변화 및 로드됩니다. 하위 계층은 데이터베이스 서버, 데이터 마트, 데이터 레이크로 구성되어 있습니다. 메타데이터는 이 하위 계층에서 생성되며, 데이터 가상화와 같은 데이터 통합 툴은 데이터를 원활하게 결합하고 집계하는 데 사용됩니다.

  • 의미 계층: 중간 계층에는 온라인 분석 처리(OLAP)와 온라인 트랜잭션 처리(OLTP) 서버가 데이터를 재구성해 빠르고 복잡한 쿼리와 분석을 시행합니다.

  • 분석 계층: 상위 계층은 프론트 엔드 클라이언트 계층입니다. 여기에는 사용자가 데이터와 상호작용하고 대시보드와 리포트를 생성하며 KPI 모니터링, 데이터 분석, 앱 구축 등 데이터 웨어하우스 액세스 툴이 있습니다. 이 계층에는 데이터 탐색과 신규 데이터 모델 개발을 위한 워크벤치나 샌드박스 영역이 포함되는 경우도 있습니다.

데이터 웨어하우스는 의사결정을 지원하도록 설계되었으며 주로 IT 팀이 구축하고 관리합니다. 하지만 지난 몇 년간 데이터 웨어하우스는 비즈니스 사용자에게 IT 의존도를 낮춰 데이터에 액세스하고 실행 가능한 인사이트를 얻도록 역량을 강화하는 방향으로 발전해왔습니다. 비즈니스 사용자의 역량을 강화해준 데이터 웨어하우징의 주요 기능은 다음과 같습니다.

  1. 자연어 구문을 제공하고 모든 사용자가 즉각적으로 데이터를 이해하도록 하는 의미 또는 비즈니스 계층은 데이터 모델의 요소 간의 관계를 정의하고 새로운 비즈니스 정보를 통해 데이터 필드를 확장합니다.
  2. 가상 업무 공간은 팀이 데이터 모델과 연결을 하나의 안전하고 통제된 공간으로 가져와 하나의 공통된 공간과 공통된 데이터 세트를 통해 동료와 더욱 원활하게 협업할 수 있도록 지원합니다.
  3. 클라우드는 직원들에게 데이터 분석 업무를 손쉽게 수행할 수 있는 풍성한 툴 세트와 기능을 제공해 역량을 강화함으로써 의사결정 과정을 더욱 개선해왔습니다. 따라서 IT 팀의 지원 없이도 새로운 앱과 데이터 소스를 연결할 수 있습니다.

클라우드 데이터 웨어하우스의 7가지 이점

클라우드 기반의 데이터 웨어하우스는 몇 가지 긍정적인 이유로 점차 인기를 얻고 있습니다. 이와 같은 최신 웨어하우스는 기존의 온프레미스 버전에 비해 몇 가지 장점을 가지고 있습니다. 여기에서는 클라우드 웨어하우스의 7가지 이점에 대해 살펴보도록 하겠습니다.

  1. 빠른 배포: 클라우드 데이터 웨어하우징을 사용하면 단 몇 번의 클릭만으로 거의 무제한의 컴퓨터 성능과 데이터 스토리지를 구매할 수 있습니다. 그리고 단 몇 분이면 언제 어디에서나 데이터 웨어하우스, 데이터 마트, 샌드박스를 구축할 수 있습니다.
  2. 낮은 총소유비용(TCO): 서비스로서의 데이터 웨어하우스(DWaaS) 가격 책정 모델이 설정되어 필요한 리소스 비용만을 필요할 때 지불하면 됩니다. 장기적인 니즈를 예측하거나 1년간 필요한 것보다 더 많은 컴퓨팅 성능을 구매할 필요가 없습니다. 또한, 값비싼 하드웨어, 서버 룸, 유지보수 인원과 같은 초기 비용을 피할 수도 있습니다. 스토리지 가격과 컴퓨팅 가격이 분리되어 비용을 절감할 수 있습니다.
  3. 탄력성: 클라우드 데이터 웨어하우스를 사용하면 필요에 맞게 규모를 확장하거나 축소할 수 있습니다. 클라우드는 확장 및 축소가 가능한 방대한 데이터를 관리할 수 있는 가상화되고 매우 분산된 환경을 제공합니다.
  4. 보안 및 재해 복구: 많은 경우, 클라우드 데이터 웨어하우스는 실제로 온프레미스 데이터 웨어하우스보다 더욱 강력한 데이터 보안 및 암호화를 제공합니다. 또한 데이터는 자동으로 복제 및 백업되어 데이터 손실 위험을 최소화할 수 있습니다.
  5. 실시간 기술: 인메모리 데이터베이스 기술로 구축된 클라우드 데이터 웨어하우스는 매우 빠른 데이터 처리 속도를 제공해 실시간으로 제공되는 데이터를 통해 즉각적인 상황 인식을 가능하게 합니다.
  6. 새로운 기술: 클라우드 데이터 웨어하우스는 현업 사용자에게 권장되는 질문 형태로 경험 가이드 및 의사결정 지원을 제공할 수 있는 머신러닝과 같은 새로운 기술을 손쉽게 통합할 수 있도록 지원합니다.
  7. 사용자 역량 강화: 클라우드 데이터 웨어하우스는 다양한 소스의 데이터에 대한 단일 뷰와 데이터 분석 작업을 쉽게 수행할 수 있는 다양한 툴 및 기능을 통해 전 세계 모든 직원들이 동등하게 역량을 강화할 수 있도록 지원합니다. 따라서 IT 부문의 지원 없이도 새로운 앱과 데이터 소스를 연결할 수 있습니다.
placeholder

데이터 웨어하우징은 부서, 벤더, 지역, 상태 등의 여러 기준으로 회사 지출을 포괄적으로 분석할 수 있도록 지원합니다.

데이터 웨어하우징 선진사례

새로운 데이터 웨어하우스를 구축하거나 기존 웨어하우스에 신규 애플리케이션을 추가하고자 할 때, 시간과 비용을 절약하면서도 목표를 달성할 수 있는 몇 가지 입증된 단계가 있습니다. 일부 사례는 비즈니스 사용에 초점이 맞춰져 있으며, 전반적인 IT 프로그램의 일부인 사례도 있습니다. 다음 목록은 좋은 시작점이 되며, 기술 및 서비스 파트너와 협업하며 추가적인 선진사례를 선택하면 됩니다. 

비즈니스 선진사례

  • 필요한 정보를 정의하세요. 초기 요구사항을 잘 이해하면 이러한 요구사항을 지원할 데이터 소스를 찾을 수 있습니다. 거래 그룹, 고객, 공급업체가 귀사에 필요한 데이터를 추천합니다.

  • 현재 데이터의 위치, 구조, 품질을 문서화하세요. 다음으로, 데이터 격차와 비즈니스 규칙을 식별해 웨어하우스 요건을 충족하도록 데이터를 변환할 수 있습니다.

  • 팀을 구축하세요. 여기에는 정보를 사용하고 제공할 임원 후원자, 관리자, 직원이 포함됩니다. 예를 들어, 작업을 수행하는 데 필요한 표준 리포팅과 KPI를 식별합니다.

  • 데이터 웨어하우스 애플리케이션의 우선순위를 정하세요. 합리적인 요건과 우수한 비즈니스 가치를 갖춘 한두 개의 파일럿 프로젝트를 선택합니다.

  • 강력한 데이터 웨어하우스 기술 파트너를 선택하세요. 기술 파트너의 경우, 프로젝트에 필요한 구현 서비스와 경험을 반드시 갖추어야 합니다. 클라우드 서비스와 온프레미스 옵션을 포함하여 귀사의 배포 요구사항을 지원하는지 확인합니다.

  • 우수한 프로젝트 계획을 개발하세요. 커뮤니케이션과 상태 리포팅을 지원하는 실제적인 청사진과 일정에 대해 팀과 협업합니다.

IT 선진사례

  • 성능과 보안을 모니터링하세요. 데이터 웨어하우스의 정보는 매우 가치 있지만, 그러한 가치를 기업에 제공하기 위해서는 반드시 손쉽게 액세스할 수 있어야 합니다. 시스템 사용내역을 주의 깊게 모니터링해 성능 수준이 높은지 확인합니다.

  • 데이터 품질 기준, 메타데이터, 구조, 거버넌스를 유지관리하세요. 가치 있는 데이터의 새로운 소스는 계속 추가되지만, 데이터 웨어하우스의 일부로 일관된 관리를 필요로 합니다. 데이터 정리, 메타데이터 정의, 거버넌스 기준 충족을 위한 절차를 따르세요.

  • 민첩한 아키텍처를 제공하세요. 기업 및 사업부 사용량이 증가함에 따라 더욱 폭넓은 데이터 마트와 웨어하우스 요구사항을 파악해야 합니다. 유연한 플랫폼은 제한적이고 한정적인 제품보다 훨씬 더 나은 지원을 제공합니다.

  • 유지보수와 같은 프로세스를 자동화하세요. 머신러닝은 비즈니스 인텔리전스에 가치를 더할 뿐 아니라 데이터 웨어하우스 기술 관리 기능을 자동화해 속도를 유지하고 운영 비용을 절감할 수 있습니다.

  • 클라우드를 전략적으로 사용하세요. 사업부와 부서는 배포에 관한 요구사항이 서로 다릅니다. 필요한 경우 온프레미스 시스템을 사용하고 클라우드 데이터 웨어하우스를 활용해 확장성, 비용 절감, 전화 및 태블릿 액세스를 지원하세요.

요약

현대의 데이터 웨어하우스와 점점 늘어나는 클라우드 데이터 웨어하우스는 모회사와 해당 사업부를 위한 디지털 혁신 이니셔티브의 핵심 부분이 될 전망입니다. 특히 여러 내부 시스템의 데이터를 외부 조직의 중요한 새로운 정보와 결합할 때 현재 비즈니스 시스템을 활용합니다.

 

대시보드, KPI, 경고 및 리포팅은 경영진, 관리자 및 직원 요구사항을 비롯해 중요한 고객 및 공급업체 요구사항까지도 지원합니다. 데이터 웨어하우스는 빠르고 복잡한 데이터 마이닝 및 분석을 제공하며, 다른 비즈니스 시스템의 성능에 영향을 끼치지 않습니다.

 

소규모로 시작해 필요에 따라 확장할 수 있는 유연성이 있기 때문에 기업 본사와 사업부 모두 최신 데이터 웨어하우스 기술로 의사결정과 핵심 성과를 개선할 수 있습니다.

데이터 웨어하우스 FAQ

데이터 레이크는 비즈니스 애플리케이션의 정형 데이터든 모바일 앱, 소셜 미디어 또는 사물인터넷(IoT) 장치의 비정형 데이터든 모든 종류의 빅데이터를 저장하는 곳입니다. 데이터는 정형, 비정형, 반정형, 이진 등 본래의 형식으로 저장되기 때문에 다양한 데이터 유형 전반에 대한 분석을 시행하기 위해서는 변환, 정규화 또는 그 외 처리 과정이 반드시 필요할 수 있습니다. 대부분의 데이터 레이크는 대용량의 데이터를 저장하며 분산된 소스에 대한 고속 연결과 확장성에 대한 필요성으로 인해 클라우드를 기반으로 합니다.

ETL이란 "추출(extract), 변환(transform), 로드(load)"의 약자입니다. 이 세 가지 활동이 프로세스를 구성해 소스에서 데이터를 가져와 사용 가능한 포맷으로 변환한 뒤 데이터 웨어하우스나 그 외 데이터 저장소로 옮깁니다. ETL은 특히 트랜잭션 데이터에 유용하지만, 좀 더 고급화된 툴에서도 다양한 비정형 데이터를 관리할 수 있습니다.

데이터 마트란 재무나 마케팅 등 특정 비즈니스 영역이나 팀을 중심으로 하는 데이터 웨어하우스의 분할 세그먼트입니다. 데이터 마트는 다양한 부서가 관련 데이터와 인사이트에 빠르게 액세스하고 더 큰 데이터 저장소 내부에서 자체 데이터 세트를 더욱 손쉽게 컨트롤할 수 있도록 합니다.

데이터 모델은 소프트웨어 개발 및 분석의 기본 요소입니다. 데이터 모델은 데이터를 구조화하는 방식과 데이터를 데이터베이스에 저장하는 형태를 설명합니다. 데이터 모델은 데이터베이스 내에서 데이터 요소 간의 관계 프레임워크와 데이터 사용 가이드를 제공합니다.

 

데이터 모델링은 데이터 모델을 생성하는 프로세스입니다. 데이터베이스나 데이터 웨어하우스 구조를 생성할 때, 설계자는 데이터가 데이터베이스나 데이터 웨어하우스로 어떻게 유입되고 빠져나오는지에 관한 다이어그램으로 시작합니다. 이런 흐름에 관한 다이어그램은 데이터 형식, 구조, 데이터베이스 처리 기능의 특징을 정의하는 데 사용되어 데이터 흐름 요구사항을 효율적으로 지원합니다. 모델링은 다양한 시스템 전반에서 데이터베이스 콘텐츠를 일관되게 정의하고 구성하는 표준화된 방법을 제공해 각기 다른 애플리케이션이 동일한 데이터를 공유하도록 합니다.

엔터프라이즈 데이터 웨어하우스(EDW)는 한 곳에 모든 현재와 이력 비즈니스 데이터를 저장합니다. 데이터 관리에 대한 전체적인 접근 방식을 기반으로 마스터 데이터 관리, 데이터 웨어하우징, 데이터 전략을 구현합니다. EDW는 분석 소프트웨어와 정확하고 전사적인 KPI와 리포팅 유지보수에 적합한 환경을 제공합니다. 많은 EDW가 확장성, 액세스, 손쉬운 사용을 이유로 클라우드를 기반으로 합니다.

placeholder

최신 데이터 웨어하우스 툴 살펴보기

SAP Datasphere는 차세대 SAP Data Warehouse Cloud입니다.

placeholder

다른 곳에서 찾을 수 없는 아이디어

받은 편지함으로 바로 전달되는 비즈니스 인텔리전스에 가입하세요.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel