데이터 웨어하우스란?
데이터 웨어하우스(DW)는 다양한 소스의 대량의 데이터를 연결하고 조정하는 디지털 저장 시스템입니다.
default
{}
default
{}
primary
default
{}
secondary
데이터 웨어하우스 개요
데이터 웨어하우스(DW)는 여러 소스에서 발생하는 대량의 현재와 과거의 데이터를 수집, 통합, 저장하는 중앙 집중식 리포지토리입니다. 이는 단일 진실 공급원을 제공하여 비즈니스 인텔리전스(BI), 리포팅, 고급 분석을 지원합니다. 조직은 데이터를 통합하고 표준화하여 신뢰할 수 있는 인사이트를 도출하고 규제 요구사항을 준수하며 데이터에 기반한 정보에 입각한 의사결정을 내릴 수 있습니다.
일반적으로 데이터는 ERP 및 CRM과 같은 운영 시스템, 내부 데이터베이스, 그리고 파트너 플랫폼, IoT 장치, 날씨 피드, 소셜 미디어와 같은 외부 소스에서 데이터 웨어하우스로 유입됩니다. 클라우드 컴퓨팅 기술이 성숙함에 따라 데이터 스토리지 환경은 기존의 온프레미스에서 유연한 멀티 클라우드와 하이브리드 클라우드 아키텍처로 전환되었습니다.
첨단 데이터 웨어하우스는 비디오, 이미지, 센서 스트림과 같은 정형 및 비정형 데이터를 모두 관리할 수 있도록 설계되었습니다. 특히 많은 시스템이 통합 분석과 인메모리 처리 기능을 갖추고 있어 더 빠른 쿼리 실행과 실시간 데이터 액세스, 효율적인 리포팅, BI 워크플로를 가능하게 합니다. 데이터 웨어하우스가 없다면 조직은 이기종 데이터 소스를 결합하거나 분석을 위한 데이터 준비, 데이터 세트 전반의 가시성 확보에 어려움을 겪게 됩니다.
그림 1: 데이터 웨어하우스 개요
데이터 웨어하우징의 도입효과
잘 설계된 데이터 웨어하우스는 성공적인 비즈니스 인텔리전스, 리포팅, 분석의 근간입니다. 데이터를 단일 소스로 통합하여 비즈니스 전반에서 더 빠르고 확신 있는 의사결정을 내릴 수 있도록 돕습니다. 주요 이점은 다음과 같습니다.
- 비즈니스 분석 역량 강화: 여러 시스템의 데이터를 일관된 단일 뷰로 통합하여, 리더가 트렌드를 쉽게 분석하고 스마트한 데이터 기반 의사결정을 내릴 수 있습니다.
- 신속한 쿼리 및 인사이트 도출: 데이터 웨어하우스는 트랜잭션이 아닌 분석에 최적화되어 있습니다. 따라서 대규모 데이터 세트에 대한 복잡한 쿼리를 빠르게 실행할 수 있어 보고 주기가 단축되고 IT 부서에 대한 의존도가 낮아집니다.
- 데이터 품질 및 일관성 향상: 데이터는 웨어하우스 적재 전 정제, 검증, 표준화 과정을 거칩니다. 이를 통해 고품질의 신뢰할 수 있는 정보를 바탕으로 분석을 수행할 수 있으며, 이는 곧 더 나은 의사결정을 내리는 밑거름이 됩니다.
- 심도 있는 과거 데이터 인사이트: 풍부한 이력 데이터를 보존하므로 장기적인 패턴 파악과 성과 평가가 용이하며, 전략적 계획 수립에 필요한 정확한 예측치를 생성할 수 있습니다.ㅣ
그림 2: 데이터 계보를 보여주는 데이터 웨어하우스 스크린샷
데이터 웨어하우스의 저장 데이터 유형
1980년대 후반 데이터 웨어하우스가 처음 등장했을 때는 고객 정보, 제품 목록, 거래 기록과 같은 정형 데이터를 저장하는 데 주력했습니다. 하지만 비즈니스 요구가 복잡해짐에 따라 문서, 이미지, 이메일, 소셜 미디어 게시물, IoT 장치의 센서 데이터와 같은 비정형 데이터를 활용하려는 수요가 늘어났습니다.
최신 데이터 웨어하우스는 정형 및 비정형 데이터를 모두 처리하며, 이를 통합하여 비즈니스에 대한 완전한 뷰와 강력한 인사이트를 제공합니다.
주요 개념 및 비교
데이터 웨어하우징 분야에서 꼭 알아야 할 핵심 개념을 소개합니다. 자세한 정의와 FAQ는 SAP 용어집에서 확인하실 수 있습니다.
데이터 웨어하우스 vs 데이터베이스
데이터베이스와 데이터 웨어하우스는 둘 다 데이터를 저장하지만 역할이 다릅니다. 데이터베이스는 특정 사업 영역의 실시간 정보를 관리하는 데 집중하는 반면, 데이터 웨어하우스는 조직 전체의 현재 및 과거 데이터를 결합하여 분석을 지원합니다. 데이터 웨어하우스는 데이터베이스 기술을 기반으로 하되, 장기적인 데이터 통합과 모델링, 체계적인 관리를 위한 전용 툴이 추가된 형태입니다.
데이터베이스는 일상적인 업무 데이터를 빠르게 기록하고 관리하는 데 최적화되어 있습니다. 반면, 데이터 웨어하우스는 누적된 데이터를 바탕으로 성과를 비교하고 미래 동향을 예측하는 분석 중심의 역할을 수행합니다.
데이터 웨어하우스 vs 데이터 레이크
데이터 웨어하우스와 데이터 레이크는 모두 대량의 데이터를 저장하지만 용도가 다릅니다. 데이터 웨어하우스는 보고 및 분석을 위해 구조화되고 준비된 데이터를 보관하는 반면, 데이터 레이크는 나중에 사용할 수 있는 처리되지 않은 원시 데이터를 저장합니다. 보통 원시 데이터는 데이터 레이크에 먼저 저장되었다가, 분석이 필요할 때 변환되어 데이터 웨어하우스로 이동하는 방식으로 상호 보완합니다.
가성비 높은 유연한 원천 데이터 저장이 필요할 때는 데이터 레이크를 구조화된 데이터의 신속하고 정확한 분석이 목적일 때는 데이터 웨어하우스를 활용합니다. 많은 기업이 이 둘을 병행하며, 레이크를 통해 모든 데이터를 수집하고 웨어하우스를 통해 이를 비즈니스 인사이트로 정제합니다.
그림 3: 데이터 웨어하우스와 데이터 레이크 비교
데이터 웨어하우스 vs 데이터 마트
데이터 마트는 데이터 웨어하우스의 하위 섹션으로, 영업, 마케팅, 재무 등 특정 부서나 업무에 맞춰 별도로 구성된 데이터 집합입니다. 예를 들어, 영업 데이터 마트는 잠재 고객, 파이프라인 현황, 최종 계약 체결 등에 집중하는 반면, 재무 데이터 마트는 예산 수립, 성과 예측, 수익성 지표를 핵심 관리 항목으로 삼습니다.
일부 데이터 마트는 오직 운영 목적으로만 생성되기도 합니다. 일부 데이터 마트는 오직 운영 목적으로만 생성되기도 합니다. 데이터 웨어하우스가 기업 전반의 중앙 데이터 스토리지 역할을 한다면, 데이터 마트는 일부 선택된 사용자 그룹에게 관련 데이터를 제공합니다. 이는 데이터 액세스를 간소화하고, 분석 속도를 높이며, 자체 데이터에 대한 통제력을 부여하게 됩니다. 개의 데이터 마트가 데이터 웨어하우스 내에 배포되기도 합니다.
그림 4: 데이터 마트 작동 원리를 보여주는 다이어그램
데이터 웨어하우스의 핵심 구성 요소
현대적인 데이터 웨어하우스는 중앙 데이터베이스, 데이터 통합 및 수집 툴, 메타데이터, 액세스 툴이라는 네 가지 핵심 요소로 구성됩니다. 이 요소들이 결합되어 대규모 환경에서도 빠르고 신뢰할 수 있는 분석을 지원합니다.
그림 5: 데이터 웨어하우스 구성 요소를 보여주는 다이어그램
- 중앙 데이터베이스: 웨어하우스의 핵심 저장 엔진입니다. 전통적으로는 관계형 데이터베이스가 사용되었으나, 최근에는 고성능 구현을 위해 인메모리 또는 클라우드 네이티브 시스템이 주로 사용됩니다.
- 데이터 통합 및 수집: ETL 및 ELT와 같은 일괄 처리 방식은 물론, 변경 데이터 캡처(CDC) 복제 및 스트리밍 파이프라인과 같은 실시간 방식을 통해 소스 시스템에서 데이터를 가져옵니다. 이 과정에서 데이터 변환, 품질 점검, 보완 작업도 수행됩니다.
- 메타데이터: 데이터의 출처, 구조, 의미, 사용법 등 비즈니스와 기술적 맥락을 포괄하여 데이터를 설명하는 정보입니다.
- 액세스 툴: 사용자가 데이터를 조회하고 분석하며 상호작용할 수 있게 해주는 툴입니다. 보고 툴, 대시보드, 분석 플랫폼, 애플리케이션 개발 툴 등이 포함됩니다.
데이터 웨어하우스 아키텍처
과거의 데이터 웨어하우스는 데이터 이동 경로에 따라 여러 계층으로 구성되었습니다. 전형적인 구조는 보통 3개 계층을 갖추고 있으나 현대적인 플랫폼은 더 빠른 데이터 이동과 분석을 위해 구조를 간소화하고 있습니다.
그림 6: 데이터 웨어하우스 아키텍처 다이어그램
- 데이터 계층: 소스 시스템에서 데이터를 가져온 뒤, ETL 같은 수집 방식을 통해 변환하여 웨어하우스로 로드합니다. 이 계층에는 데이터를 표준화하고 준비하는 메타데이터 및 통합 툴과 함께 핵심 데이터베이스, 데이터 마트, 데이터 레이크가 포함됩니다.
- 의미 계층: 데이터를 쉽게 조회하고 분석할 수 있도록 구성하고 모델링하는 계층입니다. 빠르고 일관된 분석을 지원하기 위해 엄선된 뷰와 비즈니스 정의를 제공합니다.
- 분석 계층: 최상위 계층으로 대시보드, 보고서, KPI 모니터링, 고급 분석, 실험 공간(샌드박스) 등 사용자가 데이터와 상호작용하고 새로운 모델을 구축하기 위한 툴을 제공합니다.
데이터 웨어하우스는 전통적으로 IT 팀이 구축하고 관리해 왔으나, 최신 플랫폼은 비즈니스 사용자가 데이터로 직접 작업할 수 있도록 그 권한을 점점 더 강화하고 있습니다. 이러한 변화를 이끄는 주요 기능은 다음과 같습니다.
- 일상적인 언어를 사용하고 관계를 명확히 하며, 사용자가 새로운 맥락으로 데이터를 확장할 수 있는 비즈니스 친화적인 의미 계층
- 데이터 모델, 로직 및 협업 기능을 통제된 단일 환경으로 통합한 가상 작업 공간
- 직원이 새로운 데이터 소스를 더 쉽게 연결하고 분석을 실행하며, IT 의존도를 크게 낮춰 인사이트를 구축할 수 있는 클라우드 기반 툴
데이터 웨어하우스는 어떻게 작동하나요?
데이터 웨어하우스는 비즈니스 전반의 정보를 정리하여 쉽게 탐색하고 신뢰하며 분석할 수 있도록 합니다. 이 프로세스는 보통 다음 네 가지 단계를 따릅니다.
- 추출: 애플리케이션, 데이터베이스, 클라우드 서비스와 같은 소스 시스템에서 데이터를 가져옵니다. 이 단계에서는 데이터를 있는 그대로 수집합니다.
- 혁신: 데이터를 정리하고 표준화하여 일관성 있게 사용할 수 있는 상태로 만듭니다. 여기에는 오류 제거, 서식 조정, 비즈니스 규칙 적용 등이 포함됩니다.
- 로드: 준비된 데이터를 빠른 리포팅과 분석에 최적화된 구조로 웨어하우스에 저장합니다.
- 분석: 데이터 로드가 완료되면 팀은 대시보드, 보고서, 고급 분석을 통해 데이터를 탐색하고 정보에 입각한 의사결정을 내릴 수 있습니다.
ETL vs. ELT: 차이점은 무엇인가요?
ETL(Extract → Transform → Load): 웨어하우스에 들어가기 전에 데이터를 변환합니다. 처리 능력이 제한적이었던 기존 데이터 웨어하우스 방식에서 주로 사용됩니다.
ELT(Extract → Load → Transform): 원시 데이터를 먼저 웨어하우스에 로드한 후, 웨어하우스 내부에서 변환합니다. 최신 클라우드 플랫폼은 대규모 변환을 효율적으로 처리할 수 있어 이 방법을 선호합니다.
데이터 웨어하우스의 4가지 주요 특징
데이터 웨어하우스는 비즈니스 전반에 신뢰할 수 있고 일관된 분석 정보를 제공하기 위해 몇 가지 핵심 원칙을 기반으로 구축됩니다. 주요 4가지 특징은 다음과 같습니다.
- 주제 중심: 분석을 지원하기 위해 고객이나 영업과 같은 핵심 비즈니스 주제를 중심으로 조직화됩니다.
- 통합: ERP, CRM 등 서로 다른 시스템의 데이터를 정리하고 표준화하여 일관성 있게 통합합니다.
- 시계 변형: 추세와 성과의 분석이 가능하도록 장기간에 걸친 이력 데이터를 저장합니다.
- 비휘발성: 데이터가 한 번 로드되면 안정적으로 유지됩니다. 즉, 임의로 업데이트하거나 삭제할 수 없어 신뢰할 수 있는 데이터 근거가 됩니다.
클라우드 데이터 웨어하우스의 이점
클라우드 데이터 웨어하우스는 기존 온프레미스 시스템에 비해 뛰어난 장점을 제공하기 때문에 점점 더 인기를 얻고 있습니다. 주요 이점 7가지는 다음과 같습니다.
- 빠른 배포: 저장 공간, 연산 자원, 데이터 마트나 실험 공간 같은 새로운 환경을 장소에 상관없이 몇 분 만에 가동할 수 있습니다.
- TCO 절감: 실제 사용한 리소스에 대해서만 비용을 지불합니다. 저장 공간과 연산 자원을 분리하여 하드웨어, 시설, 유지보수 비용을 없애고 지출을 줄입니다.
- 탄력성: 변화하는 업무량과 대용량 데이터에 맞춰 별도의 수작업 없이 즉시 자원을 확장하거나 축소할 수 있습니다.
- 보안 및 재해 복구: 강력한 보안 제어, 암호화, 자동 백업 기능을 통해 데이터 손실로부터 안전하게 보호합니다.
- 실시간 성능: 인메모리 및 클라우드 네이티브 엔진을 통해 실시간 인사이트 도출을 위한 빠른 처리 속도를 제공합니다.
- 신기술 활용: 머신러닝, 자동화된 인사이트, 고급 분석 기능을 손쉽게 통합할 수 있습니다.
- 비즈니스 사용자 권한 강화: IT 부서의 과도한 개입 없이도 팀이 통합된 데이터를 확인하고 정보를 분석하며 새로운 소스를 직접 연결할 수 있는 직관적인 툴을 제공합니다.
그림 7: 데이터 웨어하우징은 경비에 대한 포괄적인 분석 지원
데이터 웨어하우스 도입 선진사례
새로운 데이터 웨어하우스를 구축하거나 기존 시스템을 확장할 때, 검증된 사례를 따르면 시간과 비용을 절감하면서 목표를 달성할 수 있습니다. 일부 사례는 비즈니스 요구사항에 초점을 맞추고 다른 사례는 광범위한 IT 가이드를 따릅니다. 아래 목록은 기술 및 서비스 파트너와 협력하며 구체화해 나갈 수 있는 좋은 출발점이 될 것입니다.
비즈니스 선진사례
- 필요한 정보를 정의합니다. 답을 얻고자 하는 질문과 지원할 의사결정을 파악하는 것부터 시작하세요. 이를 통해 필요한 데이터 원천을 결정합니다. 산업 협회, 고객, 공급업체도 유용한 데이터에 대한 지침을 제공할 수 있습니다.
- 현재 데이터의 상태를 기록합니다. 데이터의 위치, 구성 방식, 품질을 기록하여 데이터 간의 격차나 필요한 변환 작업, 웨어하우스의 기반이 될 비즈니스 규칙을 파악하세요.
- 적합한 팀을 구성합니다. 프로젝트를 후원할 임원, 비즈니스 관리자 및 분석 결과를 활용할 실제 사용자를 포함하세요. 성공에 필요한 표준 보고서, KPI, 지표가 무엇인지 이해해야 합니다.
- 첫 번째 프로젝트의 우선순위를 지정합니다. 비즈니스 가치가 명확하고 범위 관리가 가능한 한두 개의 시범 프로젝트로 시작하세요. 초기 성공 사례는 프로젝트 추진력을 얻는 데 도움이 됩니다.
- 강력한 기술 파트너를 선택합니다. 검증된 경험과 구현 지원 역량, 그리고 귀사의 배포 요구사항에 부합하는 플랫폼을 갖춘 공급업체를 선택하세요.
- 현실적인 프로젝트 계획을 수립합니다. 팀과 협력하여 명확한 로드맵과 일정을 구축하세요. 정기적인 소통과 상태 업데이트를 통해 모든 구성원의 방향을 일치시켜야 합니다.
IT 선진사례
- 성능, 액세스, 보안을 모니터링합니다. 웨어하우스는 빠르면서도 안전해야 합니다. 시스템 사용 현황, 보안 이벤트, 액세스 패턴을 추적하여 데이터를 안전하게 보호하는 동시에 권한이 있는 사용자가 쉽게 접근할 수 있도록 관리하세요.
- 데이터 품질, 메타데이터, 구조, 거버넌스를 유지 관리합니다. 웨어하우스에 입력되는 새로운 데이터는 일관된 규칙을 따라야 합니다. 사용자가 결과를 신뢰할 수 있도록 데이터 정제, 변환, 메타데이터 정의 및 데이터 거버넌스를 표준화하세요.
- 유연한 아키텍처를 제공합니다. 비즈니스가 성장함에 따라 새로운 데이터 마트, 모델, 업무량이 추가됩니다. 확장 가능한 모듈식 아키텍처는 경직되거나 강하게 결합된 시스템보다 이러한 요구사항을 더 잘 지원합니다.
- 유지보수와 운영을 자동화합니다. 자동화 및 머신러닝을 사용하여 인덱싱, 모니터링, 최적화, 업데이트 작업을 간소화하세요. 이를 통해 성능이 향상되고 운영 비용이 절감됩니다.
- 클라우드를 전략적으로 활용합니다. 팀마다 요구사항이 다릅니다. 필요에 따라 특정 업무는 온프레미스에 유지하면서 확장성과 비용 절감, 기기 간 간편한 접근이 필요한 분야에는 클라우드 데이터 웨어하우스를 활용하세요.
요약
최신 데이터 웨어하우스(특히 클라우드 기반)는 내부 및 외부 소스의 데이터를 통합하여 비즈니스 전반에 대한 완전하고 시기적절한 시각을 제공하여 디지털 혁신의 핵심 역할을 수행합니다. 이는 조직 전반의 대시보드, KPI, 경고, 보고서를 지원하며 기존 운영 시스템에 영향을 주지 않고 빠르고 복잡한 분석을 가능하게 합니다.
작게 시작하여 쉽게 확장할 수 있다는 장점 덕분에, 전사 팀과 각 사업부 모두가 더 나은 의사결정을 내리고 성과를 개선하도록 돕습니다.
FAQ
- 엔터프라이즈 데이터 웨어하우스: EDW는 모든 현재 및 과거 데이터를 한 곳에 저장하는 중앙 전사적 데이터 웨어하우스입니다. 이는 조직 전체에서 분석, 보고 및 KPI를 위한 일관된 단일 진실 공급원을 제공합니다. 대부분의 최신 EDW는 확장성과 더 쉬운 액세스를 위해 클라우드 기반으로 구축됩니다.
- 운영 데이터 저장소: ODS는 운영 보고 및 일상적인 활동에 사용되는 준실시간 데이터 저장소입니다. 트랜잭션 시스템과 EDW 사이에 위치하며 여러 소스의 데이터를 더 최신의 형태로 결합하지만 완전한 이력 형태는 아닙니다. 이는 빠른 운영 의사결정을 위해 데이터를 자주 갱신해야 할 때 유용합니다.
- 데이터 마트: 데이터 마트는 재무, 영업 또는 마케팅과 같은 특정 팀이나 비즈니스 부서를 위해 설계된 데이터 웨어하우스의 주제별 작은 조각입니다. 이는 전체 웨어하우스를 노출하지 않고 해당 그룹에 가장 중요한 데이터에 빠르게 액세스할 수 있도록 지원합니다.
- 중앙 데이터베이스: 구조화, 정제, 통합된 데이터가 보관되는 기본 저장소 계층입니다. 이는 일반적으로 분석에 최적화된 관계형, 열 또는 클라우드 네이티브 데이터베이스입니다.
- 데이터 통합/수집 툴: ETL(추출, 변환, 로드), ELT(추출, 로드, 변환), 배치 로드, 실시간 복제와 같이 소스 시스템의 데이터를 웨어하우스로 가져와 사용할 준비를 하는 도구와 프로세스입니다.
- 메타데이터: 데이터의 출처, 구성 방식, 의미 및 사용 방법 등 데이터를 설명하는 정보입니다. 메타데이터는 사용자가 데이터를 이해하고 신뢰할 수 있도록 돕습니다.
- 액세스 툴: 보고 툴, 대시보드, 분석 플랫폼, SQL 쿼리 툴 등 사용자가 데이터를 쿼리, 시각화, 탐색, 분석할 수 있도록 하는 애플리케이션과 인터페이스입니다.