flex-height
text-black
데이터 관리 용어집
SAP 데이터 관리 용어집에서 다양한 데이터 관련 용어와 정의를 살펴보세요.
데이터베이스란?
데이터베이스는 데이터에 대한 액세스 권한을 구성, 저장, 관리, 보호, 제어하는 툴입니다. 데이터베이스는 각기 다른 수많은 스키마에 따라 설계되며 이 가운데 상당수의 스키마는 프로그램 및 데이터 쿼리의 액세스 편의성을 위한 관계형 모델을 고수합니다. 가장 많이 사용되는 데이터베이스 유형에는 관계형 데이터베이스 관리 시스템(RDBMS), 인메모리 데이터베이스, 객체 지향 데이터베이스(OODBMS), NoSQL 데이터베이스, NewSQL 데이터베이스가 있으며, 각기 고유한 장점이 있습니다.
데이터 관리란?
데이터 관리는 데이터를 수집, 제어, 보호, 조작, 제공하는 데 필요한 모든 기능을 가리킵니다. 데이터 관리 시스템은 데이터베이스, 데이터 웨어하우스, 데이터 마트, 데이터 수집, 저장, 검색 등을 위한 툴, 검증과 품질, 다른 애플리케이션 및 분석 툴과의 통합을 지원하는 유틸리티를 포함합니다. 기업은 특정 책임 영역에 속하거나 이 영역에서 비롯된 데이터에 대한 책임을 규정하는 데이터 전략이 필요합니다.
데이터베이스 관리란?
데이터베이스 관리는 데이터를 저장, 처리, 조작, 보호하는 데 필요한 프로세스와 절차를 가리킵니다. 많은 조직에서 이러한 절차를 수립하고 감독하는 책임은 데이터베이스 관리자(DBA)나 이와 유사한 직위가 맡아 수행합니다. 대부분의 조직은 데이터베이스 관리를 위한 기본 툴인 상용 데이터베이스 관리 시스템(DBMS)에 의존합니다.
데이터베이스 관리 시스템(DBMS)이란?
데이터베이스 관리 시스템(DBMS)은 데이터베이스 관리를 위한 스토리지 구조 및 데이터 관리 툴을 제공하는 소프트웨어 툴킷입니다. DBMS는 별도로 구입해야 하는 라이센스를 획득한 전사적 자원 관리(ERP) 시스템의 핵심 부분이자 마찬가지로 별도로 라이센스를 획득해야 하는 소프트웨어 제품인 시스템 소프트웨어(운영 시스템)의 일부이기도 합니다. 소스와 상관없이 애플리케이션과 DBMS는 효율적인 기능성을 위해 상호의존적인 관계에 있기 때문에 애플리케이션은 DBMS를 중심으로 구축되거나 DBMS와 완전히 통합되어야 합니다. 즉 DBMS는 데이터베이스 관리를 위한 툴킷입니다.
SQL 데이터베이스란?
SQL 데이터베이스는 데이터를 테이블과 행에 저장하는 관계형 데이터베이스입니다. 데이터 항목(행)은 공통 데이터 항목을 기준으로 연결되어 효율성을 높이고 중복을 방지하며 쉽고 유연한 검색을 가능하게 합니다. SQL이라는 이름은 'Structured Query Language(구조화된 쿼리 언어)'의 약자로, 사용자가 데이터 저장, 조작, 검색을 위해 호환 가능한 모든 데이터 베이스에 적용하고 학습할 수 있는 툴킷이자 자연어 쿼리 프로토콜을 의미합니다.
NoSQL 데이터베이스란?
NoSQL 데이터베이스는 SQL이 구조 부족으로 지원할 수 없는 비정형 데이터를 처리하기 위해 개발되었습니다. NoSQL은 역동적 스키마와 다양한 전처리 기법과 같은 독창적 기술을 사용해 이러한 한계를 극복합니다. 가장 흔히 볼 수 있는 비정형 데이터를 위한 데이터베이스는 키-값, 문서, 열, 그래프 데이터베이스이며, 동영상, 그래픽, 자유 텍스트, 원시 센서 출력 등이 포함되기도 합니다.
관계형 데이터베이스 관리 시스템(RDBMS)이란?
관계형 데이터베이스 관리 시스템은 관계형 데이터 모델을 기반으로 하는 데이터베이스 관리 시스템(DBMS)입니다. RDBMS의 콘텐츠는 행과 열로 구성된 테이블에 저장됩니다. 각 테이블은 다른 데이터베이스와 관련이 있을 수 있는 데이터베이스의 특정 개체 또는 엔터티를 나타냅니다. RDBMS는 일반적으로 여러 개의 테이블을 포함하며 데이터의 정확성, 일관성, 무결성, 보안을 유지하는 추가 기능뿐 아니라 복잡한 쿼리를 통해 서로 관계를 맺고 있는 데이터에 액세스할 수 있는 SQL 인터페이스도 포함합니다.
CDBMS란?
CDBMS는 위에서 언급한 RDBMS용 클라우드 배포 모델을 주로 지칭하기 위해 가트너(Gartner)가 만든 용어입니다.
정형 데이터란?
정형 데이터는 행과 열로 일정하게 형식이 지정되어 사전 정의된 필드로 매핑됩니다. 주로 엑셀 스프레드시트나 관계형 데이터베이스에 저장되며 재무 거래, 인구 통계 정보, 기계 로그 등을 예로 들 수 있습니다. 최근까지 정형 데이터는 기업이 사용할 수 있는 유일한 데이터 유형이었습니다.
비정형 데이터란?
비정형 데이터는 행과 열로 구성되어 있지 않기 때문에 저장, 분석, 검색이 더 어렵습니다. 비정형 데이터에는 원시 사물인터넷(IoT) 데이터, 동영상 및 오디오 파일, 소셜 미디어 댓글, 콜 센터 기록 등이 있습니다. 비정형 데이터는 주로 데이터 레이크, NoSQL 데이터베이스, 최신 데이터 웨어하우스에 저장됩니다.
반정형(semi-structured) 데이터란?
반정형 데이터는 시맨틱 태그나 메타데이터처럼 일부 구조적인 특성을 지니기도 하지만 스프레드시트나 관계형 데이터베이스의 행, 열 같은 구조를 따르지는 않습니다. 반정형 데이터의 예로는 발신인과 수신인 주소와 같은 정형 데이터와 메시지와 같은 비정형 데이터를 동시에 포함하고 있는 전자메일이 있습니다.
데이터 매핑이란?
데이터 매핑은 각기 다른 데이터 구조와 데이터베이스 간의 필드를 매칭하는 프로세스입니다. 데이터베이스를 결합하거나 데이터를 한 시스템이나 데이터베이스에서 다른 시스템이나 데이터베이스로 마이그레이션하는 경우, 단일 애플리케이션이나 분석 툴 내에서 다양한 데이터 소스를 사용하는 경우 필요한 단계이며 데이터 웨어하우징에서는 자주 볼 수 있는 단계입니다. 데이터 매핑은 고유하면서도 서로 충돌하는 중복된 정보를 식별해 모든 데이터를 조정된 스키마나 형식으로 가져오기 위한 규칙 세트를 개발할 수 있도록 합니다.
데이터 모델링이란?
설계자는 신규 또는 대체 데이터베이스 구조를 생성할 때 데이터가 어떻게 데이터베이스로 유입되고 데이터베이스에서 빠져나오는지에 관한 다이어그램으로 시작합니다. 데이터 흐름 다이어그램 작성 과정을 데이터 모델링이라고 부릅니다. 소프트웨어 엔지니어는 이 흐름 다이어그램을 참고해 데이터 흐름 요구사항을 효율적으로 지원할 데이터 형식과 구조, 데이터베이스 처리 기능의 특성을 정의할 수 있습니다.
데이터 웨어하우징이란?
데이터 웨어하우스는 내부 및 외부의 다양한 소스에서 발생하는 데이터에 대해 포괄적인 단일 저장소를 제공합니다. 데이터 웨어하우스의 목적은 비즈니스 인텔리전스(BI), 리포팅, 분석을 위해 데이터를 공급하는 데 있습니다. 최신 데이터 웨어하우스는 정형, 비정형을 망라한 모든 데이터 유형을 저장, 관리할 수 있으며 확장성과 사용 편이성을 높이기 위해 일반적으로 클라우드에 배포됩니다.
데이터 레이크란?
데이터 레이크는 데이터가 미가공 또는 원래 형식으로 저장되는 방대한 데이터 풀입니다. 데이터 레이크는 일반적으로 정형, 비정형, 반정형 데이터를 포함한 빅데이터를 저장하는 데 사용됩니다.
빅데이터란?
빅데이터는 정형, 비정형, 반정형 데이터로 구성된 대규모 데이터세트를 가리키는 용어입니다. 빅데이터는 일반적으로 5가지 'V'가 특징입니다. 즉 수집한 데이터의 양(Volume), 데이터 유형의 다양성(Variety), 데이터가 생성되는 속도(Velocity), 데이터의 진실성(Veracity), 데이터의 가치(Value) 입니다. 빅데이터 관리 시스템 및 분석을 통해 기업은 의사결정 및 실행 과정을 가이드할 심도 있는 인사이트를 확보하기 위해 빅데이터를 마이닝할 수 있습니다.
스몰 데이터란?
엄청나게 방대하고 복잡한 빅데이터와 달리 스몰 데이터는 사람들이 이해하기 쉽습니다. 스몰 데이터 세트에는 마케팅 설문조사에서 일상적인 스프레드시트에 이르는 모든 항목이 포함될 수 있으며, 단일 소셜 미디어 게시물이나 전자메일처럼 "분량이 매우 적을" 수도 있습니다. 훨씬 더 심층적인 인사이트를 확보하기 위해 갈수록 더 많은 기업이 빅데이터 외에도 스몰 데이터를 사용해 AI와 머신러닝 알고리즘을 교육하고 있습니다.
두꺼운 데이터란?
두꺼운 데이터(Thick Data)는 소비자의 일상적인 정서적 삶에 대한 인사이트를 제공하는 정성적 정보입니다. 이 데이터에는 관찰, 감정, 반응과 같이 일반적으로 정량화하기 어려운 항목이 포함됩니다. 빅데이터와 결합하면 소비자의 선호도와 요구사항에 대한 매우 포괄적인 그림을 얻을 수 있습니다.
데이터 통합이란?
데이터 통합은 데이터가 필요한 위치와 시기에 데이터를 수집, 변환, 결합, 프로비저닝하는 활동입니다. 이러한 통합은 기업 내부뿐 아니라 파트너와 타사 데이터 소스 및 적용 사례에도 일어나며 모든 애플리케이션과 비즈니스 프로세스의 데이터 사용 요건을 충족합니다. 통합 기술에는 벌크/배치 데이터 이동, 추출 변환 로드(ETL), 변경 데이터 캡처, 데이터 복제, 데이터 가상화, 스트리밍 데이터 통합, 데이터 조율 등이 있습니다.
데이터 가상화란?
데이터 가상화는 가상 데이터 계층의 분산된 시스템 및 형식 전반에서 기업에 모든 엔터프라이즈 데이터에 대한 통합된 뷰를 제공합니다. 데이터 가상화는 데이터를 복제하는 대신 데이터를 소스 시스템에 남겨두고 실시간으로 해당 데이터를 사용자와 애플리케이션에 가상으로 표시하면 됩니다. 데이터 가상화는 데이터 통합에 대한 최신 접근 방식으로, 사용자가 물리적 위치, 형식, 프로토콜과 관계없이 데이터를 발견하고 조작할 수 있도록 합니다.
데이터 패브릭이란?
데이터 패브릭은 아키텍처와 기술의 사용자 정의된 조합을 의미합니다. 데이터 패브릭은 여러 데이터 위치, 소스, 유형을 연결하기 위해 역동적 데이터 통합 및 오케스트레이션을 사용합니다. 데이터 패브릭 플랫폼 내에서 정의된 올바른 구조와 흐름을 활용해 기업은 위치와 생성 방식에 관계없이 데이터에 빠르게 액세스하고 공유할 수 있습니다.
데이터 메시란?
데이터 메시는 분산된 아키텍처 프레임워크를 사용하는 데이터 관리에 대한 접근 방식입니다. 바꿔 말하자면 비즈니스 전반에 걸쳐 특정 데이터 세트에 대한 소유권과 책임을 해당 데이터의 의미와 최상의 활용 방법을 이해하기 위해 전문지식을 보유한 사용자에게 분배합니다.
데이터 파이프라인이란?
데이터 파이프라인은 모든 유형의 데이터를 소스에서 검색, 정리, 변환, 분석하는 자동화되고 반복적인 프로세스 세트를 의미합니다. 데이터는 생성된 위치 근처에서 분석되므로 비즈니스 사용자가 빠르게 필요한 정보를 분석하고 낮은 비용으로 조직에 공유할 수 있습니다. 또한 데이터 파이프라인은 머신러닝 같은 기술을 통해 속도와 효율성이 더욱 향상될 수 있습니다.
데이터 사일로란?
데이터 사일로는 기업 내에서 개별 부서 또는 기능 영역이 다른 부서와 데이터나 정보를 공유하지 않는 상황을 언급할 때 사용되는 속어입니다. 이러한 데이터 격리(단절)는 기업 목표를 향해 나아가기 위해 상호 조율된 노력을 방해하고 결국 성과 저하(및 고객 서비스 품질 저하), 높은 비용, 시장 수요 및 변동에 대한 대응력 부족으로 이어지게 됩니다. 반복적이고 중복된 데이터는 조정하기 어렵기 때문에 여러 활동을 조율하고 효율적으로 비즈니스를 관리하고자 하는 노력을 더욱 방해하게 됩니다.
데이터 랭글링이란?
데이터 랭글링은 원시 데이터를 이미 구축되어 있는 데이터베이스와 애플리케이션과 호환될 수 있는 형식으로 변환하는 프로세스를 말합니다. 이러한 프로세스에는 원시 데이터를 유용하게 만드는 데이터 구조화, 정리, 보강, 검증이 포함될 수 있습니다.
데이터 보안이란?
데이터 보안은 데이터를 안전하게 보호하는 행위를 말합니다. 즉, 무단 액세스나 노출, 재해, 시스템 오류로부터 데이터를 안전하게 보호하며 동시에 합법적인 사용자 및 애플리케이션이 쉽게 액세스할 수 있도록 하는 행위를 뜻합니다. 데이터 보안 방법 및 툴에는 데이터 암호화, 키 관리, 중복 및 백업 관행, 액세스 제어가 있습니다. 데이터 보안은 모든 규모와 유형의 조직에 필요한 절차로, 계속해서 증가하는 데이터 침해와 프라이버시 리스크의 위협으로부터 고객과 조직의 데이터를 지킵니다. 데이터 중복과 백업은 비즈니스 연속성 및 재해 복구에 중요합니다.
데이터 프라이버시란?
데이터 프라이버시란 무단 액세스 또는 공개로부터 데이터를 보호하는 방식으로 데이터를 처리하기 위한 정책과 관행을 의미합니다. 데이터 프라이버시 정책 및 관행에는 조직의 데이터 전략에 따른 정보 수집 및 저장 방식, 제3자와의 공유 또는 비공유 방식, 규제 제한 준수 방법이 포함됩니다. 데이터 개인정보보호는 저장된 정보의 무결성과 안전을 보호하면서 고객의 기대를 충족하는 비즈니스 과제입니다.
데이터 품질이란?
데이터 품질은 데이터의 적합성과 신뢰성을 설명하는 비교적 모호한 용어입니다. 우수한 데이터 품질이란 데이터가 정확하고(설명하고자 하는 바를 정확하게 나타냄) 신뢰할 수 있으며(일관되고, 감사가 가능하며, 적절하게 관리되며, 보호됨) 사용자와 애플리케이션이 요구하는 수준에서 완벽함을 의미합니다. 데이터 품질은 산업 강도를 갖춘 툴 및 시스템과 데이터 관리 정책 및 절차의 명확한 준수와 함께 적절하게 고안되고 실행되는 데이터 전략을 통해서만 확보할 수 있습니다.
데이터 검증이란?
데이터 검증은 데이터를 내보내거나 사용하기 전 그 품질과 정확성, 유효성을 확인하는 프로세스를 말합니다. 검증은 데이터의 진위 여부를 증명하고 중복 제거, 명백한 오류 또는 누락된 항목의 시정, 가능한 형식 변경을 포함한 데이터 항목의 "정리"(데이터 정리)를 위한 일련의 활동 및 프로세스로 구성될 수 있습니다. 데이터 검증은 중요한 결정을 내리는 데 필요한 정보의 정확성과 신뢰성을 보장합니다.
데이터 정리란?
데이터 정리는 데이터세트, 테이블, 데이터베이스에서 오류를 제거하거나 시정하는 프로세스를 말합니다. 이러한 오류에는 손상되거나 부정확하거나 관련이 없거나 불완전한 정보가 해당될 수 있습니다. 데이터 스크러빙이라고도 불리는 이 프로세스는 중복되는 데이터와 오타나 합산되지 않은 숫자 세트와 같은 그 외 불일치를 찾아냅니다. 데이터 정리는 부정확한 정보를 제거하거나 비어 있는 필드나 누락된 코드와 같이 명백한 실수를 수정합니다.
데이터 무결성이란?
데이터 무결성은 장기간에 걸친 데이터의 진실성을 말합니다. 입력 또는 가져오기, 랭글링, 검증, 정리, 저장된 데이터의 데이터 무결성은 데이터 품질이 유지되고 있다는 진술이므로 사용자가 이러한 데이터가 변경되지 않았으며 향후에도 변경되지 않을 것임을 확신할 수 있습니다. 검색된 데이터는 원래 저장되었던 데이터와 동일합니다. 때로 데이터 품질과 동의어로 사용되기도 하는 데이터 무결성은 신뢰성과 의존성을 보다 강조합니다.
데이터 거버넌스란?
데이터 거버넌스는 조직 전반에서 데이터 관리가 적절히 이루어지게 하는 일련의 정책과 관행을 말합니다. 데이터 거버넌스는 IT 인프라를 구축하고 특정 유형의 데이터를 처리 및 보호할 권한과 책임을 지닌 개인(또는 직위)을 임명합니다. 효과적인 데이터 거버넌스는 데이터의 가용성, 신뢰성, 안전성, 규제 준수를 보장하며 데이터 오용을 막습니다.
데이터 책임이란?
데이터 관리는 데이터 정확성, 신뢰성, 무결성, 안전성을 구축하기 위한 데이터 거버넌스 정책 및 절차를 구현합니다. 데이터 관리를 책임지는 사람은 데이터를 처리, 저장, 보호하는 데 사용되는 절차와 툴을 관리하고 감독합니다.
데이터 아키텍처란?
데이터 아키텍처는 조직의 데이터와 사용 및 관리 방식을 정의하는 구조, 정책, 규칙에 대한 전반적인 설계를 말합니다. 데이터 아키텍처에는 데이터 전략이 어떻게 비즈니스 요구사항과 목표를 지원하는 방식으로 시행될 것인지에 대한 상세한 정보가 포함되어 있으며 데이터베이스, 절차, 보안, 데이터 거버넌스 개발을 위한 토대가 됩니다.
마스터 데이터 관리란?
마스터 데이터 관리(MDM)는 중요한 모든 비즈니스 데이터에 대해 단일 "마스터" 참조 소스를 생성하는 관행을 말합니다. 여기에는 마스터 데이터 처리를 정의, 관리, 제어(또는 통제)하는 정책과 절차가 포함됩니다. 중앙 집중식 마스터 데이터 관리는 중복 정보와 오래되거나 손상되거나 한 곳에서는 업데이트되었지만 다른 곳에서는 업데이트되지 않아 교체된 조율되지 않은 데이터를 보유한 분산 데이터베이스로 인한 충돌과 혼란을 없앱니다. 기업 전체를 지원하는 단일 버전의 확보는 조직의 모든 부분이 동일한 정의, 표준, 가정에 따라 작업한다는 뜻입니다.
데이터 분석이란?
분석이라는 용어는 데이터의 체계적인 분석을 의미합니다. 분석 애플리케이션과 툴킷은 패턴과 동향, 관계, 사용자가 비즈니스와 운영, 시장에 관해 질문하여 유용한 인사이트를 확보할 수 있는 그 외 인텔리전스를 발견하기 위해 대규모 데이터세트를 조작할 수 있는 수학적 알고리즘과 컴퓨팅 엔진을 포함합니다. 많은 최신 분석 툴킷은 기술적이지 않은 비즈니스 사용자들이 사용할 수 있도록 설계되었으며, 데이터 과학자나 IT 전문가의 지원을 최소화하면서 이러한 분석을 수행할 수 있도록 합니다.
증강 분석이란?
증강 분석은 머신러닝, 자연어 처리(NLP)와 같은 인공지능 기술로 "증강된" 분석을 말합니다. 증강 분석을 통해 사용자는 더 깊이 있는 인사이트를 더 빨리 발견할 수 있을 뿐 아니라 프로세스의 복잡한 여러 단계를 자동화할 수 있습니다. 또한 기술 지식이 없는 사용자라도 자연스러운 대화형 방식으로 데이터를 쿼리할 수 있습니다.
데이터 마이닝이란?
데이터 마이닝은 대규모 데이터세트에서 유용한 정보를 추출하는 행위를 말합니다. 데이터 마이닝은 패턴, 동향, 이상, 관계, 종속성, 기타 유용한 인텔리전스를 발견하기 위해 분석 툴을 사용하는 비즈니스 사용자가 수행하는 경우가 많습니다. 데이터 마이닝은 사기 및 사이버 보안 문제를 감지하는 것에서부터 예측을 개선하고 성과 개선 기회를 찾는 것까지 다양한 애플리케이션을 제공합니다.
데이터 프로파일링이란?
데이터 프로파일링은 통계 자료와 정확성, 완전성, 유효성과 같은 데이터세트의 특성을 수집하는 방식을 말합니다. 데이터 프로파일링은 데이터 검증과 데이터 정리에 사용되는 기술 가운데 하나로, 중복성, 누락된 값, 불일치와 같은 데이터 품질 문제를 감지하는 데 도움을 줄 수 있습니다.