건너뛰고 콘텐츠로 이동
빅데이터란?

빅데이터란?

빅데이터는 우리가 매일 사용하는 컴퓨터와 모바일 기기, 기계 센서에서 흘러나오는 방대한 제타바이트급 데이터로 구성된 정보의 바다를 가리킵니다. 빅데이터는 조직이 의사결정을 내리고 프로세스와 정책을 향상하며 고객 중심의 제품과 서비스, 경험을 구축하는 데 사용됩니다. 빅데이터는 단지 양이 많다는 점 뿐만 아니라 특성의 다양성과 복잡성으로 인해 "빅"으로 정의됩니다. 일반적으로 빅데이터는 데이터를 수집, 관리, 처리하는 기존 데이터베이스의 용량을 초과합니다. 또한 빅데이터는 디지털로 모니터링할 수 있는 전 세계의 모든 사물과 장소에서 생성될 수 있습니다. 기상 위성, 사물인터넷(IoT) 기기, 교통 카메라, 소셜 미디어 트렌드는 기업의 회복탄력성과 경쟁력 강화를 위해 마이닝하고 분석하는 데이터 소스 중 일부에 지나지 않습니다.

빅데이터의 진화

지금은 상상을 할 수 없지만 아폴로 가이던스 컴퓨터는 80킬로바이트 이하의 메모리를 활용해 최초의 우주선을 달로 무사히 보낼 수 있었습니다. 그 후로 컴퓨터 기술은 비약적으로 성장했으며 생성되는 데이터도 급증했습니다. 사실 전 세계의 기술적인 데이터 저장 능력은 1980년대 이후 3년마다 두 배로 증가해 왔습니다. 50여 년 전 아폴로 11호 발사 당시만 해도 전 세계에서 생성되는 디지털 데이터의 양은 일반적인 노트북에 담을 수 있을 정도였습니다. 최근 IDC의 추산에 따르면 현재 데이터 생성량은 44제타바이트(44조 기가바이트)이며 2025년에는 163제타바이트로 증가할 전망입니다. 

59

제타바이트

현재 디지털 데이터 생성량 – IDC

2

지난 5년과 비교해 향후 5년간 생성될 데이터량 – IDC

소프트웨어와 기술이 계속 발전하면서 상대적으로 비디지털 시스템의 생존 가능성은 줄어들고 있습니다. 디지털로 생성, 수집되는 데이터를 처리하려면 보다 진보된 데이터 관리 시스템이 필요합니다. 또한 소셜 미디어 플랫폼, 스마트폰 기술, 디지털로 연결된 사물인터넷(IoT) 기기의 급증으로 최근 빅데이터 시대가 도래했습니다.

빅데이터 유형: 정형, 비정형 데이터란?

데이터 세트는 일반적으로 구조와 색인 편리성 여부에 따라 세 가지 유형으로 분류됩니다.

빅데이터의 3가지 유형

빅데이터의 유형
  1. 정형 데이터: 이 유형의 데이터는 조직화와 검색이 가장 간편합니다. 이러한 데이터에는 재무 데이터, 시스템 로그, 인구통계 상세정보 등이 포함됩니다. 행과 열의 레이아웃이 사전 정의된 엑셀 스프레드시트는 정형 데이터의 대표적인 예입니다. 이들 데이터의 구성요소는 범주화가 용이해 데이터베이스 설계자와 관리자가 검색 및 분석 알고리즘을 간단히 정의할 수 있습니다. 정형 데이터는 규모가 매우 크더라도 빅데이터라고 할 수는 없습니다. 정형 데이터는 그 자체로는 관리가 간단하기 때문에 빅데이터 정의 요건을 충족하지 못합니다. 전통적으로 데이터베이스는 SQL(Structured Query Language)이라는 프로그래밍 언어를 사용해 정형 데이터를 관리합니다. SQL은 1970년대 IBM이 개발해 개발자들이 그 당시 막 시작된 관계형(스프레드시트 스타일) 데이터베이스를 개발, 관리할 수 있었습니다.  
  2. 비정형 데이터: 이 범주에 속하는 데이터에는 소셜 미디어 게시글, 오디오 파일, 이미지, 주관식 고객 의견 등이 포함될 수 있습니다. 이러한 유형의 데이터는 표준적인 행-열 관계형 데이터베이스로 포착하기가 쉽지 않습니다. 전통적으로 대량의 비정형 데이터를 검색, 관리, 분석하는 기업은 공수가 많이 드는 수작업 프로세스를 사용해야 했습니다. 이러한 데이터를 분석하고 이해하여 얻을 수 있는 잠재적 가치는 의심의 여지가 없지만 너무 큰 비용이 들어 그만한 가치가 없었습니다. 시간도 많이 소요되어 결과를 얻기도 전에 무용지물이 되는 경우도 많았습니다. 비정형 데이터는 스프레드시트나 관계형 데이터베이스 대신 데이터 레이크, 데이터 웨어하우스, NoSQL 데이터베이스에 저장됩니다.
  3. 반정형 데이터: 이름에서 알 수 있듯이 반정형 데이터는 정형, 비정형 데이터의 하이브리드입니다. 전자메일은 이러한 데이터의 대표적인 예로 메시지 본문에는 비정형 데이터가 포함되며, 발신자, 수신자, 제목, 날짜 등 구조화된 속성도 포함됩니다. 지리 태그, 타임스탬프, 시맨틱 태그를 사용하는 장치도 비정형 콘텐츠와 함께 정형 데이터를 제공할 수 있습니다. 예를 들어 식별되지 않은 스마트폰 이미지라도 여전히 셀카 사진이라는 사실과 촬영된 시간, 장소를 알 수 있습니다. AI 기술로 구동되는 최신 데이터베이스는 이러한 유형의 데이터를 즉시 식별하며 실시간으로 알고리즘을 생성해 관련된 다양한 데이터 세트를 효과적으로 관리, 분석할 수 있습니다. 

빅데이터의 소스

데이터를 생성하는 사물의 범위는 드론 위성에서 토스터에 이르기까지 기하급수적으로 증가하고 있습니다. 그러나 분류를 위해 데이터 소스는 일반적으로 다음의 3가지 유형으로 나뉩니다.

 

빅데이터의 소스

소셜 데이터

이름에서 알 수 있듯이 소셜 데이터는 소셜 미디어 댓글, 게시글, 이미지, 갈수록 증가하는 동영상 등에 의해 생성됩니다. 4G 및 5G 셀룰러 네트워크가 전 세계적으로 확산되면서 스마트폰에서 정기적으로 동영상 콘텐츠를 시청하는 전 세계 이용자의 수가 2023년까지 27억 2천만 명에 이를 전망입니다. 소셜 미디어와 사용 트렌드는 예측할 수 없는 방향으로 빨리 변화하는 경향이 있지만 디지털 데이터 생성 장치의 수는 꾸준히 증가할 전망입니다.

 

머신 데이터

사물인터넷(IoT) 기기와 머신에는 센서가 장착되며 디지털 데이터를 송수신할 수 있습니다. 기업은 IoT 센서를 통해 전사적으로 장치, 차량, 장비의 머신 데이터를 수집, 처리할 수 있습니다. 날씨와 교통 센서에서 보안 감시에 이르기까지 전 세계적으로 데이터 생성 사물의 수가 빠르게 증가하고 있습니다. IDC에 따르면 2025년까지는 지구상에 40억 개 이상의 IoT 장치가 전 세계 전체 디지털 데이터의 거의 절반을 생성할 전망입니다.

 

거래 데이터

세계에서 가장 빠르게 이동하고 증가하는 데이터입니다. 예컨대 한 대규모 다국적 소매유통업체는 시간당 백만 건 이상의 고객 거래를 처리합니다. 또 전 세계의 모든 구매 및 금융 거래를 포함하면 엄청난 양의 데이터가 생성됩니다. 더욱이 거래 데이터는 이미지, 댓글 같은 반정형 데이터 형식으로 보다 복잡해져 관리와 처리도 복잡해지고 있습니다.  

빅데이터를 정의하는 5가지 브이(V)

데이터 세트가 크다고 꼭 빅데이터는 아닙니다. 빅데이터가 되려면 최소한 5가지 특징이 있어야 합니다.

5V로 불리는 빅데이터의 5가지 특징

빅데이터의 5v
  1. 볼륨(Volume): 데이터량(볼륨)이 빅데이터를 "크게" 만드는 유일한 요소는 아니지만 분명 중요한 특징입니다. 빅데이터를 완전하게 관리, 활용하려면 고급 알고리즘과 AI 기반 분석이 필요합니다. 하지만 그 전에 대기업들이 보유하고 있는 수 테라바이트 규모의 데이터를 안전하고 신뢰할 수 있게 저장, 정리, 검색할 방법이 필요합니다.
  2. 속도(Velocity): 과거에는 기존 데이터베이스 시스템에 데이터를 수작업으로 입력한 뒤에야 분석 또는 검색할 수 있었습니다. 이제는 빅데이터 기술을 활용해 데이터가 생성되는 동안 데이터베이스가 데이터를 (때로는 몇 밀리초 이내에) 처리, 분석, 구성할 수 있습니다. 기업의 경우 이는 실시간 데이터를 활용해 재무 기회를 포착하고 고객의 요구에 대응하며 부정 행위를 방지하고 속도가 중요한 기타 다른 활동을 해결할 수 있다는 뜻입니다.
  3. 다양성(Variety): 정형 데이터로만 구성된 데이터 집합은 아무리 양이 커도 꼭 빅데이터가 되지는 않습니다. 일반적으로 빅데이터는 정형, 비정형, 반정형 데이터의 조합으로 구성됩니다. 기존 데이터베이스와 데이터 관리 솔루션의 경우 빅데이터를 구성하는 복잡하고 서로 다른 데이터 세트를 관리할 유연성과 범위가 부족합니다.
  4. 정확성(Veracity): 최신 데이터베이스 기술을 활용함으로써 기업은 엄청난 양의 빅데이터를 수집하고 이해할 수 있지만 그런 데이터는 정확성과 관련성, 적시성을 지닌 경우에만 가치가 있습니다. 정형 데이터로만 구성된 기존 데이터베이스는 데이터 정확성과 관련한 구문 오류나 오타가 일반적인 문제였습니다. 비정형 데이터는 완전히 새로운 진실성의 문제가 있습니다. 사람의 편견, 소셜 노이즈, 데이터 출처의 문제는 모두 데이터 품질에 영향을 줍니다.
  5. 가치(Value): 의심의 여지 없이 빅데이터 분석의 결과는 매우 놀랍고 예상을 넘어선 경우가 많습니다. 하지만 기업에 있어 빅데이터 분석은 경쟁우위와 회복탄력성을 확보하고 고객 서비스를 향상하도록 지원할 인사이트를 제공해야 합니다. 최근의 빅데이터 기술은 수익과 운영 회복탄력성 모두에 측정가능한 도입효과를 제공할 수 있는 데이터의 수집과 검색 기회를 제공합니다.

빅데이터의 도입효과

최신 빅데이터 관리 솔루션으로 기업은 가공되지 않은 데이터를 매우 빨리 정확하게 관련 인사이트로 전환할 수 있습니다.

  • 제품 및 서비스 개발: 제품 개발자는 빅데이터 분석으로 고객 리뷰와 문화 트렌드 같은 비정형 데이터를 분석하고 신속하게 대응할 수 있습니다.
  • 예지 정비: 전 세계 설문조사에서 맥킨지(McKinsey)는 IoT 지원 기계의 빅데이터 분석으로 설비 유지보수 비용이 최대 40% 감소함을 발견했습니다.
  • 고객 경험: 2020년 글로벌 비즈니스 리더 설문조사에서 가트너(Gartner)는 “성장 중인 기업들은 그렇지 않은 기업보다 고객 경험 데이터를 보다 적극적으로 수집”하고 있음을 발견했습니다. 기업들은 빅데이터 분석으로 브랜드의 고객 경험 개인화 수준을 높일 수 있습니다.
  • 회복탄력성 및 리스크 관리: 코로나19 팬데믹으로 인해 많은 비즈니스 리더들은 운영 중단에 매우 취약함을 깨닫게 되었습니다. 빅데이터 인사이트는 기업이 리스크를 예측하고 예기치 못한 상황에 대비하는 데 도움이 될 수 있습니다.
  • 비용 절감 및 효율성 향상: 기업이 조직 내 모든 프로세스에 고급 빅데이터 분석을 적용하면 비효율성을 발견할 뿐 아니라 신속하고 효과적인 솔루션을 구현할 수 있습니다.
  • 경쟁력 강화: 빅데이터가 제공하는 인사이트로 기업은 비용을 절감하고 고객을 만족시키며 제품을 개선하고 비즈니스 운영을 혁신할 수 있습니다.

AI와 빅데이터

빅데이터 관리를 위해서는 방대한 양의 서로 다른 복잡한 정보를 처리하고 유의미하게 분석할 능력을 갖춘 시스템이 활용됩니다. 이러한 측면에서 빅데이터와 AI는 다소 상호 협력적인 관계에 있습니다. 빅데이터를 정리, 분석하기 위한 AI가 없다면 빅데이터의 실용성이 감소하게 될 것입니다. 그리고 AI는 빅데이터에 포함된 데이터 세트의 범위에 따라 실행 가능한 강력한 분석 기능을 제공합니다. 포레스터리서치(Forrester Research) 애널리스트 브랜든 퍼셀(Brandon Purcell)의 말대로 “데이터는 AI의 생명줄입니다. AI 시스템이 제 기능을 하려면 데이터로 학습해야 합니다.”

데이터는 AI의 생명줄입니다. AI 시스템이 제 기능을 하려면 데이터로 학습해야 합니다.

– 브랜든 퍼셀(Brandon Purcell), 애널리스트, Forrester Research

머신러닝과 빅데이터

머신러닝 알고리즘은 유입되는 데이터를 정의하며 데이터 내에서 패턴을 식별합니다. 이러한 인사이트는 비즈니스 의사결정에 대한 정보를 제공하고 프로세스를 자동화하는 데 도움이 됩니다. 데이터 세트에 대한 분석이 막강해질수록 시스템의 프로세스 학습과 지속적인 진화, 적응 기회가 증가하므로 머신러닝은 빅데이터를 토대로 합니다.

빅데이터 기술

빅데이터 아키텍처

 

빌딩 시공 시 아키텍처와 마찬가지로 빅데이터 아키텍처는 기업이 데이터를 관리하고 분석하는 방법의 기본 구조에 대한 청사진을 제공합니다. 빅데이터 아키텍처는 데이터 소스, 데이터 저장, 빅데이터 분석, 분석된 결과가 비즈니스 인텔리전스로 제공되는 사용 레이어까지 4개의 기본 "레이어"에 걸쳐 빅데이터 관리에 필요한 프로세스를 매핑합니다.

 

빅데이터 분석

 

이 프로세스를 통해 빅데이터의 특성에 맞는 알고리즘과 데이터 모델링을 사용해 의미 있는 데이터를 시각화할 수 있습니다. MIT 슬론경영대학원이 실시한 심층 연구 및 조사에서 2,000명 이상의 비즈니스 리더를 대상으로 빅데이터 분석에 관한 회사의 경험에 대해 물었습니다. 당연히 빅데이터 관리 전략 개발에 참여한 응답자가 가장 크게 이익이 되는 비즈니스 성과를 달성했습니다.

 

빅데이터와 아파치 하둡(Apache Hadoop)

 

큰 상자 1개에 100개의 니켈과 다임 10개가 섞여 있는 모습을 그려보세요. 다음으로 10개의 니켈과 단 1개의 다임이 들어 있는 작은 상자 10개가 나란히 놓여있는 모습을 그려보세요. 둘 중에서 어느 경우에 다임을 더 쉽게 찾을 수 있을까요? 하둡(Hadoop)은 기본적으로 이런 원칙으로 작동합니다. 여러 대의 컴퓨터가 연결된 네트워크에서 분산된 빅데이터 처리를 관리하기 위한 오픈소스 프레임워크입니다. 따라서 하둡은 1개의 대형 컴퓨터로 모든 데이터를 저장 및 처리하는 대신 여러 대의 컴퓨터를 거의 무한 확장 가능한 네트워크로 클러스터링하고 데이터를 병렬로 분석합니다. 이러한 프로세스에서는 일반적으로 맵리듀스(MapReduce)라는 프로그래밍 모델을 사용하며 여기에서는 분산된 컴퓨터를 활용해 빅데이터 처리를 조율합니다.

 

데이터 레이크, 데이터 웨어하우스, NoSQL

 

정형 데이터를 저장하기 위해 기존의 SQL 스프레드시트 스타일 데이터베이스가 사용됩니다. 비정형, 반정형 빅데이터는 색인, 범주화 되지 않으므로 고유한 저장 및 처리 방식이 필요합니다. 데이터 레이크, 데이터 웨어하우스, NoSQL 데이터베이스는 모두 전통적이지 않은 데이터 세트를 관리하는 데이터 저장소입니다. 데이터 레이크는 아직 처리되지 않은 대규모의 원시 데이터 풀입니다. 데이터 웨어하우스는 특정 목적을 위해 이미 처리된 데이터 저장소입니다. NoSQL 데이터베이스는 처리 시점에 데이터의 특성에 맞게 수정할 수 있는 유연한 스키마를 제공합니다. 이들 시스템은 각각 강점과 약점이 있으며 많은 기업에서는 요구사항에 따라 이러한 서로 다른 데이터 저장소를 조합해 사용합니다.

 

인메모리 데이터베이스

 

기존의 디스크 기반 데이터베이스는 SQL 및 관계형 데이터베이스 기술을 고려해 개발되었습니다. 대량의 정형 데이터를 처리할 수 있지만 비정형 데이터의 처리 및 저장에는 적합하지 않습니다. 인메모리 데이터베이스를 사용하면 디스크 기반 시스템에서 데이터를 검색할 필요 없이 처리와 분석이 모두 RAM에서 수행됩니다. 인메모리 데이터베이스도 분산 아키텍처를 기반으로 합니다. 즉 디스크 기반의 단일 노드 데이터베이스 모델과 달리 병렬 처리를 활용해 훨씬 더 빠른 속도를 얻을 수 있습니다.

빅데이터의 작동 방식

빅데이터는 분석으로 눈에 띄게 비즈니스를 개선하는 실행 가능한 유관 인사이트를 제공하는 경우에 효과가 있습니다. 빅데이터 혁신을 준비하는 기업은 시스템과 프로세스가 빅데이터 수집, 저장, 분석에 충분히 준비되어 있는지 확인해야 합니다.

빅데이터 사용과 관련된 주요 3단계

빅데이터의 작동 방식
  1. 빅데이터 수집. 대부분의 빅데이터는 방대한 비정형 데이터 세트로 구성되며 일관되지 않은 개별 소스로부터 제공됩니다. 기존의 디스크 기반 데이터베이스 및 데이터 통합 방식은 데이터 취급 작업이 기본적으로 다릅니다. 빅데이터를 관리하기 위해서는 빅데이터 획득을 위한 인메모리 데이터베이스 솔루션과 소프트웨어 솔루션을 도입해야 합니다.
  2. 빅데이터 저장. 이름에서 알 수 있듯이 빅데이터는 볼륨이 큽니다. 많은 기업은 기존 데이터를 위한 온프레미스 스토리지 솔루션을 보유하고 있으며 경제적인 이유로 기존 스토리지를 재사용해 빅데이터의 처리 요구사항을 해결할 수 있기를 희망합니다. 그러나 빅데이터는 크기와 메모리 제한에 따른 제약을 받지 않을 때 가장 효과적입니다. 처음부터 클라우드 스토리지 솔루션을 빅데이터 모델에 통합하지 못한 기업은 대개 시작 후 몇 개월 만에 후회하는 경우가 많습니다.
  3. 빅데이터 분석. 빅데이터 분석에 AI와 머신러닝 기술을 적용하지 않으면 모든 기능을 완전히 실현할 수 없습니다. 빅데이터의 5가지 V 중 하나는 "속도(velocity)"입니다. 인사이트가 실행 가능하고 가치 있으려면 신속하게 제공되어야 합니다. 분석 프로세스는 정기적으로 자체 최적화되고 경험에서 학습할 수 있어야 하며 이는 AI 기능과 최신 데이터베이스 기술로만 달성할 수 있습니다.

빅데이터 애플리케이션


빅데이터가 제공하는 인사이트와 딥러닝은 거의 모든 비즈니스 또는 산업에 도입효과를 제공할 수 있습니다. 그러나 빅데이터는 운영 체계가 복잡한 대규모 조직에 가장 큰 영향을 줄 수 있습니다.

  • 금융
    빅데이터저널(Journal of Big Data)의 2020년 연구에 따르면 빅데이터는 "금융 서비스 부문, 특히 무역 및 투자, 세금 개혁, 부정 행위 감지 및 조사, 리스크 분석 및 자동화 부문에서 중요한 역할"을 합니다. 또한 빅데이터는 고객 데이터 및 피드백을 분석해 금융 산업을 혁신함으로써 고객 만족도 및 경험 향상에 필요한 귀중한 인사이트를 제공합니다. 거래 데이터 세트는 세계에서 가장 빨리 이동하는 가장 큰 데이터 세트입니다. 고급 빅데이터 관리 솔루션의 도입이 증가하고 있어 은행 및 금융 기관은 이러한 데이터를 보호하고 고객과 비즈니스를 모두 활용하며 보호하는 방식으로 이를 사용할 수 있게 되었습니다.
  • 의료
    의료 전문가들은 빅데이터 분석으로 보다 정확하고 증거에 기반한 진단을 내릴 수 있습니다. 또한 빅데이터로 병원 관리자는 동향을 파악하고 리스크를 관리하며 불필요한 지출을 최소화할 수 있어 환자 치료 및 연구 분야에 가장 큰 예산을 편성할 수 있습니다. 팬데믹이 한창인 최근 전 세계의 연구 과학자들은 코로나19의 치료 및 관리를 향상하기 위한 방법을 찾기 위해 경쟁하고 있으며 빅데이터가 매우 중요한 역할을 하고 있습니다. 사이언티스트(The Scientist)지의 2020년 7월 기사는 의료 팀이 협업을 수행하고 빅데이터를 분석해 코로나 바이러스와 싸울 수 있었던 방법에 대해 설명하며 "우리는 임상 과학의 수행 방법을 혁신해 이전에는 가능하지 않았던 방식으로 빅데이터와 데이터 과학의 툴과 리소스를 활용할 수 있다"고 설명했습니다.
  • 운송 및 물류
    아마존 효과(Amazon Effect)란 아마존이 익일 배송에 대한 기대를 보편화한 사항을 지칭하는 용어로 최근에는 고객이 다른 모든 온라인 주문의 배송에서 이를 요구하고 있습니다. 앙트리프리너(Entrepreneur) 매거진은 아마존 효과의 직접적인 결과로 “‘라스트 마일’ 물류 경쟁이 더욱 치열해질 전망”이라고 지적했습니다. 물류 기업은 점점 더 많이 빅데이터 분석을 활용해 경로 계획, 적재 통합, 연료 효율성 조치를 최적화하고 있습니다.
  • 교육
    팬데믹 기간 동안 전 세계의 교육 기관들은 원격 학습을 지원하기 위해 커리큘럼과 강의 방식을 개혁해야 했습니다. 이러한 프로세스에서 주요 당면과제는 학생들의 성과와 온라인 교수법의 전반적인 효과를 분석하고 평가하는 신뢰할 수 있는 방법을 찾는 것이었습니다. 빅데이터가 교육 및 온라인 학습에 미치는 영향에 관한 2020년 기사에서 교사와 관련하여 "빅데이터는 교육을 개인화하고 혼합 학습을 개발하며 평가 시스템을 혁신하고 평생 학습을 촉진하는 데 훨씬 더 큰 자신감을 제공"하는 것으로 관찰되었습니다.
  • 에너지 및 유틸리티
    미국 노동통계국에 따르면 유틸리티 기업은 검침원에 14억 달러 이상을 지출하며 일반적으로 아날로그 계량기와 수작업 검침에 의존하는 것으로 나타났습니다. 스마트 계량기 리더는 하루에 여러 번 디지털 데이터를 제공하며 빅데이터 분석의 이점을 통해 이러한 정보는 보다 효율적인 에너지 사용 및 보다 정확한 가격 책정 및 예측을 제공할 수 있습니다. 또한 현장 작업자가 검침을 수행할 필요가 없어지면 데이터 수집 및 분석을 통해 수리 및 업그레이드가 가장 긴급하게 필요한 곳으로 신속하게 재배치할 수 있습니다.

SAP 데이터 관리 솔루션 살펴보기

다양한 데이터 환경을 관리하고 데이터를 통합해 비즈니스 인사이트를 확보하세요.

시리즈 살펴보기

빅데이터 FAQ

빅데이터는 서로 다른 다양한 소스의 모든 잠재적인 비즈니스 관련 데이터(정형, 비정형 데이터)로 구성됩니다. 분석 후 빅데이터는 비즈니스 및 시장의 모든 운영 영역에 대해 보다 깊이 있는 인사이트와 보다 정확한 정보를 제공하기 위한 용도로 활용됩니다.  

빅데이터 기술은 데이터 마이닝, 데이터 저장, 데이터 공유, 데이터 시각화 등 빅데이터를 처리, 분석하는 데 사용되는 모든 툴과 소프트웨어, 기술에 적용됩니다.

아파치 하둡(Apache Hadoop)은 오픈소스 분산 처리 소프트웨어 솔루션입니다. 여러 대의 컴퓨터를 연결하고 빅데이터를 병렬 처리할 수 있도록 함으로써 빅데이터 관리의 가속화 및 간소화를 위한 용도로 활용됩니다.

아파치 스파크(Apache Spark)는 오픈소스 분산 처리 소프트웨어 솔루션입니다. 여러 대의 컴퓨터를 연결하고 빅데이터를 병렬 처리할 수 있도록 함으로써 빅데이터 관리의 속도와 편의성을 높이는 데 활용됩니다. 전신인 Hadoop이 훨씬 더 일반적으로 사용되지만 Spark는 머신러닝과 다른 기술을 적용할 수 있어 인기를 얻고 있으며 속도와 효율성이 향상되었습니다.  

데이터 레이크는 대량의 비정형 데이터를 저장, 검색할 수 있는 저장소입니다. 대다수 빅데이터는 구조화되지 않고 기존의 행-열 관계형 데이터베이스에 저장할 수 없기 때문에 데이터 레이크가 필요합니다. 

다크 데이터는 기업이 정기적인 비즈니스 운영의 일부로 수집하는 모든 데이터(보안 감시 영상, 웹 사이트 로그 파일 등)입니다. 이러한 데이터는 규제준수 목적으로 저장되지만 일반적으로는 사용되지 않습니다. 이러한 대규모 데이터 세트는 제공하는 가치에 비해 저장 비용이 높습니다. 

데이터 패브릭은 전체 비즈니스 생태계에서 빅데이터 아키텍처와 기술의 통합을 의미합니다. 이 서비스의 목적은 모든 소스와 유형의 빅데이터를 비즈니스 전반에서 모든 데이터 관리 서비스와 연결하는 데 있습니다. 

SAP Insights 뉴스레터

지금 바로 구독

뉴스레터를 구독하고 중요한 인사이트를 얻으세요.

추가 자료

맨 위로