건너뛰고 콘텐츠로 이동

빅데이터란?

빅데이터 분석의 중요성

빅데이터의 진화

지금은 상상을 할 수 없지만 아폴로 가이던스 컴퓨터는 80킬로바이트 이하의 메모리를 활용해 최초의 우주선을 달로 무사히 보낼 수 있었습니다. 그 후로 컴퓨터 기술은 비약적으로 성장했으며 생성되는 데이터도 급증했습니다. 사실 전 세계의 기술적인 데이터 저장 능력은 1980년대 이후 3년마다 두 배로 증가해 왔습니다. 50여년 전 아폴로 11호 발사 당시만 해도 전 세계에서 생성되는 디지털 데이터의 양은 일반적인 노트북에 담을 수 있을 정도였습니다. 최근 IDC의 추산에 따르면현재 데이터 생성량은 44제타바이트(또는 44조 기가바이트)이며 2025년에는 163제타바이트로 증가할 전망입니다.  

44

현재 디지털 데이터는 44 제타바이트, IDC

163

2025년 디지털 데이터는 163 제타바이트, IDC

소프트웨어와 기술이 계속 발전하면서 상대적으로 비디지털 시스템의 생존 가능성은 줄어들고 있습니다. 디지털로 생성, 수집되는 데이터를 처리하려면 보다 진보된 데이터 관리 시스템이 필요합니다. 또한 소셜 미디어 플랫폼, 스마트폰 기술, 디지털로 연결된 사물인터넷(IoT) 기기의 급증으로 최근 빅데이터 시대가 도래했습니다.

정형, 비정형 데이터란?

데이터 세트는 일반적으로 구조와 색인 편리성 여부에 따라 세 가지 유형으로 분류됩니다.

정형 데이터

이 유형의 데이터는 조직화 및 검색이 가장 단순합니다. 이러한 데이터에는 재무 데이터, 시스템 로그, 인구통계 상세정보 등이 포함됩니다. 열 및 행의 레이아웃이 사전 정의된 엑셀 스프레드시트는 정형 데이터의 대표적인 예입니다. 이들 데이터의 구성요소는 범주화가 용이해 데이터베이스 설계자와 관리자가 검색 및 분석 알리고리즘을 간단히 정의할 수 있습니다. 정형 데이터는 규모가 매우 크더라도 빅데이터라고 할 수는 없습니다. 정형 데이터는 그 자체로는 관리가 간단하기 때문에 빅데이터 정의 요건을 충족하지 못합니다. 전통적으로 데이터베이스는 SQL(Structured Query Language)이라는 프로그래밍 언어를 사용해 정형 데이터를 관리합니다. SQL은 1970년대 IBM이 개발해 개발자들이 그 당시 막 시작된 관계형(스프레드시트 스타일) 데이터베이스를 개발, 관리할 수 있었습니다.  

비정형 데이터

이 범주에 속하는 데이터에는 소셜 미디어 게시글, 오디오 파일, 이미지, 주관식 고객 의견 등이 포함될 수 있습니다. 이러한 유형의 데이터는 표준적인 행-열 관계형 데이터베이스로 포착하기가 쉽지 않습니다. 전통적으로 대량의 비정형 데이터를 검색, 관리, 분석하는 기업은 공수가 많이 드는 수작업 프로세스를 사용해야 했습니다. 이러한 데이터를 분석하고 이해하여 얻을 수 있는 잠재적 가치는 의심의 여지가 없지만 너무 큰 비용이 들어 그만한 가치가 없었습니다. 시간도 많이 소요되어 결과를 얻기도 전에 무용지물이 되는 경우도 많았습니다. 비정형 데이터는 스프레드시트나 관계형 데이터베이스 대신 데이터 레이크, 데이터 웨어하우스, NoSQL 데이터베이스에 저장됩니다.

반정형 데이터

이름에서 알 수 있듯이 반정형 데이터는 정형, 비정형 데이터의 하이브리드입니다. 전자메일은 이러한 데이터의 좋은 예시로 메시지 본문에는 비정형 데이터가 포함되는 반면 발신자, 수신자, 제목, 날짜 등 구조화된 속성도 포함됩니다. 지리 태그, 타임스탬프, 시맨틱 태그를 사용하는 장치도 비정형 콘텐츠와 함께 정형 데이터를 제공할 수 있습니다. 예를 들어 식별되지 않은 스마트폰 이미지라도 여전히 셀카 사진이라는 사실과 촬영된 시간, 장소를 알 수 있습니다. AI 기술로 구동되는 최신 데이터베이스는 이러한 유형의 데이터를 즉시 식별하며 실시간으로 알고리즘을 생성해 관련된 다양한 데이터세트를 효과적으로 관리, 분석할 수 있습니다. 

데이터를 생성하는 사물의 범위는 드론 위성에서 토스터에 이르기까지 기하급수적으로 증가하고 있습니다. 그러나 분류를 위해 데이터 소스는 일반적으로 다음의 3가지 유형으로 나뉩니다.

소셜 데이터

이름에서 알 수 있듯이 소셜 데이터는 소셜 미디어 댓글, 게시글, 이미지, 갈수록 많은 동영상 등에 의해 생성됩니다. 그리고 4G 및 5G 셀룰러 네트워크가 전 세계적으로 확산되면서 스마트폰에서 정기적으로 동영상 콘텐츠를 시청하는 전 세계 이용자의 수가 2023년까지 27억 2000만 명에 이를 전망입니다. 소셜 미디어와 사용 트렌드는 예측할 수 없는 방향으로 빨리 변화하는 경향이 있지만 디지털 데이터 생성 장치의 수는 꾸준히 증가할 것입니다.

머신 데이터

사물인터넷(IoT) 기기와 머신에는 센서가 장착되며 디지털 데이터를 송수신할 수 있습니다. 기업은 IoT 센서를 통해 전사적으로 장치, 차량, 장비의 머신 데이터를 수집, 처리할 수 있습니다. 날씨와 교통 센서에서 보안 감시에 이르기까지 전 세계적으로 데이터 생성 사물의 수가 빠르게 증가하고 있습니다. IDC에 따르면 2025년까지는 지구 상에 40억 개 이상의 IoT 장치가 전 세계 전체 디지털 데이터의 거의 절반을 생성할 전망입니다.

거래 데이터

세계에서 가장 빠르게 이동하고 증가하는 데이터입니다. 예컨대 한 대규모 다국적 소매업체는 시간당 백만 건 이상의 고객 거래를 처리합니다. 또 전 세계의 모든 구매 및 금융 거래를 포함하면 엄청난 양의 데이터가 생성됩니다. 더욱이 거래 데이터는 이미지, 댓글 같은 반정형 데이터 형식으로 보다 복잡해져 관리와 처리도 복잡해지고 있습니다.

데이터세트가 크다고 해서 꼭 빅데이터인 것은 아닙니다. 빅데이터가 되려면 최소한 5가지 특징이 있어야 합니다.

볼륨 (Volume)

데이터양(볼륨)이 빅데이터를 "크게" 만드는 유일한 요소는 아니지만 분명 중요한 특징입니다. 빅데이터를 완전하게 관리, 활용하려면 고급 알고리즘과 AI 기반 분석이 필요합니다. 하지만 그 전에 대기업들이 보유하고 있는 수 테라바이트 규모의 데이터를 안전하고 신뢰할 수 있게 저장, 정리, 검색할 방법이 필요합니다.

속도 (Velocity)

과거에는 기존 데이터베이스 시스템에 데이터를 수작업으로 입력한 뒤에야 분석 또는 검색할 수 있었습니다. 이제는 빅데이터 기술을 활용해 데이터가 생성되는 동안 데이터베이스가 데이터를 (때로는 몇 밀리초 이내에) 처리, 분석, 구성할 수 있습니다. 기업의 경우 이는 실시간 데이터를 활용해 재무 기회를 포착하고 고객의 요구에 대응하며 부정 행위를 방지하고 속도가 중요한 기타 다른 활동을 해결할 수 있다는 뜻입니다.

다양성 (Variety)

정형 데이터로만 구성된 데이터 집합은 아무리 양이 커도 꼭 빅데이터가 되지는 않습니다. 일반적으로 빅데이터는 정형, 비정형, 반정형 데이터의 조합으로 구성됩니다. 기존 데이터베이스와 데이터 관리 솔루션의 경우 빅데이터를 구성하는 복잡하고 서로 다른 데이터세트를 관리할 유연성과 범위가 부족합니다.

진실성 (Veracity)

최신 데이터베이스 기술을 활용함으로써 기업은 엄청난 양의 빅데이터를 수집하고 이해할 수 있지만 그런 데이터는 정확성과 관련성, 적시성을 지닌 경우에만 가치가 있습니다. 정형 데이터로만 구성된 기존 데이터베이스는 데이터 정확성과 관련한 구문 오류나 오타가 일반적인 문제였습니다. 비정형 데이터는 완전히 새로운 진실성의 문제가 있습니다. 사람의 편견, 사회적 노이즈, 데이터 출처의 문제는 모두 데이터 품질에 영향을 줍니다.

가치 (Value)

의심의 여지 없이 빅데이터 분석의 결과는 매우 놀랍고 예상을 넘어선 경우가 많습니다. 기업에 있어 빅데이터 분석은 경쟁우위와 회복탄력성을 확보하고 고객 서비스를 향상하도록 지원할 인사이트를 제공해야 합니다. 최근의 빅데이터 기술은 수익과 운영 회복탄력성 모두에 측정가능한 도입효과를 제공할 수 있는 데이터의 수집과 검색 기회를 제공합니다.

최신 빅데이터 관리 솔루션으로 기업은 가공되지 않은 데이터를 매우 빨리 정확하게 관련 인사이트로 전환할 수 있습니다.

  • 제품 및 서비스 개발: 제품 개발자는 빅데이터 분석으로 고객 리뷰와 문화적 동향 같은 비정형 데이터를 분석하고 신속하게 대응할 수 있습니다.
  • 예지 정비: 전 세계 설문조사에서 맥킨지(McKinsey)는 IoT 지원 기계의 빅데이터 분석으로 설비 유지보수 비용이 최대 40% 감소함을 발견했습니다.
  • 고객 경험: 2020년 글로벌 비즈니스 리더 설문조사에서 가트너(Gartner)는 “성장 중인 기업들은 그렇지 않은 기업보다 고객 경험 데이터를 보다 적극적으로 수집”하고 있음을 발견했습니다. 기업들은 빅데이터 분석으로 브랜드의 고객 경험 개인화 수준을 높일 수 있습니다.  
  • 회복탄력성 및 리스크 관리: 코로나19 팬데믹으로 인해 많은 비즈니스 리더들은 운영 중단에 매우 취약함을 깨닫게 되었습니다. 빅데이터 인사이트는 기업이 리스크를 예측하고 예기치 못한 상황에 대비하는 데 도움이 될 수 있습니다.
  • 비용 절감 및 효율성 향상: 기업이 조직 내 모든 프로세스에 고급 빅데이터 분석을 적용하면 비효율성을 발견할 뿐 아니라 신속하고 효과적인 솔루션을 구현할 수 있습니다.
  • 경쟁력 향상: 빅데이터가 제공하는 인사이트를 통해 기업은 비용을 절감하고 고객을 만족시키며 제품을 개선하고 비즈니스 운영을 혁신할 수 있습니다.

AI와 빅데이터

빅데이터 관리를 위해서는 방대한 양의 서로 다른 복잡한 정보를 처리하고 유의미하게 분석할 능력을 갖춘 시스템이 활용됩니다. 이러한 측면에서 빅데이터와 AI는 다소 상호 협력적인 관계를 갖습니다. 빅데이터를 정리, 분석하기 위한 AI가 없다면 빅데이터의 실용성이 감소하게 될 것입니다. 그리고 AI는 빅데이터에 포함된 데이터세트의 범위에 따라 실행 가능한 강력한 분석 기능을 제공합니다. 포레스터리서치(Forrester Research) 애널리스트 브랜든 퍼셀(Brandon Purcell)의 말대로 "데이터는 AI의 생명줄입니다. AI 시스템이 제 기능을 하려면 데이터로 학습해야 합니다.”

데이터는 AI의 생명줄입니다. AI 시스템이 제 기능을 하려면 데이터로 학습해야 합니다.

Brandon Purcell, 애널리스트, Forrester Research

머신러닝과 빅데이터

머신러닝 알고리즘은 유입되는 데이터를 정의하며 데이터 내에서 패턴을 식별합니다. 이러한 인사이트는 비즈니스 의사결정에 대한 정보를 제공하고 프로세스를 자동화하는 데 도움이 됩니다. 데이터세트에 대한 분석이 막강해질수록 시스템의 프로세스 학습과 지속적인 진화, 적응 기회가 증가하므로 머신러닝은 빅데이터를 토대로 합니다.

SAP의 데이터 관리 솔루션 알아보기

귀사의 구체적인 요구사항을 충족하는 온프레미스 및 클라우드 솔루션으로 데이터 웨어하우스, 데이터 레이크, 데이터베이스 전반에서 다양한 데이터 환경을 관리하세요.

빅데이터 FAQ

빅데이터는 어떤 용도로 사용되나요?

빅데이터는 서로 다른 다양한 소스의 모든 잠재적인 비즈니스 관련 데이터(정형, 비정형 데이터)로 구성됩니다. 분석 후 빅데이터는 비즈니스 및 시장의 모든 운영 영역에 대해 보다 깊이 있는 인사이트와 보다 정확한 정보를 제공하기 위한 용도로 활용됩니다.

빅데이터 기술이 뭐죠?

빅데이터 기술은 데이터 마이닝, 데이터 저장, 데이터 공유, 데이터 시각화 등 빅데이터를 처리, 분석하는 데 사용되는 모든 도구와 소프트웨어, 기술에 적용됩니다.

하둡(Hadoop)은 어떤 용도로 사용되나요?

아파치 하둡(Apache Hadoop)은 오픈소스 분산 처리 소프트웨어 솔루션입니다. 여러 대의 컴퓨터를 연결하고 빅데이터를 병렬 처리할 수 있도록 함으로써 빅데이터 관리의 가속화 및 간소화를 위한 용도로 활용됩니다.

스파크(Spark)는 어떤 용도로 사용되나요?

아파치 스파크(Apache Spark)는 오픈소스 분산 처리 소프트웨어 솔루션입니다. 여러 대의 컴퓨터를 연결하고 빅데이터를 병렬 처리할 수 있도록 함으로써 빅데이터 관리의 가속화 및 간소화를 위한 용도로 활용됩니다. 전신인 하둡(Hadoop)은 훨씬 더 일반적으로 사용되지만 스파크는 머신러닝과 다른 기술을 적용할 수 있어 인기를 얻고 있으며 속도와 효율성이 향상되었습니다.

데이터 레이크가 뭐죠?

데이터 레이크는 대량의 비정형 데이터를 저장 및 검색할 수 있는 저장소입니다. 대다수의 빅데이터는 구조화되지 않고 기존의 행-열 관계형 데이터베이스에 저장할 수 없기 때문에 데이터 레이크가 필요합니다. 

다크 데이터가 뭐죠?

다크 데이터는 기업이 정기적인 비즈니스 운영의 일부로 수집하는 모든 데이터(보안 감시 영상, 웹 사이트 로그 파일 등)입니다. 이러한 데이터는 규제 준수 목적으로 저장되지만 일반적으로는 사용되지 않습니다. 이러한 대규모 데이터세트는 제공하는 가치보다 더 많은 데이터를 저장합니다. 

데이터 패브릭이 뭐죠?

데이터 패브릭은 전체 비즈니스 생태계에서 빅데이터 아키텍처와 기술의 통합을 의미합니다. 이 서비스의 목적은 모든 소스와 유형의 빅데이터를 비즈니스 전반에서 모든 데이터 관리 서비스와 연결하는 데 있습니다.  

맨 위로