데이터 마이닝이란?
데이터 마이닝은 고급 분석 툴을 사용해 축적된 데이터에서 유용한 정보를 추출하는 과정입니다.
데이터 마이닝 개요
데이터 마이닝은 일반적으로 데이터 웨어하우스나 연결된 데이터 세트 컬렉션 등 축적된 데이터에서 유용한 정보를 추출하는 과정입니다. 데이터 마이닝 툴에는 강력한 통계, 수학 및 분석 기능이 포함되어 있으며, 이 툴의 주된 목적은 대규모 데이터 세트를 통해 동향, 패턴, 관계를 파악해 정보에 입각한 의사결정과 계획을 지원하는 데 있습니다.
종종 마케팅 부서 문의와 관련된 데이터 마이닝은 많은 경영진이 수요를 더 잘 이해하고 제품, 가격 또는 판촉이 판매에 미치는 영향을 파악하는 방법으로 볼 수 있습니다. 그러나 데이터 마이닝은 다른 비즈니스 영역에도 상당한 이점을 제공합니다. 엔지니어와 디자이너는 제품 변경의 효과를 분석하고 제품이 사용되는 방식, 시기, 위치와 관련해 제품 성공 또는 실패의 가능한 원인을 찾을 수 있습니다. 서비스 및 수리 운영 측면에서는 부품 재고 및 인원 배치를 더 효율적으로 계획할 수 있습니다. 전문인력 서비스 조직은 데이터 마이닝을 사용해 변화하는 경제 동향과 인구 통계 변화에 따라 새로운 기회를 식별할 수 있습니다.
데이터 마이닝은 더 큰 데이터 세트 및 더 많은 사용자 경험으로 효용성과 가치가 늘고 있습니다. 논리적으로 데이터가 많을수록 더 많은 인사이트와 인텔리전스가 묻혀 있습니다. 또한 사용자가 툴에 더 익숙해지고 데이터베이스를 더 잘 이해하게 되면 탐색과 분석을 통해 창의력을 높일 수 있습니다.
데이터 마이닝을 사용하는 이유는?
데이터 마이닝의 가장 큰 이점은 여러 소스에서 수집한 대량의 데이터 패턴과 관계를 식별하는 힘입니다. 소셜 미디어, 원격 센서, 제품 이동 및 시장 활동에 대한 점점 더 상세한 리포트 등 다양한 소스에서 점점 더 많은 데이터를 사용할 수 있는 데이터 마이닝은 빅데이터를 완전하게 활용하고 실행 가능한 인텔리전스로 전환할 툴을 제공합니다. 게다가 ‘상식 밖의 사고’를 위한 메커니즘으로 작용할 수 있습니다.
데이터 마이닝 프로세스는 얼핏 무관해 보이는 비트의 정보에서 놀랍고 흥미진진한 관계와 패턴을 감지할 수 있습니다. 정보는 분야별로 분리되는 경향이 있기 때문에 그동안 전체적으로 분석하기가 어렵거나 불가능했습니다. 그러나 외부 요인(예: 인구 통계 또는 경제 요인)과 회사 제품의 성과 사이에는 관계가 있을 수 있습니다. 또한 경영진은 지역, 제품 라인, 유통 경로, 지역별 판매 수치를 정기적으로 살펴보는 반면, 이러한 정보에 대한 외부 컨텍스트가 부족한 경우가 많습니다. 이들의 분석은 ‘일어난 일’을 지적하지만 ‘왜 이런 식으로 일어났는가’를 밝혀내는 일은 거의 없습니다. 데이터 마이닝으로 이 격차를 해소할 수 있습니다.
데이터 마이닝에서는 외부 요인과의 상관관계를 찾을 수 있습니다. 상관관계는 항상 인과관계를 의미하지는 않지만 이러한 추세는 제품, 채널, 생산 결정을 안내하는 중요한 지표가 될 수 있습니다. 동일한 분석으로 제품 디자인부터 운영 효율성 및 서비스 제공에 이르기까지 비즈니스의 다른 부분에도 도움이 됩니다.
데이터 마이닝의 역사
사람들은 수천 년 동안 데이터를 수집하고 분석해 왔으며, 필요한 정보를 식별하고, 양질의 데이터 소스를 찾으며, 데이터를 수집 및 결합하고, 데이터를 분석하는 데 사용할 수 있는 가장 효과적인 툴을 사용하고, 학습한 내용을 활용할 수 있는 프로세스도 그대로 유지해 왔습니다. 컴퓨팅 및 데이터 기반 시스템이 성장하고 발전함에 따라 데이터 관리 및 분석을 위한 툴이 갖춰졌습니다. 실질적인 변곡점은 1960년대에 관계형 데이터베이스 기술과 SQL(Structured Query Language) 같은 사용자 중심의 자연어 질의 도구를 개발하면서 찾아왔습니다. 자체 개발한 프로그램을 통해서만 데이터를 사용하던 시대는 지났습니다. 이러한 획기적인 기능을 통해 비즈니스 사용자는 대화형으로 데이터를 탐색하고 내부에 묻혀 있는 숨은 보석을 끄집어 낼 수 있었습니다.
데이터 마이닝은 전통적으로 데이터 과학 내에 설정된 전문 기술이었습니다. 그러나 새로운 세대의 분석 툴은 고급 기술 기술을 필요로 하는 데서 시작하지만 사용자가 액세스할 수 있도록 빠르게 발전합니다. 상호작용성(데이터와 대화할 수 있는 능력)이 중요한 발전입니다. 질문하세요. 답을 확인하세요. 학습한 내용을 바탕으로 다른 질문을 하세요. 이러한 종류의 비정형 로밍은 사용자가 애플리케이션별 데이터베이스 설계의 범위를 넘어 기능부서와 조직의 경계를 넘나드는 관계를 발견할 수 있게 합니다.
데이터 마이닝은 비즈니스 인텔리전스의 핵심 구성요소입니다.데이터 마이닝 툴은 경영진 대시보드에 내장되어 소셜 미디어, 사물인터넷(IoT) 센서 피드, 위치 인식 장치, 비정형 텍스트, 동영상 등 빅데이터로부터 통찰을 이끌어냅니다.현대의 데이터 마이닝은 클라우드 및 가상 컴퓨팅뿐만 아니라 인메모리 데이터베이스를 사용헤 많은 소스의 데이터를 비용 효율적으로 관리하고 온디맨드 방식으로 확장할 수 있습니다.
데이터 마이닝은 어떻게 작동하나?
데이터 마이닝을 하는 사람 만큼이나 데이터 마이닝에 대한 접근법도 다양합니다. 접근법은 던지는 질문 종류와 검색 및 분석을 위한 원자재를 제공하는 데이터베이스 또는 데이터 세트의 내용 및 구성에 따라 달라집니다. 즉 데이터, 툴, 사용자를 준비하기 위해 완료해야 하는 몇 가지 조직 및 준비 단계가 있습니다.
- 문제 또는 최소한 문의 영역을 파악합니다. 이러한 데이터 마이닝의 오프로드 모험을 위해 운전석에 앉아야 하는 비즈니스 의사 결정권자는 이러한 탐색의 일환으로 사용할 내부 및 외부 데이터 유형과 작업 대상이 될 분야에 대해 전반적으로 이해해야 합니다. 이들은 관련된 비즈니스 및 기능 영역에 대해 친밀한 지식을 가지고 있는 것으로 가정합니다.
- 데이터 수집. 먼저 내부 시스템 및 데이터베이스부터 시작하세요. 데이터 모델과 다양한 관계형 툴을 통해 연결하거나 데이터 웨어하우스로 데이터를 한 데 모으세요. 여기에는 현장 영업 또는 서비스 데이터, IoT 또는 소셜 미디어 데이터 같은 외부 소스의 데이터가 포함됩니다. 산업협회와 정부기관의 산업 동향 및 재무 벤치마크 같은 인구통계 자료, 경제 데이터, 시장 인텔리전스 등 외부 데이터에 대한 권리를 찾아 취득하세요. 이들 데이터를 툴킷의 범위에 포함시키세요(데이터 웨어하우스로 가져오거나 데이터 마이닝 환경에 연결).
- 데이터 준비 및 이해. 현업 주제전문가를 활용해 데이터를 정의, 분류, 정리하세요. 이 과정을 데이터 랭글링(data wrangling) 또는 먼징(munging)이라고도 합니다. 일부 데이터는 중복, 불일치, 불완전한 레코드 또는 오래된 형식을 제거하기 위해 정리 또는 "정리"가 필요할 수 있습니다. 데이터 준비 및 정리는 새로운 프로젝트나 새로운 문의 필드가 관심을 끌게 되면 지속적인 작업이 될 수 있습니다.
- 사용자 교육 운전자 교육, 도로주행 교육, 운전면허 취득 후 일부 지도 실습 등을 거치지 않고 페라리의 열쇠를 십대 자녀에게 건네지는 않을 것입니다. 따라서 미래의 데이터 마이너에게 정식 교육을 제공하고 강력한 이들 툴에 익숙해지기 시작할 무렵 일부 지도 실습도 제공하세요. 기본을 숙달하고 더 발전된 기법으로 넘어갈 수 있게 되면 지속적인 교육도 좋은 생각입니다.
데이터 마이닝 기법
데이터 마이닝은 고정된 루틴이나 프로세스가 아닌 툴 키트를 기반으로 합니다. 여기에서 언급되는 특정 데이터 마이닝 기법은 조직에서 이 툴을 사용해 동향, 상관 관계, 인텔리전스, 비즈니스 통찰을 찾기 위해 데이터를 탐색하는 방법의 예시일 뿐입니다.
일반적으로 데이터 마이닝 접근법은 원하는 특정 결과에 초점을 맞추는 지시형과 탐색 프로세스로서 비지시형 방식으로 분류할 수 있습니다. 다른 탐색은 산업, 제품, 규모, 위치와 같은 비즈니스 특성에 따라 잠재 고객을 그룹화하는 등의 데이터 정렬 또는 분류를 목표로 할 수 있습니다. 유사한 목적인 이상치 또는 이상상황 감지는 식별 가능한 패턴을 표시하는 데이터 세트 내에서 (단순한 변동성이 아닌) 실제 이상상황을 인식하는 자동화된 방법입니다.
연계
또 다른 흥미로운 목표는 연관관계이며, 연관성이 없는 두 가지 이벤트나 활동을 연결합니다. 분석 및 데이터 마이닝 초기의 전형적인 이야기(아마도 허구겠지만)에는 편의점 체인이 맥주와 기저귀 판매의 상관관계를 발견합니다. 정신 없는 초보 아빠들이 저녁 늦게 기저귀를 사러 달려왔다가 6캔 짜리 맥주를 몇 개 집어 들 수도 있다고 가정해 봅니다. 매장은 맥주와 기저귀를 가까운 곳에 배치하고 결과적으로 맥주 판매를 늘립니다.
클러스터링
이 접근법은 사전 정의된 가정이 아닌 유사성으로 데이터를 그룹화하는 데 목적이 있습니다. 예를 들어, 외부 소비자 신용 및 인구 통계 데이터와 결합된 고객 판매 정보를 마이닝할 때 가장 수익성 높은 고객은 중견 도시 출신임을 발견할 수 있습니다. 대부분의 경우 예측 또는 전망을 지원하기 위해 데이터 마이닝을 수행합니다. 패턴과 행동을 더 잘 이해하면 원인이나 상관관계와 관련된 미래 행동을 더 잘 예측할 수 있습니다.
회귀
데이터 마이닝 툴 키트에서 제공되는 수학적 기법 중 하나인 회귀 분석은 이력 패턴을 미래로 연장한 내용을 기준으로 숫자를 예측합니다. 다른 다양한 패턴 감지 및 추적 알고리즘은 사용자로 하여금 데이터는 물론 데이터로 표현된 행위를 더 잘 이해하도록 유연한 툴을 제공합니다. 이는 데이터 마이닝 툴 키트에서 사용할 수 있는 몇 가지 기법과 툴에 불과합니다. 질문 방식에 따라 기술이 적용된다는 점에서 도구나 기법의 선택은 다소 자동화되어 있습니다. 초기에는 데이터 마이닝이 데이터베이스를 "슬라이싱 및 다이싱"하는 활동이라고 불렀지만 지금은 더 정교해졌고 연관 관계, 클러스터링, 회귀 등의 용어가 보편화되어 있습니다.
사용 사례와 예시
데이터 마이닝은 감성 분석, 가격 최적화, 데이터베이스 마케팅, 신용 리스크 관리, 교육 및 지원, 부정행위 감지, 의료 및 의료 진단, 위험 평가, 추천 시스템(“이 제품을 구입한 고객은 ...도 좋아함”) 등의 핵심 요소입니다. 소매, 도매 유통, 서비스 산업, 통신, 커뮤니케이션, 보험, 교육, 제조, 의료, 금융, 과학, 엔지니어링, 온라인 마케팅 또는 소셜 미디어 등 모든 산업에서 효과적인 툴이 될 수 있습니다.
제품 개발: 물리적 제품을 설계, 제조 또는 배포하는 기업은 경제 및 인구 통계 데이터와 결합된 구매 패턴을 분석해 제품 타게팅 기회를 정확히 찾아낼 수 있습니다. 또한 디자이너와 엔지니어는 고객 및 사용자 피드백, 수리 기록, 기타 데이터를 상호 참조해 제품 개선 기회를 식별할 수 있습니다.
제조: 제조업체는 현장에서 품질 동향, 수리 데이터, 생산률, 제품 성과 데이터 등을 추적해 생산 관련 문제를 파악할 수 있습니다. 또한 프로세스 업그레이드를 통해 품질을 향상하고 시간과 비용을 절약하며 제품 성능을 개선하고 신규 혹은 개선이 필요한 공장 장비의 필요성을 지적할 수 있습니다.
서비스 산업: 서비스 업계에서는 사용자가 특정 서비스, 채널, 피어 성과 데이터, 지역, 가격, 인구 통계, 경제 데이터 등을 포함하는 교차 참조 고객 피드백(직접 또는 소셜 미디어 또는 기타 소스)을 통해 유사한 제품 개선 기회를 찾을 수 있습니다.
끝으로, 이러한 모든 검사 결과는 예측 및 계획에 다시 전달되어야 합니다. 그래야 전체 조직이 고객에 대한 보다 친밀한 지식을 바탕으로 예상 수요 변화에 대처하고 새롭게 식별된 기회를 활용할 수 있는 유리한 입지를 다질 수 있습니다.
데이터 마이닝 당면과제
빅데이터: 데이터가 빨리 생성되면서 데이터 마이닝에 더 많은 기회를 제공합니다.그러나 방대한 데이터 양과 높은 속도, 다양한 데이터 구조는 물론 비정형 데이터의 증가량 등을 고려할 때 빅데이터에서 의미를 추출하려면 최신 데이터 마이닝 툴이 필요합니다.많은 기존 시스템은 이러한 입력값의 홍수를 처리, 저장, 활용하는 데 어려움을 겪습니다.
사용자 역량: 데이터 마이닝 및 분석 툴은 사용자 및 의사 결정자가 이해하고 대량의 데이터에서 의미와 통찰을 이끌어 낼 수 있도록 설계되었습니다.고도의 기술을 갖춘 이 강력한 툴은 현재 뛰어난 사용자 경험 디자인으로 패키지화되어 있어 거의 모든 사람이 최소한의 교육으로 이러한 툴을 사용할 수 있습니다.그러나 이점을 충분히 얻으려면 가용 데이터와 원하는 정보의 비즈니스 컨텍스트를 이해해야 합니다.또한 적어도 일반적으로 툴의 작동 방식과 지원 가능한 작업을 알아야 합니다.이는 일반 관리자 또는 경영진의 범위를 넘어서는 것이 아니라 학습 프로세스이며 사용자는 이 새로운 기술 세트를 개발하기 위해 약간의 노력을 기울여야 합니다.
데이터 품질 및 가용성: 새로운 데이터를 대량으로 사용할 경우 불완전, 부정확, 오류, 사기성, 손상 데이터 혹은 그저 쓸모없는 데이터도 넘쳐 납니다.여러 도구가 이 문제를 정리하는 데 도움을 주기는 하지만 데이터의 소스의 진실성과 신뢰성을 사용자가 계속해서 알고 있어야 합니다.개인정보 보호 문제도 중요합니다. 이는 데이터 획득 측면은 물론 취득 후 관리, 처리 측면에서도 중요합니다.