건너뛰고 콘텐츠로 이동
차량을 식별하는 머신러닝

머신러닝이란?

기계 학습은 컴퓨터가 명시적으로 프로그래밍되지 않고 데이터를 학습하고 경험을 개선해 주는 인공 지능(AI)의 하위 세트입니다.

 

이 웹 페이지는 사용자의 편의를 위해 기계 번역되었습니다. SAP는 기계 번역의 정확성이나 완전성을 보증하지 않습니다. 영어 원본 웹 페이지는 이 페이지의 오른쪽 상단에 있는 세계 지도를 이용해 찾을 수 있습니다.

기계 학습 정의 세부사항

머신러닝은 인공지능(AI)의 하위 집합입니다. 학습과 개선을 위해 명시적으로 컴퓨터를 프로그래밍하는 대신, 컴퓨터가 데이터를 통해 학습하고 경험을 통해 개선하도록 훈련하는 데 중점을 둡니다. 머신러닝에서 알고리즘은 대규모 데이터 세트에서 패턴과 상관관계를 찾고 분석을 토대로 최적의 의사결정과 예측을 수행하도록 훈련됩니다. 머신러닝 애플리케이션은 적용을 통해 개선되며 이용 가능한 데이터가 증가할수록 더욱 정확해집니다.

 

머신러닝의 응용 분야는 주거 공간부터 장바구니, 엔터테인먼트 미디어, 의료에 이르기까지 우리 주변에 퍼져 있습니다.

머신러닝 설명

머신러닝과 AI의 상관관계는?

머신러닝과 그 구성요소인 딥러닝, 신경망은 모두 AI의 세부 하위집합입니다. AI는 의사결정과 예측을 수행하기 위해 데이터를 처리합니다. AI는 머신러닝 알고리즘으로 데이터를 처리할 뿐 아니라 추가 프로그래밍 없이도 데이터를 학습하면서 지능화합니다. 인공지능은 모든 머신러닝 관련 하위 집합을 포괄하는 상위집합입니다. 첫 번째 하위집합은 머신러닝이며, 그 안에 딥러닝이 있고 딥러닝 안에는 신경망이 있습니다.

AI와 머신러닝을 비교하는 다이어그램

AI와 머신러닝 간의 관계를 나타내는 다이어그램

신경망이란?

 

인공신경망(ANN)은 생물학적 두뇌의 뉴런을 기반으로 모델링된 네트워크입니다. 인공뉴런은 노드라고 하며, 여러 레이어로 클러스터화 되고 병렬로 작동합니다. 인공뉴런은 숫자로 된 신호를 수신하면 이를 처리하고 해당 뉴런과 연결된 다른 뉴런에 신호를 보냅니다. 사람의 뇌와 마찬가지로, 신경 강화를 통해 패턴 인식, 전문지식, 전반적인 학습을 개선합니다.

 

딥 러닝이란?

 

이 유형의 머신러닝에 '딥'이란 표현을 쓰는 이유는 여러 신경망 레이어와 복잡하고 이질적이며 대량의 데이터를 포함하기 때문입니다. 시스템은 딥러닝을 수행하기 위해 네트워크의 여러 레이어와 상호작용해 상위 수준의 결과값을 추출합니다. 예를 들어 자연 이미지를 처리하고 글로리오사 데이지를 찾는 딥러닝 시스템은 첫 번째 레이어에서 식물을 인식합니다. 여러 신경 레이어를 이동하면서 꽃과 데이지, 마지막으로 글로리오사 데이지를 인식합니다. 딥러닝 애플리케이션의 예로는 음성 인식, 이미지 분류, 약품 분석 등이 있습니다.

머신러닝의 작동 방식

머신러닝은 다양한 알고리즘 기법을 적용하는 여러 유형의 머신러닝 모델로 구성됩니다. 데이터의 특성과 원하는 결과에 따라 지도, 비지도, 준지도, 강화 등 네 가지 학습모델 중 하나를 적용할 수 있습니다. 사용 중인 데이터 세트와 원하는 결과에 따라 각 모델 내에서 하나 이상의 알고리즘 기법을 적용할 수 있습니다. 머신러닝 알고리즘은 기본적으로 사물 분류, 패턴 발견, 결과 예측, 정보 기반 의사결정 등을 수행하도록 설계됩니다. 알고리즘은 하나씩 사용할 수도 있고 복잡하고 보다 예측 불가능한 데이터가 포함된 경우에는 정확도를 극대화하기 위해 여러 알고리즘을 결합할 수도 있습니다. 

머신러닝의 작동 방식을 보여주는 다이어그램

머신러닝 프로세스 작동 방식

지도형 학습이란?

 

네 가지 머신 러닝모델 중 첫 번째는 지도형 학습입니다. 지도형 학습 알고리즘에서는 예시를 통해 머신을 훈련합니다. 지도형 학습 모델은 '입력', '출력' 데이터 쌍으로 구성되며, 원하는 값으로 출력 레이블을 지정할 수 있습니다. 예를 들어 머신을 데이지꽃과 팬지꽃의 차이를 식별할 수 있도록 훈련하려고 합니다. 하나의 이진 입력 데이터 쌍에는 데이지꽃의 이미지와 팬지꽃의 이미지가 모두 포함됩니다. 해당 특정 쌍에 원하는 결과는 데이지꽃을 선택하는 것이기 때문에, 이것이 올바른 결과로서 사전 식별됩니다.

 

시스템은 알고리즘을 통해 시간에 따라 이 훈련 데이터를 모두 컴파일한 다음 상관관계가 있는 유사성, 차이점, 기타 논리 지점을 결정하기 시작하며, 이 작업은 데이지꽃인지 팬지꽃인지 묻는 질문에 대한 답을 스스로 예측할 수 있을 때까지 계속됩니다. 이는 어린 아이에게 일련의 문제를 정답 키와 함께 준 다음, 그들이 한 작업을 보여주고 논리를 설명하도록 하는 것과 같습니다. 지도형 학습 모델은 제품 추천 엔진이나 교통량 분석 앱(예: 하루 중 다른 시간대에 가장 빠른 이동 경로를 예측하는 Waze) 등 일상생활의 다양한 분야에서 사용됩니다.

 

비지도 학습이란?

 

네 가지 머신러닝 모델 중 두 번째는 비지도 학습입니다. 비지도 학습 모델에는 정답 키가 없습니다. 머신이 입력 데이터(대부분 레이블이 없는 비정형 데이터)를 학습한 다음 관련성이 있고 액세스 가능한 데이터를 모두 사용해 패턴과 상관관계를 인식하기 시작합니다. 비지도 학습은 사람이 세상을 관찰하는 방식을 기반으로 다양하게 모델링됩니다. 사람은 직관과 경험에 의존해 사물을 그룹화합니다. 어떤 사물에 대해 경험하는 예시의 수가 많을수록 그것을 분류하고 인식하는 능력이 더욱더 정확해집니다. 머신에 있어서 '경험'은 '이용 가능한 입력 데이터의 양'입니다. 비지도 학습 모델이 사용되는 대표적인 예는 안면 인식, 유전자 서열 분석, 시장 조사, 사이버 보안 등입니다.

 

준지도 학습이란?

 

네 가지 머신러닝 모델 중 세 번째는 준지도 학습입니다. 모든 데이터가 시스템에 입력되기 전에 정형화되고 레이블이 지정되어 있다면 더할 나위 없이 완벽할 것입니다. 그러나 실제에서는 이러한 일이 불가능하기 때문에, 대량의 원시 비정형 데이터를 처리해야 하는 경우 준지도 학습은 유효한 해결책이 될 수 있습니다. 이 모델은 소량의 레이블이 지정된 데이터를 입력해 레이블이 없는 데이터 세트를 증강합니다. 이 모델의 핵심은 레이블이 지정된 데이터를 통해 시스템이 학습을 시작하게 하며, 학습 속도와 정확성을 상당한 수준으로 개선하도록 하는 것입니다. 준지도 학습 알고리즘은 레이블이 지정된 데이터를 분석해 레이블이 없는 데이터에 적용 가능한 상관관계가 있는 속성을 찾도록 머신을 훈련합니다.

 

그러나 이 모델에는 이 MIT 대학출판사 보고서에서 자세히 다룬 것과 같이 시스템이 레이블이 지정된 데이터에 포함된 결함까지 학습해 복제할 위험이 있습니다. 준지도 학습을 가장 성공적으로 활용하는 회사에서는 선진사례 프로토콜을 구축하고 있습니다. 준지도 학습은 음성 및 언어 분석, 복잡한 의료 연구(예: 단백질 분류), 상위레벨 부정행위 감지에 사용됩니다.

 

강화학습이란?

 

네 가지 머신러닝 모델 중 마지막 모델은 강화학습입니다. 지도형 학습에서는 머신에 정답 키를 제공해 모든 올바른 결과 중에서 상관관계를 찾아 학습하도록 합니다. 강화학습 모델에서는 정답 키는 제공되지 않지만 일련의 허용 가능한 행동, 규칙, 잠재적 최종 상태가 입력됩니다. 알고리즘의 원하는 목표가 고정되어 있거나 양자택일인 경우 머신은 예시를 통해 학습할 수 있습니다. 그러나 원하는 목표가 변동 가능한 경우에는 경험과 보상을 통해 학습해야 합니다. 강화학습 모델에서 '보상'은 숫자이며, 시스템에서 수집하려는 항목으로 알고리즘에 프로그래밍됩니다.

 

이 모델은 여러 면에서 사람에게 체스 게임을 하는 법을 가르치는 것과 유사합니다. 체스 말이 이동할 수 있는 경우를 모두 보여주는 것은 불가능하며, 그 대신 규칙을 설명해주고 연습을 통해 기술을 습득하도록 합니다. 보상은 게임을 이기는 것뿐 아니라 상대방의 말을 획득하는 형태로 이루어집니다. 강화학습 적용 분야에는 온라인 광고 구매자의 자동 가격 입찰, 컴퓨터 게임 개발, 고위험 주식 시장 거래 등이 있습니다.

엔터프라이즈 머신러닝의 실제

머신러닝 알고리즘은 패턴과 상관관계를 인식합니다. 즉 자체 ROI 분석을 매우 잘한다는 뜻입니다. 머신러닝 기술에 투자하는 회사에서는 이 기능을 활용해 운영상의 파급효과를 거의 실시간으로 평가할 수 있습니다. 다음은 확산일로에 있는 기업의 머신러닝 적용 영역 중 몇 가지 예시입니다.

  • 추천 엔진: 2009년부터 2017년 사이에 동영상 스트리밍 서비스를 구독하는 미국 가구 수는 450% 증가했습니다. 또한 포브스지의 2020년 기사에 따르면 동영상 스트리밍 사용 수치가 70%까지 급증했습니다. 추천 엔진은 다양한 소매 및 쇼핑 플랫폼에서 사용되지만, 음악 및 동영상 스트리밍­ 서비스에서 두각을 나타내고 있습니다.
  • 역동적 마케팅: 리드를 창출하고 이들을 판매 경로로 유도하려면 가능한 한 많은 양의 고객 데이터를 수집하고 분석할 수 있어야 합니다. 현대의 소비자는 채팅 기록, 이미지 업로드 등 다양한 비정형 데이터를 대량으로 생성합니다. 마케팅 담당자는 머신러닝 애플리케이션을 사용해 이러한 데이터를 이해하고, 이를 바탕으로 맞춤화된 마케팅 콘텐츠와 고객 및 영업 리드와의 실시간 상호작용을 제공할 수 있습니다.
  • ERP 및 프로세스 자동화: ERP 데이터베이스에는 판매 실적 통계, 소비자 리뷰, 시장 동향 보고서, 공급망 관리 레코드 등 광범위하고 이질적인 데이터 세트가 포함되어 있습니다. 머신러닝 알고리즘을 적용하면 이러한 데이터에서 상관관계와 패턴을 찾고, 확보한 인사이트로 거의 모든 비즈니스 영역에 정보를 제공할 수 있습니다. 네트워크 내 사물인터넷(IoT) 기기의 워크플로 최적화, 반복적이거나 오류가 잦은 업무 자동화를 위한 최선책 찾기 등입니다.
  • 예지 정비: 오늘날의 공급망과 스마트 공장에서는 모든 플릿(트럭 등 운송수단)과 운영에서 IoT 기기와 머신, 클라우드 연결을 활용하는 비율이 점점 더 높아지고 있습니다. 고장과 비효율로 막대한 비용과 운영 중단이 발생할 수 있습니다. 유지보수 및 수리 데이터를 수작업으로 수집한다면 잠재적 문제를 예측하고 예방하기가 거의 불가능하며, 예측과 예방 프로세스의 자동화는 먼 얘기일 뿐입니다. 수십 년 된 아날로그 방식 머신에도 IoT 게이트웨이 센서를 장착해 비즈니스 전반에 가시성과 효율성을 제공할 수 있습니다.
placeholder

지금 시작하기

AI, 머신러닝 등 SAP 지능형 기술의 실제 적용 사례를 살펴보세요.

머신러닝 관련 해결 과제

하버드 출신 데이터 과학자 타일러 비건(Tyler Vigan)은 자신의 책 허구적 상관(Spurious Correlations)에서 '모든 상관관계가 기저에 인과관계가 있음을 의미하지는 않는다'고 지적했습니다. 그는 이 점을 보여주기 위해 메인주에서 마가린 소비와 이혼율 간에 눈에 띄게 강력한 상관관계가 있음을 나타내는 차트를 넣었습니다. 물론 이 차트는 흥미를 유발하려는 목적으로 사용된 것입니다. 그러나 이 문제를 진지하게 바라보면, 머신러닝 애플리케이션은 사람과 알고리즘의 편향성과 오류 모두에 취약함을 알 수 있습니다. 학습하고 적용하려는 머신러닝의 성향으로 인해, 오류와 거짓 상관관계가 빠르게 전파되어 신경망 전반에 걸쳐 결과를 왜곡할 수 있습니다.

 

또 다른 과제는 머신러닝 모델입니다. 알고리즘과 출력물이 너무 복잡해서 사람이 설명하거나 이해할 수 없을 정도입니다. 이는 '블랙박스' 모델로 불리며 알고리즘이 특정 결론이나 결정에 도달한 방식과 이유를 판별할 수 없는 경우 회사에 리스크가 발생합니다.

 

다행히 데이터 세트와 머신러닝 알고리즘의 복잡성 증가에 맞춰 리스크를 관리할 도구와 리소스도 다양해지고 있습니다. 최고의 기업에서는 강력한 최신 AI 거버넌스 가이드라인과 선진사례 프로토콜을 구축해 오류와 편향을 제거하고자 노력 중입니다.

머신러닝에 관해 자주 묻는 질문

머신러닝은 AI의 하위집합으로, AI 없이는 존재할 수 없습니다. AI는 의사결정과 예측을 수행하기 위해 데이터를 사용하고 처리합니다. AI는 컴퓨터 기반 시스템의 두뇌이자 머신의 '지능'입니다. 시스템은 AI 및 기타 AI 지원 앱 내의 머신러닝 알고리즘으로 데이터를 처리할 뿐 아니라, 추가 프로그래밍할 필요 없이 데이터를 사용해 작업을 실행, 예측, 학습하며 지능화합니다. 머신러닝 알고리즘은 해당 인텔리전스와 데이터로 AI에 목표 지향적인 과제를 제공합니다.

예. 하지만 IT 업그레이드 차원뿐 아니라 비즈니스 전반의 과제로 접근해야 합니다. 디지털 전환 프로젝트로 최상의 성과를 거둔 회사들은 기존 리소스와 기술 세트를 엄격하게 평가하고 최적의 기반 시스템을 구비한 후에 프로젝트를 시작했습니다.

데이터 과학은 머신러닝에 비해 하위집합입니다. 데이터 과학은 통계와 알고리즘에 초점을 맞추고 회귀 및 분류 기법을 적용하며 결과를 해석하고 전달합니다.  머신러닝은 프로그래밍, 자동화, 확장, 결과의 반영 및 웨어하우징에 초점을 맞춥니다.

머신러닝은 패턴과 상관관계를 찾고 이를 통해 학습하며 시간이 갈수록 최적화됩니다. 데이터 마이닝은 머신러닝의 정보 소스로 사용됩니다. 데이터 마이닝 기법에는 복잡한 알고리즘이 적용되어 머신러닝 애플리케이션에 더 체계적으로 구성된 데이터 세트를 제공할 수 있습니다.

인공신경망과 연결된 뉴런은 '노드'라고 하며, 여러 레이어로 서로 연결되어 있고 클러스터화됩니다. 노드는 숫자로 된 신호를 수신하면 병렬로 작동하는 다른 관련 뉴런에 신호를 보냅니다. 딥러닝에서는 신경망을 사용합니다. '딥'이란 표현을 쓰는 이유는 매우 대량의 데이터를 사용하며, 신경망 내에서 여러 레이어와 동시에 상호작용하기 때문입니다.

머신러닝은 여러 학습 모델, 기법, 기술의 혼합체로, 통계도 포함될 수 있습니다. 통계 자체는 데이터를 사용해 예측을 수행하고 분석 모델을 개발하는 데 초점을 맞춥니다.

SAP Insights 뉴스레터

placeholder
지금 바로 구독

뉴스레터를 구독하고 중요한 인사이트를 얻으세요.

추가 자료

맨 위로