コンテンツにスキップする
自動車を識別する機械学習

機械学習とは?

機械学習は、人工知能 (AI) の一部です。明示的にプログラミングするのではなく、データから学習し、経験を通じて改良されるコンピューターのトレーニングに重点が置かれます。機械学習では、大量のデータセットからパターンと相関関係を発見し、分析に基づいて最適な決定と予測を行うようアルゴリズムをトレーニングします。機械学習アプリケーションは、使用によって改良が進むため、より多くのデータにアクセスするほど精度が高まります。機械学習の用途は、家庭、ショッピングカート、エンターテイメント、医療など、身の回りに溢れています。

機械学習について

機械学習と AI の関係

機械学習と、その構成要素であるディープラーニングおよびニューラルネットワークは、AI の中心に位置するサブセットになります。AI は、処理したデータに基づいて決定と予測を行います。AI は、機械学習アルゴリズムによって、データを処理するだけでなく、データを使った学習を通じて、プログラミングをまったく追加する必要なく判断能力を高めていきます。人工知能は、機械学習のサブセット全体に対する親になります。その下の最初のサブセット内にあるのが機械学習であり、その中にあるのがディープラーニング、さらにその中にあるのがニューラルネットワークです。

AI と機械学習の関係図

AI と機械学習の関係を表す図

ニューラルネットワークとは

 

人工ニューラルネットワーク (ANN) は、生物の脳にあるニューロン(神経細胞)に基づいてモデル化されています。ノードと呼ばれる人工ニューロンは、複数のレイヤーにグループ化されており、並行して処理を行います。人工ニューロンは数値信号を受け取って、これを処理し、接続している別のニューロンに信号を送ります。人間の脳内と同じく、神経の強化により、パターン認識、専門知識、学習全般の能力が向上します。

 

ディープラーニングとは

 

この種の機械学習が「ディープ(深層)」と呼ばれるのは、多数のレイヤーで構成されるニューラルネットワークと、複雑で種類の異なる大量のデータを使用するからです。ディープラーニングを実現するために、システムはネットワーク内の複数のレイヤーとやり取りしながら、より高いレベルのアウトプットを次々に引き出していきます。例えば、自然の画像を処理しながらグロリオサデイジーを探しているディープラーニングシステムは、最初のレイヤーで植物を認識します。ニューラルレイヤーを移動しながら、次に花を識別し、その次にデイジー、最後にグロリオサデイジーを識別します。ディープラーニングの用途には、音声認識、画像分類、製剤分析などがあります。

機械学習の仕組み

機械学習には、さまざまなアルゴリズム技法を使用する、多様な種類の機械学習モデルがあります。データの特性と求める結果によって、4 つの学習モデルとして、教師あり学習、教師なし学習、半教師あり学習、強化学習のいずれかが適用されます。それぞれのモデルにおいて、使用されるデータセットや意図する結果次第で、1 つまたは複数のアルゴリズム技法が適用される場合があります。機械学習アルゴリズムは基本的に、分類、パターンの発見、結果の予測、情報を活用した決定を行う設計になっています。一度に 1 つのアルゴリズムを使用するか、複雑でより予測が難しいデータを使用する場合は、精度をできるだけ高めるために複数のアルゴリズムを組み合わせて使用します。 

機械学習プロセスの仕組み

イラスト:機械学習の仕組みを表す図

教師あり学習とは

 

教師あり学習とは、4 つあるうちの第 1 の機械学習モデルです。教師あり学習のアルゴリズムでは、例に基づいて機械学習が行われます。教師あり学習モデルは、「入力」データと「出力」データのペアから構成され、出力は求められる価値によってラベル付けされます。例えば、「機械がデイジーとパンジーの違いを見分ける」という目的があるとします。1 組の二元的な入力データには、デイジーの画像とパンジーの画像が用意されています。この特定のペアに対して求められる結果はデイジーを選ぶことなので、デイジーは正しい結果としてあらかじめ特定されます。

 

アルゴリズムを通じて、システムはこのトレーニングデータすべてを徐々に集めていき、相関する類似点、相違点、その他の論理的なポイントを判断し始めます。これを、デイジーかパンジーかの質問に対してシステムが独力で回答を予測できるまで続けます。一連の問題に解答集を添えて子供に与え、成果を示してその論理を説明するように子供に求めるのと同じです。教師あり学習モデルは、私たちが日常やり取りするアプリケーションの多くで利用されています。製品のレコメンデーションエンジンや、Waze のように、1 日のうちの異なる時間帯で最速のルートを予測するトラフィック分析アプリなどがその例です。

 

教師なし学習とは

 

教師なし学習は、4 つあるうちの第 2 の機械学習モデルです。教師なし学習モデルの場合、解答集はありません。機械は、入力データを学習しますが、その多くはラベルもなく、構造化もされていません。そこで、関連性のある、アクセス可能なデータを使用して、パターンや相関関係の識別を始めます。いろいろな意味で、教師なし学習は、人間が世の中を観察するのと同じようにモデル化されています。私たちは、直観と経験を利用して物事をグループ化します。何かの例に対して経験を積めば積むほど、その対象を分類して識別する能力は精度を増していきます。機械の場合、「経験」は、入力され利用可能なデータの量によって定義されます。教師なし学習の一般的な用途例としては、顔認証、遺伝子配列の分析、市場調査、サイバーセキュリティなどが挙げられます。

 

半教師あり学習とは

 

半教師あり学習は、4 つあるうちの第 3 の機械学習モデルです。すべてのデータは、システムに入力される前に構造化され、ラベル付けされているのが理想です。しかし、それは通常実現不可能なので、半教師あり学習は、生の非構造化データが大量に存在する場合の有効なソリューションになります。このモデルでは、ラベル付けされた少量のデータを入力して、ラベル付けされていないデータセットを拡張します。基本的に、ラベル付けされたデータは、システムを助走させる役割を果たし、学習スピードと精度を著しく向上させることができます。半教師あり学習アルゴリズムは、ラベル付きデータの相関性を分析し、ラベル付けされていないデータに適用するように機械に指示します。

 

ただし、こちらの MIT Press の論文で詳しく説明されているように、このモデルでは、ラベル付けされたデータの欠陥もシステムが学習し、複製してしまうというリスクが存在します。半教師あり学習をうまく利用する企業では、ベストプラクティスのプロトコルが整っています。半教師あり学習は、音声や言語の分析、タンパク質の分類などの複雑な医学研究、高度な不正検出に利用されます。

 

強化学習とは

 

強化学習は、第 4 の機械学習モデルです。教師あり学習では、機械に解答集を与え、正しい結果の中から相関関係を見つけることで学習させました。強化学習モデルでは、解答集ではなく、許容されるアクション、ルール、想定される終了状態のセットを入力します。アルゴリズムの目的が固定されているか二元的である場合、機械は例から学習できます。しかし、求められる結果が変化する場合、システムは経験や報酬から学習する必要があります。強化学習モデルでは、「報酬」が数値で表され、システムが報酬を集めようとするようにアルゴリズムに組み込まれます。

 

いろいろな意味で、このモデルはチェスの遊び方を教えるのに似ています。想定される動きをすべて見せようとしても不可能です。その代わり、ルールを説明すれば練習を通じてスキルを高めることができます。報酬は、ゲームに勝つことだけでなく、対戦相手から駒を獲得することでも得られます。強化学習の用途には、インターネット広告の購入者向け自動価格入札、コンピューターゲーム開発、ハイリスクな証券市場取引などがあります。

エンタープライズ・マシンラーニングの活用例

機械学習アルゴリズムは、パターンと相関関係を認識します。つまり、このアルゴリズムは、特定の関心領域を分析するのに長けています。機械学習テクノロジーに投資する企業は、この機能を利用して、ほとんど瞬時に業務上のインパクトを評価することができます。以下、エンタープライズ・マシンラーニングの用途のうち、成長分野における一部事例をご紹介します。

今すぐご検討ください

AI や機械学習の活用例など、SAP のインテリジェントテクノロジーをご覧ください

  • レコメンデーションエンジン:米国で 2009 年から 2017 年までの間に家庭からビデオストリーミングサービスを申し込んだ件数は、450% 上昇しました。また、Forbes 誌の 2020 年の記事によると、ビデオストリーミングの利用量が最大 70% 急増していることが報じられています。レコメンデーションエンジンは、リテールプラットフォームとショッピングプラットフォームで幅広く利用されていますが、何と言っても音楽とビデオのストリーミングサービスが群を抜いています。
  • 動的マーケティング:リードを生成し、そのリードをセールスファネルに引き込むには、できるだけ多くの顧客データを集めて分析する能力が必要です。最近の消費者は、チャットの入力から画像のアップロードにいたるまで、膨大な量の多様な非構造化データを生み出しています。マーケティング担当者が機械学習アプリケーションを利用すると、このようなデータを理解して活用できるようになり、マーケティングコンテンツをパーソナライズしたり、リアルタイムに顧客やリードに対応できるようになります。
  • ERP とプロセスの自動化:ERP データベースには、さまざまな種類の幅広いデータセットが用意されており、販売実績の統計、消費者のレビュー、市場トレンドのレポート、サプライチェーンの管理記録などが含まれます。機械学習アルゴリズムを使用すると、このようなデータの相関関係とパターンを発見することができます。次に、得られた知見を使用し、ネットワーク内の IoT(モノのインターネット)デバイスのワークフローや、単純作業やエラーが発生しやすい作業を自動化する方法を最適化するなど、事実上あらゆるビジネス領域に情報を提供します。
  • 予防保全:最新のサプライチェーンとスマートファクトリーでは、保有車両管理やオペレーション全体で、IoT デバイス/機器やクラウドを活用する機会が増えています。故障の発生や非効率な運用は、膨大なコストと混乱を招く恐れがあります。保全や修理のデータを手作業で収集している場合、潜在的な問題を予測するのはほとんど不可能です。まして、問題を予測して保全するプロセスを自動化するなどあり得ません。そこで IoT ゲートウェイセンサーを利用すれば、何十年も稼動しているアナログの機械にも取り付けられるので、企業全体にわたる可視性と効率性を実現できます。

機械学習の課題

データサイエンティストであり、当時ハーバード大学の大学院生だったタイラー・ビゲン (Tyler Vigan) 氏は、その著書「Spurious Correlations(疑似相関)」の中で、「すべての相関関係が背後にある因果関係を示しているわけではない」と述べています。ビゲン氏はこのことを説明するために、マーガリンの消費量とメイン州の離婚率との間に強い相関があるように見えるグラフを示しました。このグラフを用いたのはもちろん、ユーモアを交えて説明するためです。しかし、もっと真面目な見方をすれば、機械学習アプリケーションは、人間およびアルゴリズム双方のバイアスやエラーから影響を受けやすいということです。このような傾向があるため、エラーや疑似的な相関関係を学習して適応すると、ニューラルネットワーク全体にすばやく広がり、誤った結果を導いてしまいます。

 

機械学習モデルにはさらなる課題が生まれています。このモデルではアルゴリズムやアウトプットが複雑すぎて、人間には説明したり理解したりすることができません。これが「ブラックボックス」モデルと呼ばれる所以であり、アルゴリズムがなぜ、どのように特定の結論や決定に至ったかを自分たちで判別できないことに気付いた時には、企業はすでに危険にさらされています。

 

幸い、データセットや機械学習アルゴリズムの複雑さが増すと同時に、リスク管理に使用されるツールやリソースも高度になっています。優れた企業は、しっかりとした最新の AI ガバナンスガイドラインやベストプラクティスのプロトコルを定めて、エラーやバイアスを取り除こうと努めています。

機械学習を最大限に活用する

早期導入企業の足跡から 5 つの教訓を学びましょう

機械学習に関する FAQ (よくある質問)

機械学習は AI の一部であり、AI がなければ存在できません。AI は、データを使用したり処理したりして決定と予測を行うコンピューターベースのシステムの頭脳であり、機械によって示される「インテリジェンス」です。AI を活用するその他のアプリと同様、システムは、AI 内の機械学習アルゴリズムを利用して、データを処理するだけでなく、プログラミングを追加する必要なく、データを使用して作業を実行、予測、学習して、判断能力を高めます。機械学習アルゴリズムは、インテリジェンスとデータをフル活用する、目的志向型の優れた機能を AI に提供します。

はい。ただし、単なる IT のアップグレードではなく、企業全体の取り組みとしてアプローチする必要があります。デジタルトランスフォーメーションプロジェクトで最高の結果を出している企業は、既存のリソースやスキルセットをしっかりと評価し、プロジェクトを開始する前に適切な基盤システムを整えています。

機械学習と比較すると、データサイエンスは、機械学習の一部という位置づけになります。統計とアルゴリズムに焦点を当て、回帰と分類の技法を使用し、結果を解釈して伝えます。機械学習は、プログラミング、自動化、スケーリング、結果の組み込みと蓄積に焦点を当てます。

機械学習は、パターンと相関関係に注目し、そこから学習を続けながら能力を最適化していきます。データマイニングは、機械学習の情報源として使用されます。データマイニング技法は複雑なアルゴリズムを使用して、より適切に編成されたデータセットを機械学習アプリケーションに提供できるようにします。

人工ニューラルネットワークと接続されたニューロンはノードと呼ばれ、レイヤー内でつながり、クラスター化されます。ノードが数値信号を受け取ると、その他の関連するニューロンに信号を送り、各ニューロンは並行して処理を行います。ディープラーニングはニューラルネットワークを利用する「ディープ」な仕組みです。大量のデータを使用し、ニューラルネットワーク内の複数のレイヤーと同時にやり取りをします。 

機械学習は、いくつかの学習モデルや技法、技術を混合したもので、統計が含まれる場合もあります。統計自体は、データを使用して予測を行い、分析モデルを作成することに焦点が当たっています。

SAP Insights ニュースレター

今すぐ購読

ニュースレターを購読して、重要なインサイトを手に入れましょう。

イノベーションに関する記事

先頭に戻る