データマイニングとは?
データマイニングとは、高度な分析ツールを使用して蓄積されたデータから有用な情報を抽出するプロセスです。
データマイニングの概要
データマイニングは、データウェアハウスやデータクラウドに蓄積された大量のデータから、有用なパターンや知見を抽出し、意思決定に活用する手法です。ツールには統計解析やアナリティクス機能が備わっており、傾向や関係性の発見を支援します。
データマイニングはマーケティング部門の問い合わせに関連することが多く、多くの経営幹部は、需要に対する理解を深め、製品、価格設定、プロモーションの変化が売上に与える影響を把握するのに役立つ方法だと考えています。しかし、データマイニングは他のビジネス分野にも大きなメリットをもたらします。エンジニアや設計者は、製品変更の有効性を分析し、製品の使用方法/時/場所に関連して、製品の成功失敗を左右しそうな原因を探すことができます。サービスや修理業務では、部品の在庫や要員配置をより適切に計画することができます。プロフェッショナルサービスの組織は、データマイニングを使用して、変化する経済動向や人口動態の変化から新たな機会を特定することができます。
データマイニングは、データセットが大きくなればなるほど、ユーザーエクスペリエンスが向上すればするほど、より有用で価値のあるものになります。論理的には、データが多ければ多いほど、より多くのインサイトやインテリジェンスがそこに埋もれているはずです。また、ユーザーがツールに慣れ、データベースをより深く理解すればするほど、より創造的な探索や分析ができるようになります。
データマイニングを使用する理由
データマイニングの主な利点は、複数のソースからの大量のデータ内で、パターンや関係性を特定することができることです。ソーシャルメディア、リモートセンサー、商品の動きや市場活動に関する詳細なレポートなど、さまざまなソースからより多くのデータが利用可能になる中、データマイニングは、ビッグデータを最大限に活用し、実用的なインテリジェンスに変えることができるツールを提供します。さらに、「既成概念にとらわれない発想」を生み出すメカニズムとしても機能します。
データマイニングプロセスでは、一見すると関連のない情報の中に、予想外の興味深い関係性やパターンを見つけることができます。情報は区分化される傾向があるため、これまでは全体を分析することが困難だったり、不可能だったりしました。しかし、外部要因(人口統計学的要因や経済的要因など)と企業の製品パフォーマンスとの間には関係がある場合もあります。経営幹部は、販売区域、製品ライン、流通チャネル、地域別の売上高を定期的に調べていますが、この情報に関する外部コンテキストが不足していることがよくあります。経営幹部の分析では「何が起こったのか」は指摘されますが、「なぜこうなったのか」が明らかにされることはほとんどありません。データマイニングにより、このギャップを埋めることができます。
データマイニングでは、外部要因との相関関係を調べることができます。相関関係は必ずしも因果関係を示すわけではありませんが、これらの傾向は、製品、チャネル、生産の決定を導くための貴重な指標となり得ます。同じ分析が、製品設計から運用効率、サービス提供に至るまで、ビジネスの他の領域にもメリットをもたらします。
データマイニングの歴史
人々は何千年にもわたって、データの収集や分析を行ってきていますが、多くの点でそのプロセスは変わっていません。必要な情報を特定し、質の高いデータソースを見つけ、データを収集して組み合わせ、最も効果的なツールを使用してデータを分析し、学んだことを活用するのです。コンピューティングシステムやデータベースシステムが成長/進化するにつれ、データ管理や分析のためのツールも進化しました。真の転換点は、リレーショナルデータベーステクノロジーと、Structured Query Language (SQL) のようなユーザー指向の自然言語クエリツールが開発された 1960 年代に訪れました。もはやデータは、カスタムコード化されたプログラムを通してのみ利用されるものではなくなりました。この画期的な進歩により、ビジネスユーザーはデータをインタラクティブに探索し、その中に埋もれている隠れたインテリジェンスの宝石を引き出すことができるようになりました。
データマイニングは、従来、データサイエンスの中でも専門的なスキルセットでした。しかし、新世代の分析ツールはどれも、最初こそ高度な技術的スキルを必要とするものの、すぐにユーザーにとって利用しやすいものへと進化しています。対話性、つまりデータに語らせる力こそが重要な進歩なのです。質問をして、その答えを見ます。学んだことをもとに、また質問をします。このようなデータを介した非構造化ローミングにより、ユーザーはアプリケーション固有のデータベース設計の範囲を超え、機能や組織の境界を越えた関係を発見することができます。
データマイニングは、ビジネスインテリジェンスの主要コンポーネントです。データマイニングツールはエグゼクティブダッシュボードに組み込まれており、ソーシャルメディア、モノのインターネット (IoT) センサーフィード、位置認識デバイス、非構造化テキスト、ビデオなどのデータを含むビッグデータからインサイトを得ることができます。最新のデータマイニングでは、クラウド、仮想コンピューティング、インメモリーデータベースを利用して、多くのソースからのデータをコスト効率よく管理し、オンデマンドで拡張します。
データマイニングの仕組み
データマイニングには、データマイニング技術者の数と同じくらい多くのアプローチがあります。アプローチは、質問の種類や、検索と分析の原材料を提供するデータベースまたはデータセットの内容や構成によって異なります。とはいえ、データ、ツール、ユーザーを準備するには、組織としていくつかの準備段階を完了させておく必要があります。
- 問題を理解する ‑ 少なくとも調査対象分野を理解。このデータマイニングのオフロードアドベンチャーの主導権を握るべきビジネス上の意思決定者は、作業することになるドメイン、つまりこの探索の一部となる内部/外部データの種類について、全般的な知識を身に着けておかねばなりません。ビジネスや関連する機能領域について深い知識を持っていることが前提とされます。
- データを収集する。内部システムとデータベースから開始します。データモデルやさまざまなリレーショナルツールを使用してリンクするか、データをデータウェアハウスに集めます。これには、フィールドセールスやサービスデータ、IoT、ソーシャルメディアデータなど、業務の一部となる外部ソースからのデータが含まれます。人口統計、経済データ、業界動向や財務ベンチマークなどの市場情報といった外部データに対する権利を業界団体や政府から探し、取得します。それらをツールキットの範囲内に取り込みます(データウェアハウスに取り込むか、データマイニング環境にリンクします)。
- データを準備し、理解する。企業内の分野別エキスパートの力を借りて、データの定義、分類、整理を行います。このプロセスの部分は、データラングリングまたはデータマンジングと呼ばれることもあります。データによっては、重複、不整合、不完全なレコード、または古い形式を削除するためにクリーニングまたは「クレンジング」が必要になる場合があります。新しいプロジェクトや新しい調査対象分野のデータが注目されるようになると、データの準備やクレンジングが継続的なタスクになる場合があります。
- ユーザートレーニング。免許を持つ運転手の監督下で練習させることなく、10 代の子供に家族のフェラーリの鍵を渡す人はいないでしょう。ですから、将来のデータマイニング技術者には、正式なトレーニングを提供するだけでなく、これらの強力なツールに慣れるため、監督下での実践を積ませることが重要になります。基本をマスターし、より高度な技術に進むことができるようになったら、継続的な教育を行うのも良いでしょう。
データマイニングの手法
データマイニングは、決まった定型業務やプロセスではなく、ツールキットに基づいていることに留意してください。組織はツールを使用して、傾向、相関関係、インテリジェンス、ビジネスインサイトを見つけるべく、データを探索しています。ここに挙げた特定のデータマイニング手法は、ツール使用方法の例に過ぎません。
一般的に、データマイニングアプローチは、特定の目的の結果に焦点を当てる有向型と、発見プロセスのような無向型に分類できます。その他の探索は、業界、製品、規模、場所などのビジネス属性に従って見込み顧客をグループ化するなど、データのソートや分類を目的とする場合もあります。同様の目的である外れ値または異常値の検出は、識別可能なパターンを示すデータセット内の(単純な変動ではなく)実際の異常を自動的に認識する方法です。
アソシエーション
もう 1 つの興味深い目標はアソシエーションです。つまり、一見無関係に見える 2 つのイベントまたはアクティビティを結び付けることです。アナリティクスとデータマイニングの初期の古典的な話(おそらく架空のものですが)に、コンビニチェーンがビールとおむつの売上に相関関係があることを発見したというものがあります。夜遅くにおむつを買いに来た新米パパたちが、そのついでに 6 本パックのビールを手に取るかもしれないと推測し、ビールとおむつを近くに置いたところ、結果として店舗のビールの売上が増加したというものです。
クラスタリング
このアプローチは、事前定義された仮設ではなく、類似度によってデータをグループ化することを目的としています。例えば、顧客の販売情報を外部の消費者信用データや人口統計データと組み合わせてマイニングすると、最も収益性の高い顧客が中規模都市の顧客であることがわかる場合があります。 多くの場合、データマイニングは予測をサポートするために行われます。パターンや行動をより深く理解すればするほど、因果関係や相関関係に関連する将来の行動をより正確に予測できるようになります。
回帰
回帰分析はデータマイニングツールキットで提供される数学的手法の 1 つで、将来を予測する過去のパターンから数値を予測します。その他のさまざまなパターン検出や追跡アルゴリズムは、データとそれが表す行動をユーザーがより良く理解できる柔軟なツールを提供します。 これらは、データマイニングツールキットで利用可能な手法とツールのほんの一部です。ツールや手法の選択は、質問の投げかけ方に応じて手法が適用されるため、ある程度自動化されています。以前は、データマイニングはデータベースの「スライス & ダイス」と呼ばれていましたが、現在ではより洗練され、アソシエーション、クラスタリング、回帰などの用語が一般的になっています。
ユースケースと事例の紹介
データマイニングは、センチメント分析、価格最適化、データベースマーケティング、信用リスク管理、トレーニングとサポート、不正検知、ヘルスケアと医療診断、リスク評価、推奨システム(「これを購入されたお客様は、こちらの商品も気に入っています...」)など、多くの分野で重要な役割を果たしています。また、小売、商社・卸業界、サービス産業、通信、通信、保険、教育、製造、医療、銀行、科学、エンジニアリング、オンラインマーケティング、ソーシャルメディアなど、あらゆる業界で効果的なツールになる可能性があります。
製品開発:物理的な製品を設計、製造、流通する企業は、経済データや人口統計データと組み合わせて購買パターンを分析することで、製品をより適切にターゲットする機会を特定できます。設計者とエンジニアは、顧客やユーザーのフィードバック、修理レコード、その他のデータを相互参照して、製品改善の機会を特定することもできます。
製造:製造業者は、品質傾向、修理データ、生産率、製品パフォーマンスデータを現場から追跡することで、生産上の懸念事項を特定することができます。また、プロセスアップグレードの可能性を認識できるようにもなり、品質の向上、時間とコストの節約、製品パフォーマンスの向上、工場設備の新規導入や改善を実現できます。
サービス業界:サービス業界では、ユーザーは顧客からのフィードバック(直接またはソーシャルメディアやその他のソースから)を、特定のサービス、チャネル、同業他社のパフォーマンスデータ、地域、価格、人口統計、経済データなどと相互参照することで、製品改善の機会を見つけることができます。
最終的に、これらの結果をすべて予測やプランニングにフィードバックすることで、組織全体が、顧客についてのより深い知識に基づいて、予測される需要の変化に対応し、新たに発見された機会を活用する態勢を整えることができます。
データマイニングの課題
ビッグデータ:データが加速度的に生成されており、データマイニングの機会がかつてないほど増えています。しかし、大量かつ高速で多様なデータ構造や非構造化データの量が増加していることを考慮し、ビッグデータから意味を抽出するには最新のデータマイニングツールが必要です。多くの既存システムは、この大量のインプットを処理し、保存し、活用するのに苦労しています。
ユーザーコンピテンシー:データマイニングと分析ツールは、ユーザーや意思決定者が大量のデータから意味とインサイトを導き出すことができるように設計されています。これらの強力なツールは高度な技術を必要としますが、優れたユーザーエクスペリエンスデザインがパッケージ化されているため、最小限のトレーニングで誰でもこれらのツールを使用することができます。ただし、メリットを十分に得るには、ユーザーは利用可能なデータと求めている情報のビジネスコンテキストを理解しておかねばなりません。また、ツールがどのように機能し、何ができるかを少なくとも大まかに把握しておく必要があります。これは一般的なマネージャーや経営幹部の手に負えないものではありませんが、学習プロセスであるため、ユーザーはこの新しいスキルセットの開発にある程度の努力を払わねばなりません。
データの品質と可用性:大量の新規データがあると、不完全なデータ、不正確なデータ、誤解を招くデータ、不正なデータ、破損したデータ、単に無用なデータも大量に存在します。ツールはこのようなデータを整理するのに役立ちますが、ユーザーはデータソースやその信頼性を常に意識しておかねばなりません。データの取得、データ取得後の管理と処理の両方の面で、プライバシーに関する懸念も重要です。