コンテンツにスキップする

ビッグデータアナリティクスの重要性

ビッグデータの進化

現在では考えられないことですが、アポロ誘導コンピューターは、80 キロバイト未満のメモリーを使って、月面着陸に成功した最初の宇宙船を誘導しました。それ以降、コンピューター技術は指数関数的に成長し、それとともにデータ生成量も増加しました。実際に、世界のデータ保存の技術能力は、1980 年代以降、約 3 年ごとに倍増しています。アポロ 11 号が打ち上げられた 50 年あまり前、全世界で生成されるデジタルデータの量は平均的なノート PC に収まる程度のものでした。IDC 社によれば、現在全世界で生成されているデジタルデータは推定 44 ゼタバイト(44 兆ギガバイト)で、2025 年までには 163 ゼタバイトに達すると推定されています。  

44

ゼタバイト(現在のデジタルデータ量) IDC 社

163

ゼタバイト(2025 年の推定デジタルデータ量) IDC 社

ソフトウェアやテクノロジーの高度化が進むにつれ、非デジタルシステムはさらに通用しなくなるでしょう。デジタルで生成、収集されたデータを処理するために、より高度なデータ管理システムが必要になります。そして、SNS、スマートフォン、コネクテッド IoT デバイスの急激な成長により、現在のビッグデータ時代が始まりました。

構造化データおよび非構造化データとは?

データセットは通常、その構造とインデックス化のシンプル具合によって 3 つの種類に分類されます。

構造化データ

構造化データは、整理と検索が最も簡単です。財務データ、マシンログ、人口統計データなどが含まれます。構造化データを思い浮かべるには、事前定義された列と行で構成されたスプレッドシートが最適です。スプレッドシートの構成要素は分類が容易で、データベースの設計者や管理者は、検索や分析のためのシンプルなアルゴリズムを定義することができます。構造化データの場合、膨大な量であっても、必ずしもビッグデータと見なされるわけではありません。構造化データそれ自体の管理が比較的簡単であるため、ビッグデータの定義基準を満たさないからです。従来、データベースは SQL と呼ばれるプログラミング言語を使用して構造化データを管理していました。SQL は、開発者がその当時人気が出始めていたリレーショナル(スプレッドシート形式)データベースを構築、管理できるようにするために、IBM によって 1970 年代に開発されたものです。  

非構造化データ

非構造化データには、ソーシャルメディアの投稿や音声、画像、自由に記入できる顧客コメントなどが含まれます。このようなデータは、行列形式の標準リレーショナルデータベースでは簡単に取得できません。以前は、企業が大量の非構造化データを検索、管理、分析したいと考えた場合、手間のかかる手動プロセスを使用する必要がありました。非構造化データを分析して理解することの潜在的な価値は明らかでしたが、それを実行するためのコストが法外すぎました。また、その実行に要する時間を考えても、分析結果が出る頃にはもう古くなっていることがよくありました。非構造化データは通常、スプレッドシートやリレーショナルデータベースではなく、データレイク、データウェアハウス、NoSQL データベースに保存されます。

半構造化データ

半構造化データはその名の示すとおり、構造化データと非構造化データのハイブリッドです。電子メールは、メッセージの本文に非構造化データが含まれますが、送信者、受信者、件名、日付などの組織プロパティも含まれるため、半構造化データの良い例になります。また、ジオタギングやタイムスタンプ、セマンティックタグを利用するデバイスも、構造化データを非構造化コンテンツと一緒に配信できます。例えば、身元がわからないスマートフォン画像でも、それが自撮りであることと、撮られた時間と場所はわかります。AI テクノロジーを利用する最新データベースは、データタイプを即座に特定できるだけでなく、含まれている異種データセットを効果的に管理および分析するためのアルゴリズムをリアルタイムに生成することができます。 

データを生成するモノの範囲は、ドローン衛星からトースターまで、驚異的な速度で拡大しています。ただし分類上、データソースは通常、以下の 3 つの種類に分けられます。

ソーシャルデータ

ソーシャルデータには、その名の示すとおり、ソーシャルメディア上のコメント、投稿、画像、さらに(増加の一途をたどる)動画が含まれます。そして、4G または 5G セルラーネットワークの世界的な普及拡大に伴い、2023 年までにスマートフォンで動画コンテンツを定期的に視聴する人の数は全世界で 27 億 2,000 万人に達すると推定されています。ソーシャルメディアとその利用状況の動向は、前触れなく急速に変化する傾向がありますが、ソーシャルメディアはデジタルデータの生成元としてその成長を止めることはないでしょう。

マシンデータ

IoT デバイスやマシンにはセンサーが装備され、デジタルデータを送受信できるようになっています。IoT センサーが、企業全体のデバイス、車両、設備からマシンデータを収集します。世界規模で、気象センサー、交通センサー、セキュリティ監視カメラなど、データを生成するモノの数が急速に増加しています。IDC 社は、2025 年までに地球上に 400 億を超える IoT デバイスが存在するようになり、世界全体のデジタルデータのほぼ半分を生成すると予測しています。

トランザクションデータ

これは、世界で最も速く移動し、増大するデータの 1 つです。例えば、ある大手の国際的小売業者は、1 時間で 100 万件を超える顧客トランザクションを処理することで知られています。世界中の購買トランザクションとバンキングトランザクションを加えれば、生成されるデータの膨大さを想像できるでしょう。さらに、トランザクションデータも、画像やコメントなどを含む半構造化データになりつつあり、管理と処理がいっそう複雑になっています。

データセットが大きいというだけでは、必ずしもビッグデータにはなりません。ビッグデータと見なされるには、データが少なくとも以下の 5 つの特性を持っている必要があります。

Volume(データ量)

データ量はビッグデータを「ビッグ」にする唯一の要素ではありませんが、それが主要な特徴であることは確かです。ビッグデータを完全に管理し十分に活用するには、高度なアルゴリズムと AI 主導の分析が必要です。しかし、それを行うには、大企業が保有するテラバイト単位のデータを保存、整理、取得できる安全で信頼性の高い手段が必要です。

Velocity(速さ)

以前は、データが生成された後、従来のデータベースシステムに(多くの場合は手作業で)入力してからでないと、データを分析または取得することができませんでした。現在は、ビッグデータテクノロジーにより、データベースはデータの生成中に、瞬時にデータを処理、分析、設定することができます。企業にとって、このことはビジネスチャンスの獲得、顧客ニーズへの対応、不正行為の阻止、スピードが重要なその他の活動でリアルタイムデータを使用できることを意味します。

Variety(多様性)

構造化データのみで構成されるデータセットは、その量が膨大でも、必ずしもビッグデータとは呼ばれません。ビッグデータは、通常、構造化データ、非構造化データ、半構造化データの組み合わせで構成されます。従来のデータベースおよびデータ管理ソリューションには、ビッグデータを構成する複雑な異種データセットを管理するための柔軟性も拡張性もありませんでした。

Veracity(真実性)

最新のデータベーステクノロジーは、企業が膨大な量と種類のビッグデータを蓄積してデータの意味を理解することを可能にします。しかし、データは、正確で、関連性があり、タイムリーであってはじめて、価値あるものとなります。構造化データのみで構成される従来のデータベースでは、データの正確さに問題があるとすれば、通常、構文上の誤りや入力ミスが問題の原因でした。非構造化データでは、まったく新しい真実性の課題があります。人間のバイアス、ソーシャルノイズ、データの出自の問題はすべて、データの品質に影響を及ぼす可能性があります。

Value(価値)

ビッグデータの分析から、興味深かったり、意外な結果を得られることは間違いありません。ただ、ビジネスの場合、ビッグデータアナリティクスにより、企業が競争力とレジリエンス(回復力)を高め、顧客へのサービスを向上させるのに役立つインサイトを提供できる必要があります。最新のビッグデータテクノロジーは、データを収集、取得できる能力を高め、収益とレジリエンスの両方に目に見える効果をもたらします。

最新のビッグデータ管理ソリューションにより、企業はかつてないスピードと正確さで、生データを的確なインサイトに変換することができます。

  • 製品およびサービスの開発:ビッグデータアナリティクスにより、製品開発者は顧客レビューやカルチャートレンドなどの非構造化データを分析し、迅速に対応できます。
  • 予知保全:McKinsey 社が実施したグローバルな調査で、IoT 対応のマシンからのビッグデータの分析によって、設備の保守コストが最大 40% 削減されたことが明らかになりました。
  • カスタマーエクスペリエンス:Gartner 社は、グローバルビジネスリーダーを対象とした 2020 年の調査で、「成長企業は、そうではない企業よりも、カスタマーエクスペリエンスデータを積極的に収集している」と結論付けました。ビッグデータの分析により、企業は自社のカスタマーエクスペリエンスを改善し、パーソナライズできるようになります。  
  • レジリエンスとリスク管理: コロナ禍によって、多くのビジネスリーダーが事業の中断や混乱に対して自分たちの事業運営がいかに脆弱であるかを突然悟ることになりました。ビッグデータのインサイトを活用すれば、企業はリスクを予見し、不測の事態に備えることができます。
  • コスト削減と効率の向上:企業は組織内のすべてのプロセスに高度なビッグデータアナリティクスを適用することで、非効率なプロセスを見つけるだけでなく、高速かつ効果的なソリューションを導入することができます。
  • 競争力の強化:ビッグデータから得られるインサイトにより、企業はコスト削減、顧客満足度の向上、製品の改善、事業運営の革新を図ることができます。

AI とビッグデータ

ビッグデータの管理は、膨大な量の異種混在の複雑な情報を処理し、有意義に分析する能力を持つシステムに依存しています。この点で、ビッグデータと AI はある程度の相互関係があります。ビッグデータは、データを整理し分析する AI の働きがなければ、実用性はそれほどありません。また、AI が、実用に耐える十分な頑健性を持つアナリティクスを実現できるかどうかは、ビッグデータに含まれるデータセットの幅広さによって決まります。Forrester Research 社のアナリスト、ブランドン・パーセル (Brandon Purcell) 氏が述べているように、「データは AI の生命線です。AI システムがその機能を発揮するためには、データから学習する必要があるのです。」

データは AI の生命線です。AI システムがその機能を発揮するためには、データから学習する必要があるのです。

ブランドン・パーセル氏、Forrester Research 社アナリスト

機械学習とビッグデータ

機械学習アルゴリズムは、入力データを定義し、データのパターンを特定します。これらのインサイトは、情報に基づいた業務上の意思決定や、プロセスの自動化をサポートするために提供されます。機械学習はビッグデータによってその機能を発揮します。分析対象のデータセットの頑健性が高いほど、システムが学習して継続的に進化できる機会が広がり、プロセスの順応性を高められます。

SAP のデータ管理ソリューション

データウェアハウス、データレイク、データベースを含む、多様なデータランドスケープを管理できます。企業は、固有のニーズに合わせてオンプレミスソリューションまたはクラウドソリューションを選ぶことができます。

ビッグデータに関する FAQ

ビッグデータは何に使用されますか。

ビッグデータは、多様なソースからの潜在的な業務関連データ(構造化データと非構造化データの両方)で構成されます。分析後、その企業と同市場における全業務領域について、より深いインサイトとより正確な情報を提供するために使用されます。

ビッグデータテクノロジーとは何ですか。

ビッグデータテクノロジーとは、ビッグデータの処理および分析に使用されるすべてのツール、ソフトウェア、技術のことです。これには、データマイニング、データストレージ、データ共有、データビジュアル化などが含まれます。

Hadoop は何に使用されますか。

Apache Hadoop は、オープンソースの分散処理ソフトウェアソリューションです。複数のコンピューターを接続し、それらのコンピューターでビッグデータを並行処理し、ビッグデータ管理の高速化、促進を実現するために使用されます。

Spark は何に使用されますか。

Apache Spark は、オープンソースの分散処理ソフトウェアソリューションです。複数のコンピューターを接続し、それらのコンピューターでビッグデータを並行処理し、ビッグデータ管理の高速化、促進を実現するために使用されます。
Spark の前身である Hadoop のほうが広く使われていますが、Spark は機械学習などのテクノロジーを活用してスピードと効率を向上させたので人気が上昇しています。

データレイクとは何ですか。

データレイクは、大量の未加工の非構造化データを保存および取得できるリポジトリーです。ビッグデータの多くは構造化されておらず、従来の行列形式のリレーショナルデータベースに保存できないため、データレイクが必要です。 

ダークデータとは何ですか。

ダークデータとは、企業が通常業務の一環として収集するすべてのデータです(監視カメラ映像や Web サイトのログファイルなどを含む)。コンプライアンス目的で保存されますが、通常、活用されることはありません。この大規模なデータセットについては、もたらす価値よりも高い保存コストがかかります。 

データファブリックとは何ですか。

データファブリックとは、ビジネスエコシステム全体にわたるビッグデータのアーキテクチャーとテクノロジーが統合されたものです。その目的は、あらゆるソースのあらゆる種類のビッグデータを、企業全体のすべてのデータ管理サービスに接続することです。  

先頭に戻る