什麼是大數據(Big Data)?
大數據(Big Data) 是指規模巨大、類型多樣、生成速度快且價值密度相對較低的數據集合,這些數據無法通過傳統的數據處理工具在合理時間內進行捕獲、管理和處理。
default
{}
default
{}
primary
default
{}
secondary
大數據定義
當企業必須使用來自許多來源、多種格式的資訊時,而且傳輸速度超越傳統資料系統設計能夠處理的範圍,就會涉及大數據。這些資料集通常會結合來自許多不同來源的結構化、半結構化和非結構化資料,以高速且大規模的方式傳輸。
組織可使用大數據改善決策制定、識別模式和趨勢、將流程自動化、管理風險,並創造更符合需求的產品、服務和客戶體驗。大數據的「大」,不僅在於存在多少資料,也在於資料有多多樣化、傳輸速度多快、要實現可靠管理有多困難。
大數據不是單純的大型檔案或資料庫,其與分析、人工智慧或雲端儲存空間並非同義。反之,大數據一詞用來說明需要分散式儲存、可擴展處理及現代資料管理實務的資料特性和架構需求組合。
如今,商業系統、數位互動、互連裝置、感測器和應用程式都在持續產生大數據。要理解這些數據,需要現代化的資料架構、雲端規模的儲存、分散式處理以及進階分析技術。
大數據為何重要
大數據的重要性,在於其可讓組織從事後分析轉向事先洞察,並逐漸轉變為前瞻思維。若能夠快速且大規模地分析資料,企業就可以近乎即時地回應不斷變化的狀況、客戶行為和營運風險。
就實務而言,大數據可讓整個組織以更快的速度,制定更可靠的決策。領導者可以透過即時訊號來分析歷史趨勢,而非仰賴延遲的報表或不完整的概略資訊。這在供應鏈、金融市場和面向客戶的營運過程等瞬息萬變的環境條件下尤其重要。
大數據在組織準備自動化和進階分析方面,也扮演著至關重要的角色。若無法存取大量、多樣化且可靠的資料集,應用機器學習或預測模型的工作往往會陷入停滯,或只能產生有限的結果。
公司仰賴大數據達成下列目標:
- 依據目前資料和歷史資料,敏捷制定完善決策。
- 偵測較小資料集無法顯示的模式和異常。
- 提升營運、供應鏈和財務的效率。
- 將客戶和員工體驗個人化。
- 支援自動化、預測和情境規劃。
缺乏分析大數據的能力,有價值的資訊就會保持分散、延遲或未使用的狀態。
大數據的類型
圖 1:大數據包括結構化、非結構化和半結構化資料,各自有不同的格式、組織層次和分析需求。
大數據通常根據結構來分類,多數現代資料集會同時包含三種類型。
結構化資料
結構化資料具有高度組織性,且容易搜尋,適用於列和欄檢視,並可依循預先定義的綱要。範例包含金融交易、庫存記錄、客戶帳戶資料,以及固定格式的感應器讀數。
結構化資料通常儲存在關聯式資料庫中,並使用 SQL 查詢。即使資料量大,除非必須高速處理或與其他資料類型整合,否則僅有結構化資料並不一定符合大數據的定義。
非結構化資料
非結構化資料不會遵循預先定義的格式,更難以使用傳統資料庫儲存和分析。範例包含文字文件、電子郵件、影像、音訊、影片檔案、社交媒體貼文,以及開放式調查回應。
非結構化資料通常包含有價值的內容和洞察,但要從其中擷取意義需要進階分析技術,例如自然語言處理或圖像分析。
半結構化資料
半結構化資料介於結構化和非結構化資料之間,不遵循僵化的綱要,但包含標籤或中繼資料,藉此提供一定程度的組織架構。範例包含 JSON 和 XML 檔案、日誌檔案、包含表頭和時間戳記的電子郵件,以及應用程式產生的事件資料。
半結構化資料在現代數位平台中尤其常見,且在大數據環境中扮演重要角色。
常見的大數據來源
圖 2:大數據由許多來源產生,包括業務系統、數位互動,以及連線的機器和裝置。
大數據來自廣泛的數位來源,可分為三大類。
人類和社交互動
這包括個人透過數位管道產生的資料,例如社交媒體活動、線上評論、網站互動、點擊流和行動應用程式使用。此資料通常反映客戶行為、情緒和偏好。
業務系統和交易
核心企業應用程式每天都會產生大量資料,包含銷售交易、財務記錄、供應鏈事件和人力資源資料。交易資料往往會快速流動,且通常會合併結構化記錄與非結構化元素,如註記或附件。
機器和連線裝置
機器和物聯網裝置會透過感測器和系統日誌持續產生資料,例如製造設備、車輛、智慧儀表、基礎架構系統和環境感應器。機器產生的資料是推動資料量和速度成長的主要因素。
大數據的演進
大數據的概念隨著運算、儲存及網路技術的進步而發展。早期的數位系統是設計來處理相對較小的結構化資料集,通常儲存在集中化資料庫中。隨著資料量增加並出現新的資料類型,這些系統已達到能力限制。
隨著時間的推移,資料結構從集中式系統,轉移到能夠跨多部機器處理資料的分散式環境。在無固定基礎架構限制的情況下,雲端運算能透過實現彈性儲存和處理,來進一步加速此轉變。
圖 3:全球資料產生速度持續加快,預測顯示 2029 年將迎來大幅成長
如今,大數據已不再僅是一種單一技術,而是一套包含工具、架構和實務的生態系統,專門設計來處理混合和雲端原生環境的規模、速度和複雜度。根據 Statista,未來十年,全球創造的資料量預計將迅速增長;在 2025 年至 2029 年間,全球產生的資料量預計將翻至三倍。
大數據特性:3V 和 5V
圖4:大數據是由描述其規模、速度、多樣性、品質和業務相關的關鍵特徵來定義。
大數據通常由簡稱為「V」的一組核心特徵來定義。
核心 3V
- 數量(Volume):產生並儲存的資料量
- 速度(Velocity):資料建立、處理和分析的速度
- 多樣性(Variety):相關格式和資料類型的範圍
延伸的 5V
- 垂直性(Veracity):資料的準確性、一致性和可靠性
- 價值(Value):將資料轉化為有意義業務成果的能力
這些特性有助於說明大數據為何需要專業技術和實務。
大數據分析的效益
若能有效管理時,大數據分析可為企業各部門帶來實質且可衡量的效益。當組織不再受限於彼此孤立的報表,能在營運中一致地運用分析時,最能看到這些影響。
更快速且更具信心的決策
大數據分析可讓領導者根據目前且全面性的資訊制定決策,而不是部分或過時的報表。透過同時分析大量的歷史和即時資料,組織可以評估取捨、測試假設,並更快速地回應變化。
改善營運效率
分析各流程的資料,有助於識別較小型資料集中難以偵測的瓶頸、延遲和廢棄物來源。組織可使用這些洞察來簡化工作流程、減少人力投入,並改善財務、供應鏈和營運的資源利用。
更準確的預測和規劃
大數據支援涵蓋多種變數的預測模型,包括歷史趨勢、季節模式和即時訊號。這會使需求規劃、產能規劃和財務預測變得更可靠。
更符合需求的客戶和員工體驗
透過大規模分析行為和互動資料,組織可更加了解偏好和需求。這些洞察支援行銷、服務和員工參與度等領域中的個人化,而不需要仰賴假設或小型樣本。
更強大的風險偵測和法規遵循
大規模資料分析可更容易偵測可能隱含詐騙、法規遵循問題或營運風險的異常、不一致和異常模式。這可協助組織提早回應並減少外曝危險。
大數據的價值不僅取決於收集資訊,還取決於以一致且負責任的方式應用大數據時,所需要的管理、品質控制和分析能力。
大數據挑戰與風險
大數據除了帶來效益,也帶來了企業必須面對的重要挑戰。
- 資料隱私和合規性:大型資料集通常包含個人或敏感資訊。組織必須按照資料保護法規來管理同意、存取和保存事宜。
- 大規模安全防護:分散式環境會增加資料外洩的受攻擊機會。保護資料需要在儲存、處理和存取層面,實施一致的安全控制。
- 資料品質和信任:隨著資料量增長,不一致和錯誤可能會倍增。資料品質不佳會削弱分析、報表製作和後續的自動化作業。
- 管理和所有權:需要明確政策來定義擁有資料的人員、可存取資料的人員,和資料的使用方式。
- 成本和複雜性:如果沒有謹慎管理,儲存和處理成本會快速增加,特別是在雲端環境中。
大數據 vs. 分析 vs. 資料科學 vs. AI 和機器學習
這些術語雖有關聯,但不可互換使用。
- 大數據是指資料集本身,以及管理資料集所需的基礎架構。
- 資料分析著重於分析資料,以回答特定問題。
- 資料科學結合分析、統計和領域專業知識,以建立模型和洞察。
- AI 和機器學習會套用演算法,從資料學習以進行預測或自動化決策。
大數據提供原物料,分析及資料科學負責解讀,機器學習和 AI 仰賴龐大且多樣的資料集來產生可靠的結果。
大數據技術
大數據技術是指能夠大規模儲存、處理、分析和管理大型和複雜資料集的系統和工具。大數據環境不是單一的平台或產品,而是由各自扮演特定角色的互補技術層面所組成,從處理原始資料,到提供可用的洞察。
這些技術通常屬於幾個核心類別,包括儲存、處理、分析和機器學習,以及管理和整合。這些類別共同構成現代大數據架構的基石,這些架構日益朝向雲端化與模組化發展,以因應不斷變化的資料量和使用案例。
- 儲存:資料湖泊、資料倉儲和雲端物件儲存系統,可為原始和經過處理的資料提供可擴充的儲藏庫。
- 處理:分散式處理架構支援批次和串流工作負載,允許資料於到達時進行分析。
- 分析和機器學習:分析式資料庫和機器學習平台可進行探索、模型化和進階分析。
- 管理和整合:整合、中繼資料管理和存取控制,可協助確保資料使用方式一致且負責任。
某些環境中(通常屬於更廣泛的雲端架構)會持續使用 Hadoop 和 Apache Spark 等基礎技術。
大數據架構和管道(運作方式)
大數據架構可說明資料如何從建立地點移動到分析和行動地點。與傳統的資料環境不同,大數據架構的設計是處理大量的多樣化資料,且這些資料持續從許多來源傳送而來。
圖 5:典型的管道可收集多個來源的資訊、大規模儲存,並進行分析以提供洞察和行動。
現代大數據架構通常以靈活的管道形式建立,而不是固定的系統。這可讓組織根據使用案例以多種方式擷取、處理和分析資料,無論該案例是否涉及即時監控、歷史分析或機器學習。
典型的大數據管道包含下列階段:
- 儲存:從企業應用程式、裝置、感應器和外部來源收集資料。原始和經過處理的資料會儲存在可擴充儲藏庫,例如資料湖泊或雲端儲存。將資料保留在資料的原始明細層次時,可將其重複用於不同分析用途。
- 處理:資料已清理、轉換和擴充,因此可使用一致的方式來分析。
- 分析:套用分析查詢、儀表板和機器學習模型,以便發現模式、趨勢和異常。然後透過可用來驅動後續作業的報表、視覺化呈現、應用程式或自動化工作流程,向使用者提供洞察。
透過區隔這些階段,大數據架構可讓企業彈性調整個別元件、適應新資料來源,並同時支援營運和分析的工作負載。
大數據應用案例和範例
各個產業都有大數據的應用案例。雖然使用的特定應用程式各不相同,但多數可以根據企業大規模應用資料的方式,分為幾個常見類別。
決策智慧
組織使用大數據,將歷史資料與即時訊號結合,來改善策略決策和營運決策。這可支援財務預測、情境分析和績效管理等作業。
自動化和優化
大數據分析有助於自動化例行決策並優化流程。例如,根據設備資料調整庫存量、優化物流路線和推動維護作業。
風險偵測和彈性
分析大型資料集有助於輕鬆識別可能表示詐欺、法規遵循問題或營運風險的異常。這也有助於組織預測並因應變局,進而支援彈性規劃。
個人化和體驗改善
大規模的行為和互動資料可提供更符合需求的客戶和員工體驗。組織可使用這些洞察來量身打造建議、通訊和服務。
產業範例
雖然基礎模式相似,但大數據應用案例通常會根據產業而有所不同。以下範例說明不同產業的公司如何運用大數據來因應最常見的營運和策略挑戰。
- 金融業:詐欺偵測、預測和風險分析
- 醫療保健業:臨床研究、診斷支援和營運優化
- 製造業:預測性維護和品質監控
- 零售業:需求預測和分類規劃
- 物流業:路線優化與供應鏈資訊透明度
- 能源和公用事業:使用量預測和基礎架構監控
常見問題