什麼是大數據(Big Data)?
大數據(Big Data) 是指規模巨大、類型多樣、生成速度快且價值密度相對較低的數據集合,這些數據無法通過傳統的數據處理工具在合理時間內進行捕獲、管理和處理。
大數據詳細定義
大數據就是我們每天隨時在產生的數據,從電腦、行動裝置到感測器產生高達數 ZB 的巨量資料。組織會使用此資料來推動決策、改善流程和政策,並建立以客戶為中心的產品、服務和體驗。大數據並不僅僅因數量而定義為「大數據」,而且由於其性質的多樣性和複雜性。通常,其超過了傳統資料庫擷取、管理和處理的能力。而大數據可以來自地球上我們能夠數位化監控的任何地方或任何事物。氣象衛星、物聯網(IoT)裝置、交通攝影機、社群媒體趨勢,這些只是少數正在被採集和分析的資料來源,讓企業更具彈性和競爭力。
大數據的演進
儘管今天看來難以置信,阿波羅制導計算機以不到 8000 KB 的記憶體將第一艘太空船送上了月球。自此以後,電腦技術以指數的速度成長,資料產生也隨之增長。事實上,自 1980 年代以來,全球儲存資料的技術能力每三年翻一番。就在 50 多年前,阿波羅十一號發射,全球產生的數位資料量可能儲存在普通筆電上。在 2020 年,Statista 估計已建立或複製 64.2ZB 的資料,且「未來五年建立的數位資料量將大於數位儲存出現以來所建立的資料量兩倍。」
隨著軟體和技術越來越先進,非數位系統相比之下變得越來不可行。產生並收集數位的資料需要更先進的資料管理系統來進行處理。此外,社群媒體平台、智慧型手機技術和數位互連物聯網裝置的指數成長,也協助打造目前的大數據時代。
巨量資料的類型:什麼是結構化和非結構化資料?
資料集通常會根據其結構和索引的難易程度分類為三種類型。
三種巨量資料類型
- 結構化資料:這類資料是最容易組織及搜尋的資料。其中可包含財務資料、機器記錄和人口統計詳細資料。Excel 試算表具有預先定義的資料行和資料列配置,是構想結構化資料的好方法。其元件可輕鬆分類,可讓資料庫設計人員和管理員定義搜尋和分析的簡易演算法。即使有大量結構化資料,但不一定符合大數據的資格,因為自身結構化資料管理相對簡單,因此不符合大數據的定義準則。傳統上,資料庫使用稱為結構化查詢語言(SQL)的程式設計語言來管理結構化資料。1970年代,IBM 開發了 SQL,讓開發人員能夠建立和管理當時流行的關聯式(試算表樣式)資料庫。
- 非結構化資料:此資料類別可包含社群媒體貼文、音訊檔案、圖像和開放式客戶評論等資訊。這類資料無法在標準的資料列資料行關聯式資料庫中輕鬆擷取。傳統上,想要搜尋、管理或分析大量非結構化資料的公司,都必須使用耗時耗力的人工流程。對於分析和理解這類資料的潛在價值,從未有任何疑問,但這樣做的成本往往太高昂,因此不值得。考量所需時間,結果通常會在交付之前就已作廢。非結構化資料通常儲存於資料湖泊、資料倉儲和 NoSQL 資料庫,而非試算表或關聯式資料庫。
- 半結構化資料:正如其名稱所示,半結構化資料是結構化和非結構化資料的混合體。由於電子郵件在訊息內文中包含非結構化資料,以及更多組織屬性(例如寄件人、收件人、主旨和日期),因此是很好的範例。使用地理標籤、時間戳記或語意標籤的裝置也可以提供結構化資料與非結構化內容。比如未識別的智慧型手機圖片,仍然可以告訴你這是一張自拍照、所拍攝的時間和地點。執行 AI 技術的現代化資料庫不僅可以立即識別不同類型的資料,還可以即時產生演算法,以便有效管理和分析涉及的不同資料集。
大數據來源
資料產生事物的範圍正在以驚人的速度成長,從乾無人機星到烤麵包機。但為了分類目的,資料來源通常分為三種類型:
社群資料
正如其名稱所示,社群資料是由社群媒體評論、貼文、圖像及日益增加的影片所產生。而隨著全球 4G 和 5G 行動網絡的普及,預計到 2023 年,全球使用智慧型手機定期觀看影片內容的人數將上升至 27.2億。雖然社群媒體及其使用情況的趨勢往往變化快速且不可預測,但不改變的是其作為數位資料產生器的穩定增長。
機器資料
物聯網裝置和機器裝配感測器,並且能夠傳送和接收數位資料。物聯網感測器可協助企業收集和處理整個企業的裝置、車輛和設備機器資料。從全球範圍來看,從天氣和交通感測器到安全監控,資料產生事物的數目正在迅速增長。IDC 預估到 2025 年,地球上將有超過 400 億台物聯網裝置,幾乎能創造全球一半的數位資料量。
交易資料
這是世界上移動和增長最快的資料之一。例如,國際大型零售商每小時處理超過一百萬筆客戶交易。而當您將全球所有採購和銀行交易加在一起時,您會發現產生的資料量是多麼驚人。此外,交易資料逐漸由半結構化資料組成,包括圖像和評論等資訊,使管理和處理更加複雜。
定義大數據的 5 個 V
只是因為資料集很大,不一定是大數據。若要符合資格,資料必須至少具備下列五個特性:
大數據的五大特性 5 個 V
- 數量:雖然數量不是唯一讓大數據「大」的要素,但肯定是主要的特性。若要完整管理和運用大數據,需要進階演算法和 AI 導向分析。但在任何可能發生前,必須先有安全可靠的方法來儲存、組織和擷取大型公司持有的許多 TB 資料。
- 速度:在過去,產生的資料稍後都必須輸入至傳統的資料庫系統(通常為手動輸入),才能進行分析或擷取。現在,大數據技術允許資料庫在產生資料時處理、分析和配置資料,有時是在毫秒內即可進行。對於企業而言,這表示即時資料可用於擷取財務商機、回應客戶需求、防範詐欺和處理其他速度關鍵的活動。
- 多樣性:完全由結構化資料組成的資料集不一定是大數據,無論其數量多龐大。大數據通常由結構化、非結構化與半結構化資料的組合所組成。傳統的資料庫和資料管理解決方案缺乏彈性與範圍,無法管理構成大數據的複雜、不同的資料集。
- 真實性:雖然現代的資料庫技術讓公司能夠收集並理解數量驚人的大數據和其類型,但唯有準確、相關且及時的情況下才有價值。針對僅填入結構化資料的傳統資料庫,語法錯誤和錯字通常是資料準確性的罪魁禍首。使用非結構化資料,會面臨一系列真實性挑戰。人為偏見、社會雜音和資料來源問題都會對資料的品質產生影響。
- 價值:毫無疑問,來自大數據分析的結果,往往引人入勝且出人意料。但對企業而言,大數據分析必須提供洞察力,協助企業提升競爭力和彈性,並更好地為客戶提供服務。現代大數據技術開創了收集和擷取資料的能力,為利潤和營運彈性提供可衡量的效益。
大數據的商業效益
現代巨量資料管理解決方案讓企業能夠以前所未有的速度和準確度,將原始資料轉化為相關的洞察力。
產品和服務開發:大數據分析能夠讓產品開發人員分析非結構化的資料,例如客戶評論、文化趨勢等,並迅速做出回應。
預測性維護:麥肯錫在國際調查中發現,從支援物聯網的機器對大數據的分析降低了設備維護成本高達40%。
客戶體驗:在 2020 年對全球企業領導者的調查中,Gartner 認為「成長型公司比非成長型企業更積極收集客戶體驗資料」。分析此大數據可讓企業改善並個人化其品牌的客戶體驗。除了巨量資料之外,CX 團隊也逐漸將「複雜型資料」納入考量。這些對客戶觀察、感受和反應的質性洞察可增強大數據,並讓公司更全面地了解他們的客戶。
應變能力和風險管理:COVID-19 疫情對許多企業領導者是迫切的醒悟,意識到營運對業務中斷有多麼脆弱。大數據洞察可協助公司預測風險並做好意外準備。
節省成本並提升效率:當企業在組織內的所有流程中採用進階巨量資料分析時,不僅能找出效率不彰的因素,還能建置快速且有效的解決方案。
提升競爭力:從大數據獲得的洞察能協助公司節省成本、請客戶提供更好的產品,並創新企業營運。
AI 與大數據
巨量資料管理依賴於能夠處理並意義地分析大量不同和複雜資訊的系統。在這方面,大數據和 AI 有著某種互惠的關係。若沒有 AI 來組織和分析大數據,便不會有大量實際使用。而 AI 則取決於大數據中包含的廣泛資料集,以提供足夠強大且可據以行動的分析。如 Forrester Research 分析師 Brandon Purcell 所言:「資料是 AI 的命脈。AI 系統需要從資料中學習,才能完成功能。」
「資料是 AI 的命脈。AI 系統需要從資料中學習,才能完成功能。」
Forrester Research 分析師 Brandon Purcell
除了大數據之外,組織也逐漸採用「小數據」來訓練 AI 和機器學習演算法。小型資料集(例如行銷調查、試算表、電子郵件、會議筆記或個別社群媒體貼文)通常遭到忽略,但可能包含有價值的資訊。最終,演算法必須學習的材料越多,輸出就會越好。
機器學習和大數據
機器學習演算法會定義傳入資料,並識別其中的模式。提供這些洞察,協助制定資訊充足的業務決策並自動化流程。機器學習在大數據上蓬勃發展,因為分析的資料集越穩健,因此系統學習及持續演進和調整流程的機會就越大。
大數據技術
大數據架構
如同建築師工的建築設計,大數據架構為企業提供如何管理和分析自身資料基礎結構的藍圖。大數據架構對開始管理大數據繪製必要流程,橫跨四個基本「層」,從資料來源、資料儲存到大數據分析,最後再透過使用層,分析結果呈現為商業智慧。
大數據分析
此流程可透過使用巨量資料特性特定的資料模型化及演算法,進行有意義的資料視覺化。MIT 史隆管理學院的深入研究和調查中,詢問超過 2,000 位企業領導人關於巨量資料分析的經驗。不出所料,參與和支持發展大數據管理策略的人,都取得了最具衡量效益的業務成果。
大數據和 Apache Hadoop
想像一下,將 10 枚十分硬幣放在一個大盒子裡,與 100 枚五分硬幣混在一起。然後再想像一下,10 個小盒子並排,每個盒子裡有 10 枚五分硬幣和 1 枚十分硬幣。在哪個情境中,可以更輕鬆的找出十分硬幣呢?Hadoop 基本上就是基於此原則。這是一個開放程式碼框架,用於管理橫跨許多互連電腦網絡的分散式大數據處理。因此,Hadoop 不會使用一部大型電腦來儲存和處理所有資料,而是將多台電腦叢集成幾乎可無限擴展的網路,並平行分析資料。這個流程通常使用一個名為 MapReduce 的程式設計模型,透過調度分散式電腦來協調巨量資料處理。
資料湖泊、資料倉儲和 NoSQL
傳統的 SQL 試算表式資料庫用於儲存結構化資料。非結構化且半結構化的大數據需要獨特的儲存和處理典範,因為其不適合編製索引和分類。資料湖泊、資料倉儲和 NoSQL 資料庫皆為管理非傳統資料集的資料儲存庫。資料湖泊為尚未處理的原始資料龐大資料庫。資料倉儲為針對特定用途處理資料的儲存庫。NoSQL 資料庫提供彈性綱要,可修改以符合待處理資料的性質。這些系統各有其優勢和劣勢,許多企業會使用這些不同資料儲存庫的組合來滿足其需求。
記憶體式資料庫
傳統磁碟資料庫是利用 SQL 和關聯資料庫技術開發而成。雖然能夠處理大量的結構化資料,但並非專門設計以最佳方式儲存和處理非結構化資料。使用記憶體式資料庫,便能完全在 RAM 中進行處理與分析,而非從磁碟系統擷取資料。記憶體式資料庫也以分散式架構為基礎建立,這表示其可使用平行處理,而非單一節點(磁碟資料庫模型),以達到更高的速度。
大數據的運作方式
大數據在分析提供相關且可據以行動的洞察分析時運作,以可衡量的方式改善業務。為準備大數據轉型,企業應確保其系統和流程充分做好收集、儲存和分析大數據的準備。
使用巨量資料的三大主要步驟
- 收集巨量資料。大數據大部分由大量的非結構化資料集組成,這些資料來自於不同、不一致的來源。傳統磁碟資料庫和資料整合機制,根本無法勝任處理這項工作。大數據管理需要採用記憶體式資料庫解決方案,以及專為大數據取得的軟體解決方案。
- 儲存巨量資料。顧名思義,大數據是龐大的。許多企業針對現有資料提供內部部署儲存解決方案,並希望能重新規劃這些儲存庫節省成本,以滿足他們的大數據處理需求。然而,當大數據不受大小和記憶體限制的情況下,效果最佳。從一開始便無法將雲端儲存解決方案納入大數據模型的企業,往往會在數月後感到後悔。
- 分析巨量資料。如果沒有將 AI 和機器學習技術應用在大數據分析上,實現其完整潛力是不可行的。大數據的 5 個 V 的其中之一是「速度」。若要讓大數據洞察可據以行動且具有價值,則必須迅速達成。分析流程必須能夠自我優化,並能夠定期從經驗中學習,這是只能透過 AI 功能和現代資料庫技術達成的結果。
大數據應用
大數據提供提供的洞察和深度學習可為任何業務或產業帶來效益。然而,具有複雜營運範圍的大型組織通常能對大數據做出最有意義的使用方式。
金融業 在《Journal of Big Data》中,一項 2020 年的研究指出,大數據「對金融服務業特別是貿易與投資、稅制改革、詐欺檢測與調查、風險分析和自動化等方面具有重要作用。」大數據也透過分析客戶資料和意見回饋以取得改善客戶滿意度和體驗所需的寶貴洞察,從而協助金融業轉型。交易資料集是世界上移動速度最快、規模最大的資料集之一。進階大數據管理解決方案的採用日益增加,這有助於銀行和金融機構保護這些資料,並以有益和保護客戶和企業的方式使用。
醫療保健 大數據分析讓醫療專業人員可以做出更準確和以證據為基礎的診斷。此外,大數據可協助醫院管理員找出趨勢、管理風險並將不必要的支出降至最低,進而將最高可能預算投入患照護和研究領域。在疫情期間,全球的研究科學家正朝著更好的方法醫治和管理 COVID-19,大數據在這個過程中扮演著巨大的角色。《The Scientist》在 2020 年 7 月的文章,描述醫療團隊如何合作和分析大數據,幫助對抗冠狀病毒:「我們可能會轉變臨床科學的運作方式,利用大數據和資料科學的工具與資源,以前所未有的方式進行。」
運輸與物流業 Amazon 效應這個詞彙說明 Amazon 如何針對隔天送達預期設定標準,以滿足客戶現在線上訂購任何項目需要這樣出貨速度的需求。《企業家》雜誌指出,由於「Amazon 效應」的直接結果,「最後一哩」的物流競賽的競爭將越來越激烈。物流公司越來越依賴大數據分析,以優化路線規劃、貨物整合和燃料效率措施。
教育業 在疫情期間,世界各地的教育機構必須重新設計課程和教學方法,以支援遠端學習。這個過程的一大挑戰,是找到可靠的方法來分析和評估學生的表現以及線上教學方法的整體效果。一篇關於大數據對教育和線上學習影響的 2020 年文章對教師做出了一個觀察:「大數據讓他們在個性化教育、發展混合學習、轉換評估系統和促進終身學習方面感到更有自信。」
能源與公用事業 根據美國勞工統計局,公用事業公司花費超過 14 億美元在抄表員上,通常依賴於類比計頻器和不頻繁的手動讀數。智慧型抄表器每天提供數位資料多次,藉由大數據分析的優勢,此情報可以提供更高效的能源使用、更準確的定價和預測。此外,當現場工作人員不再需要抄表時,資料擷取和分析有助於更迅速地重新分配到最迫切需要修復和升級的位置。