什麼是資料挖掘?
資料挖掘是一種用於分析的電腦輔助技術,可處理和探索大型資料集。藉助資料挖掘工具和方法,組織可以發現其資料中隱藏的模式和關係。資料挖掘可將原始資料轉換為實務知識。公司利用這些知識來解決問題、分析商業決策的未來影響以及提高其利潤率。
資料挖掘這一術語是什麼意思?
「資料挖掘」是一個不太恰當的稱呼,因為資料挖掘的目標並不是擷取或挖掘資料本身。而是從大量已經存在的資料中擷取意義或有價值的資訊。下面概述了資料收集、儲存、分析和挖掘的典型過程。
- 資料收集是從客戶意見回饋、付款和採購訂單等不同來源取得資料。
- 資料倉儲是將資料儲存在大型資料庫或資料倉儲中的過程。
- 資料分析是使用複雜的軟體和演算法進一步處理、儲存和分析資料。
- 資料挖掘是資料分析的一個分支,或者是一種分析策略,用於發現資料中隱藏的或以前未知的模式。
為什麼資料挖掘很重要?
任何成功的分析計劃離不開資料挖掘。企業可以使用知識探索過程來提高客戶的信任度、尋找新的收入來源並留住客戶。有效的資料挖掘有助於業務規劃和營運管理的各個方面。以下是不同產業如何使用資料挖掘的一些範例。
電信、媒體和技術
電信、媒體和技術等競爭激烈的產業透過使用資料挖掘,發現客戶行為模式來改善客戶服務。例如,一家公司可以分析頻寬使用模式,從而提供定制的服務升級或建議。
銀行和保險
金融服務可以使用資料挖掘應用程式來解決複雜的詐騙、合規、風險管理和客戶流失問題。例如,保險公司可以透過將過去的產品表現與競爭對手的定價進行比較,從而找到最優的產品定價。
教育
教育提供者可以使用資料挖掘演算法來測試學生、定制課程和遊戲化學習。資料驅動的統一學生進度檢視可以協助教育工作者了解學生的需求並更好地支援他們。
生產製造
生產製造服務可以使用資料挖掘技術,為整體設備效率、服務水準、產品品質和供應鏈效率提供即時和預測性分析。例如,製造商可以使用歷史資料來預測生產機械的磨損並實現預測性維護,從而能夠最佳化生產計劃並減少停機時間。
零售
零售公司擁有龐大的客戶資料庫,其中包含有關客戶購買行為的原始資料。資料挖掘可以處理這些資料以取得洞見,從而改進行銷活動和進行銷售預測。零售公司可以透過更準確的資料模型,最佳化銷售和物流,以提高客戶滿意度。例如,資料挖掘可以揭示流行的季節性產品,這讓商家能夠提前庫存相關產品,從而避免最後一刻的缺貨。
資料挖掘如何運作?
跨產業資料挖掘標準程序 (CRISP-DM) 是啟動資料挖掘程序的絕佳指南。CRISP-DM 既是一種方法論,也是一種程序模型,不受產業、工具和應用程式影響。
- 作為一種方法論,它描述了資料挖掘專案中的典型階段,概述了每個階段所涉及的任務,並解釋了這些任務之間的關係。
- 作為一個程序模型,CRISP-DM 提供了資料挖掘生命週期的概覽。
資料挖掘過程的六個階段是什麼?
資料團隊可以透過靈活的 CRISP-DM 階段,根據需要在階段之間進退。此外,軟體技術可以完成其中一些任務或提供支援。
1.業務理解
資料科學家或資料挖掘人員首先確定專案目標和範圍。他們與業務利害關係人合作以確定某些資訊。
- 需要解決的問題
- 專案約束或限制
- 潛在解決方案的業務影響
然後,他們使用這些資訊來定義資料挖掘目標,並確定進行知識探索所需的資源。
2.資料理解
資料科學家在了解了業務問題後,便會開始對資料進行初步分析。他們從各種來源收集資料集,取得存取權限,並準備資料描述報告。該報告的內容包含資料類型、數量以及資料處理的硬體和軟體要求。一旦企業核准了他們的計劃,他們便會開始探索和驗證資料。他們使用基本的統計技術處理資料,評估資料品質,並為下一階段選擇最終資料集。
3.資料準備
資料挖掘人員在這個階段花費的時間最多,因為資料挖掘軟體需要高品質的資料。業務程序收集和儲存資料的目的不僅在於資料挖掘,因此資料挖掘人員必須在將資料用於建模之前對資料進行精簡。資料準備涉及以下過程。
清理資料
例如,處理缺失資料、資料錯誤、預設值和資料更正。
整合資料
例如,結合兩個不同的資料集,以得到最終的目標資料集。
格式化資料
例如,為使用的特定挖掘技術轉換資料類型或設定資料。
4.資料建模
資料挖掘人員將準備好的資料輸入資料挖掘軟體並研究結果。在此過程中,他們可以從多種資料挖掘技術和工具中進行選擇。他們還必須編寫測試來評估資料挖掘結果的品質。為了對資料進行建模,資料科學家可以:
- 使用具有已知結果的較小資料集訓練機器學習 (ML) 模型
- 使用模型進一步分析未知資料集
- 調整和重新設定資料挖掘軟體,直到結果令人滿意
5.評估
建立模型後,資料挖掘人員開始根據最初的業務目標衡量模型。他們與業務分析師分享結果並收集意見回饋。模型可能能夠很好地回答原始問題,或揭示以前未知的新模式。資料挖掘人員可以根據業務意見回饋變更模型、調整業務目標或重新檢視資料。持續的評估、意見回饋和修改是知識探索必經的過程。
6.部署
在部署期間,其他利害關係人使用工作模型產生商業智慧。資料科學家計劃部署過程,包括向其他人傳授模型功能、持續監控和維護資料挖掘應用程式。業務分析師使用該應用程式建立管理報告、與客戶共享結果以及改進業務程序。
資料挖掘的技術有哪些?
資料挖掘技術借鑒了相互重疊的各個學習領域,其中包括統計分析、機器學習 (ML) 和數學。下面給出一些範例。
關聯規則挖掘
關聯規則挖掘是尋找兩個看似不相關的不同資料集之間關係的過程。If-then 陳述式說明兩個資料點之間關係的概率。資料科學家使用支援度和可信度標準來衡量結果的準確性。支援度衡量相關元素在資料集中出現的頻率,而可信度顯示 if-then 陳述式準確的次數。
例如,當客戶購買一件商品時,他們通常還會購買第二件相關商品。零售商可以對過去的購買資料使用關聯挖掘,來識別新客戶的興趣。進而將資料挖掘結果填入線上商店的推薦區段。
分類
分類是一種複雜的資料挖掘技術,它訓練 ML 演算法將資料分類為不同的類別。它使用決策樹和最近鄰等統計方法來識別類別。在所有這些方法中,演算法都是使用已知的資料分類進行過預程式設計,以猜測新資料元素的類型。
例如,分析師可以透過使用經過標記的蘋果和芒果圖像來訓練資料挖掘軟體。然後,該軟體可以以一定的準確性預測一張新圖像上的水果是蘋果、芒果還是其他水果。
分群
分群是根據資料點的相似性將多個資料點分到同一群組。它與分類不同,因為它不能按特定類別區分資料,但可以找到資料的相似性模式。資料挖掘的結果是一組集群,其中每個叢集與其他群組均不同,但每個叢集中的物件在某些方面相似。
例如,在處理來自調查的多變數資料時,集群分析可以協助進行市場研究。市場研究人員使用集群分析將消費者劃分為不同的市場區隔,並更好地了解不同群組之間的關係。
序列和路徑分析
資料挖掘軟體還可以尋找一組特定事件或值導致後續事件或值的模式。它可以識別定期發生的資料變化或資料點隨時間的起伏變化。
例如,一家企業可能能夠使用路徑分析發現某些產品在假期前的銷售量激增,或者註意到天氣變暖導致更多人造訪其網站。
資料挖掘有哪些類型?
根據資料和挖掘目的的不同,資料挖掘可以不同的分支或專業方向。下面讓我們看看其中某些例子。
程序挖掘
程序挖掘是資料挖掘的一個分支,旨在探索、監控和改進業務程序。它從資訊系統中可用的事件日誌擷取知識。它可以協助組織了解和掌握這些日常程序中發生的事情。
例如,電子商務公司有許多程序,如採購、銷售、付款、收集和運輸。他們透過挖掘採購資料日誌,可能會看到其供應商交付可靠性為 54%,另外 12% 的供應商始終提前交付。他們可以使用這些資訊來改善他們於供應商的關係。
文字挖掘
文字挖掘或文字資料挖掘是使用資料挖掘軟體來閱讀和理解文字。資料科學家使用文字挖掘來自動探索書面資源 (如網站、書籍、電子郵件、評論和文章) 中的知識。
例如,一家數位媒體公司可以使用文字挖掘來自動閱讀對其線上影片的評論,並將觀眾評論分類為正面或負面評論。
預測性挖掘
預測性資料挖掘使用商業智慧來預測趨勢。它協助企業領導者研究他們的決策對公司未來的影響,從而做出正確的選擇。
例如,一家公司可以查看過往的產品退貨資料,以設計不會導致損失的保固方案。他們可使用預測性挖掘,預測來年的可能退貨數量,並制定一年保固方案,在考慮損失的情況下制定產品價格。
AWS 如何協助進行資料挖掘?
Amazon SageMaker 是領先的資料挖掘軟體平台。它可以協助資料挖掘人員和開發人員準備、建置、訓練和部署高品質的機器學習 (ML) 模型。它包含幾個用於資料挖掘過程的工具。
- Amazon SageMaker Data Wrangler 可將資料挖掘時彙總和準備資料所需的時間從數週縮減到數分鐘。
- Amazon SageMaker Studio 提供以 Web 為基礎的單一可視介面,資料科學家可以在其中執行 ML 開發步驟,從而提高團隊的生產力。在資料科學家建置、訓練和部署模型的過程中,SageMaker Studio 讓資料科學家能夠完全存取、控制和洞察每一個步驟。
- 分散式訓練程式庫使用分割演算法,在建模過程中會自動分割大型模型和訓練資料集。
- Amazon SageMaker Debugger 透過擷取即時訓練指標來最佳化 ML 模型,例如在偵測到異常時傳送提醒。這有助於立即修正不準確的模型預測。
立即建立免費的 AWS 帳戶,開始進行資料挖掘。