監督式學習與非監督式學習之間有何差異?


監督式機器學習和非監督式機器學習有何區別?

監督式和非監督式機器學習 (ML) 是 ML 演算法的兩個類別。ML 演算法處理大量歷史資料,以透過推論來識別資料模式。 

監督式學習演算法訓練範例資料,以指定演算法的輸入和輸出。例如,資料可能是手寫數字的影像,這些影像會加上註解,以指示其所代表的數字。只要有足夠的標記資料,監督式學習系統最終會辨識出與每個手寫數字關聯的像素和形狀叢集。 

相較之下,非監督式學習演算法使用未標記的資料來進行訓練。這些算法會掃描新資料,並在未知的輸入值與預先確定的輸出值之間建立有意義的聯繫。例如,非監督式學習演算法能夠將來自不同新聞網站的新聞報導按照相同的類別進行分組,例如運動類新聞和犯罪類新聞。

技術:監督式與非監督式學習

在機器學習中,您教電腦進行預測或推理。首先,您可以使用演算法和範例資料來訓練模型。然後,可以將模型整合到應用程式中,以便即時且大規模地產生推論。監督式和非監督式學習是兩種不同類別的演算法。

監督學習

在監督式學習中,可以使用一組輸入資料和一組對應的配對已標記輸出資料來訓練模型。通常是手動完成標記。下面是一些類型的監督式機器學習技術。

邏輯迴歸

邏輯迴歸基於一個或多個輸入預測分類輸出。二進制分類是指輸出適合兩個類別之一,例如「是」或「否」以及「通過」或「失敗」。多類分類是指輸出適合兩個以上的類別,如貓、狗或兔子。  邏輯迴歸的一個範例是依據學生登入教材軟體的次數預測其在某個學習單元是通過還是失敗。

閱讀有關邏輯迴歸的內容 »

線性迴歸

線性迴歸是指依據一個或多個輸入,從連續規模預測值的監督式學習模型。線性迴歸的一個範例是預測房價。在使用帶有房屋位置、房齡和房間數量變數的一組歷史銷售訓練資料訓練模型之後,就可以依據這些變數來預測房屋的價格。

閱讀有關線性迴歸的內容 »

決策樹

決策樹監督式機器學習技術取得一些給定的輸入,並套用 if-else 結構來預測結果。決策樹問題的一個範例是預測客戶流失。例如,如果客戶在註冊後沒有存取應用程式,則該模型可能會預測客戶流失。或者,如果客戶在多個裝置上存取應用程式,且平均工作階段時間超過指定的閾值,則模型可能會預測客戶保留。

神經網路

神經網路解決方案是一種更複雜的監督式學習技術。為了產生給定的結果,該解決方案取得一些給定的輸入,並基於調整資料加權執行一層或多層數學轉換。神經網路技術的一個範例是從手寫影像中預測數位。

閱讀有關神經網路的內容 »

非監督式學習

非監督式機器學習是指在沒有任何已標記輸出資料的情況下提供演算法輸入資料。然後,演算法會自行識別資料內部和之間的模式與關係。下面是某些類型的非監督式學習技術。

叢集

叢集非監督式學習技術將某些資料輸入組合在一起,因此它們可以歸類為一個整體。根據輸入資料,有各種類型的叢集演算法。叢集的一個範例是識別不同類型的網路流量,以預測潛在的安全性事件。

關聯規則學習

關聯規則學習技術可揭示資料集中輸入之間的規則式關係。例如,Apriori 演算法會進行市場籃子分析,以識別諸如經常一起購買的咖啡和牛奶等規則。

機率密度

非監督式學習中的機率密度技術預測輸出值在被視為正常範圍 (對於輸入而言) 內的可能性或機率。例如,伺服器機房中的溫度計通常記錄一定度數範圍之間的溫度。但是,如果依據機率分佈,溫度計突然測量到較低的溫度,則可能表明設備故障。 

降維

降維是一種非監督式學習技術,可以減少資料集中的特徵數量。該技術通常用於預先處理其他機器學習函數的資料,並降低複雜性和開銷。例如,該技術可能會在影像辨識應用程式中模糊或裁切背景特徵。

使用時機:監督式學習與非監督式學習

可以使用監督式學習技術來解決已知結果以及已標記資料的問題。範例包括垃圾電子郵件分類、影像辨識,以及依據已知歷史資料預測股票價格。

對於未標記資料且目標是發現模式、將類似執行個體分組或偵測異常的場景,可以使用非監督式學習。也可以將其用於缺少已標記資料的探索性任務。範例包括組織大型資料封存、建置推薦系統,以及依據客戶的購買行為分組客戶。

可以同時使用監督式和非監督式學習嗎?

半監督式學習是指將監督式學習和非監督式學習技術同時套用於常見問題。它本身就是機器學習的另一種類別。

如果難以取得資料集的標籤,就可以套用半監督式學習。您可能擁有較少量的已標記資料,但有大量未標記的資料。與單獨使用已標記資料集相比,如果結合監督式和非監督式學習技術,則可以取得更高的準確性和效率。

以下是半監督式學習應用程式的一些範例。

欺詐識別

在大型交易資料集中包含已標記資料的子集,其中專家已確認存在欺詐性交易。為了取得更準確的結果,機器學習解決方案將首先使用未標記的資料訓練模型,然後使用已標記的資料進行訓練。

情緒分析

考慮到組織廣泛採用以文字為基礎的客戶互動,在所有通道上對情緒進行分類或標記可能並不符合成本效益。組織可以先使用較大部分的未標記資料訓練模型,然後使用已標記的範例進行訓練。這可讓組織更有信心充分了解業務中的客戶情緒。

文件分類

將類別套用至大型文件庫時,可能會有太多文件無法實際標記。例如,這些文件可能是無數的報告、文字記錄或規格。開始使用未標記資料訓練模型有助於識別類似的文件進行標記。 

差異摘要:監督式學習與非監督式學習

 

監督學習

無監督學習

這是什麼?

可以使用一組輸入資料和一組對應的配對已標記輸出資料來訓練模型。

可以訓練模型以發現未標記資料中的隱藏模式。

技術

邏輯迴歸、線性迴歸、決策樹和神經網路。

叢集、關聯規則學習、機率密度和降維。

目標

依據已知輸入預測輸出。

識別輸入資料點之間有價值的關係資訊。然後,可以將其套用至新的輸入以得出類似的洞察。

方法

盡量減少預測輸出和真實標籤之間的誤差。

尋找資料中的模式、相似性或異常。

AWS 如何協助進行監督式和非監督式學習?

Amazon Web Services (AWS) 提供各式各樣的產品,協助您進行監督式、非監督式和半監督式機器學習 (ML)。您可以建置、執行及整合任何規模、複雜性或使用案例的解決方案。

Amazon SageMaker 是一個完整的平台,可讓您從頭開始建置機器學習解決方案。SageMaker 擁有一整套預先建置的監督式和非監督式機器學習模型、儲存和運算功能,以及全受管環境。

例如,以下是可以在工作中使用的 SageMaker 功能:

立即建立帳戶,開始使用 AWS 上的監督式和非監督式機器學習。

使用 AWS 的後續步驟

使用監督式機器學習開始建置

了解如何在 AWS 上開始使用監督式機器學習

進一步了解 
使用非監督式機器學習開始建置

了解如何在 AWS 上開始使用非監督式機器學習

進一步了解