什麼是轉移學習?
轉移學習 (TL) 是一種機器學習 (ML) 技術,即為某任務預先訓練的模型,會針對新的相關任務進行微調。訓練新的 ML 模型是耗時且密集的流程,需要大量資料、運算能力和多次迭代,才能投入生產。取而代之的是,組織利用 TL 在相關任務上使用新資料重新訓練現有模型。例如,如果機器學習模型可以識別狗的影像,則可以使用較小的影像集來訓練該模型識別貓,以凸顯出狗和貓之間的特徵差異。
轉移學習有哪些優點?
TL 為建立 ML 應用程式的研究人員提供以下幾個優點。
提升效率
訓練 ML 模型需要時間,因為它們會建置知識和識別模式。也需要大型資料集,在運算方面也很昂貴。在 TL 中,預先訓練的模型保留有關任務、特徵、權重和功能的基本知識,使其能夠更快地適應新任務。您可以使用較小的資料集和較少的資源,同時又獲得更好的結果。
提高可存取性
建置深度學習神經網路需要大量資料、資源、運算能力和時間。TL 克服了這些建立障礙,讓組織針對自訂使用案例採用 ML。您可以讓現有模型適應成本一小部分的要求。例如,使用預先訓練的影像辨識模型,您只要最小程度的調整,即可建立醫學影像分析、環境監控或臉部辨識的模型。
改善效能
透過 TL 開發的模型通常在多樣化和具有挑戰性的環境中展現更強大的穩健性。它們在初始訓練中暴露在各種案例下,因此可以更好地處理現實世界的變化和雜訊。它們提供更好的結果,並且更靈活地適應不可預測的條件。
有哪些不同的轉移學習策略?
您用來促進 TL 的策略取決於您正在建置之模型的領域、完成所需的任務以及訓練資料的可用性。
傳導式轉移學習
傳導式轉移學習涉及將知識從特定來源領域轉移到不同但相關的目標領域,主要重點是目標領域。當目標領域中的標籤資料很少或沒有標籤資料時,這特別有用。
傳導式轉移學習要求模型使用先前獲得的知識對目標資料進行預測。由於目標資料在數學上與來源資料相似,模型會尋找模式並且更快速執行。
例如,考慮讓以產品評論訓練的情緒分析模型適應分析電影評論。來源領域 (產品評論) 和目標領域 (電影評論) 在內容和細節上有所不同,但在結構和語言使用方面有相似之處。模型快速學習將其對產品領域的情緒理解應用到電影領域。
感應式轉移學習
感應式轉移學習是來源和目標領域相同,但模型必須完成的任務不同。預先訓練的模型已經熟悉來源資料,並且更快地訓練新功能。
感應式轉移學習的一個範例是自然語言處理 (NLP)。模型在大量文字上進行預先訓練,然後使用感應式轉移學習微調到特定功能 (例如情緒分析)。同樣地,像 VGG 這樣的電腦視覺模型在大型影像資料集上進行預先訓練,然後進行微調以開發物件偵測。
非監督式轉移學習
非監督式轉移學習使用類似於感應式轉移學習的策略來開發新能力。但是,當您在來源和目標領域中僅有未加上標籤的資料時,您會使用這種形式的轉移學習。
當要求執行目標任務時,模型會學習未加上標籤資料的通用特徵,以便更準確地概述。如果取得加上標籤的來源資料有挑戰或昂貴,此方法很有幫助。
例如,考慮在交通影像中識別不同類型摩托車的任務。模型一開始會在大量未加上標籤的車輛影像上進行訓練。在此執行個體中,模型獨立決定不同類型車輛之間的相似性和區別特徵,例如汽車,公共汽車和摩托車。接下來,為模型引入一組小型、特定的摩托車影像。與以前相比,模型效能顯著改善。
轉移學習有哪些步驟?
針對新任務微調機器學習模型時,有三個主要步驟。
選取預先訓練的模型
首先,為相關任務選取具有先前知識或技能的預先訓練模型。選擇合適模型的實用內容是確定每個模型的來源任務。如果您了解模型執行的原始任務,則可以找到一個更有效地轉換到新任務的任務。
設定預先訓練的模型
選取來源模型後,將其設定為將知識傳遞給模型以完成相關任務。有兩種主要方法可以做到這一點。
凍結預先訓練層
層是神經網路的建置區塊。每個層由一組神經元組成,並對輸入資料執行特定轉換。權重是網路用於決策的參數。權重最初設為隨機值,會在訓練過程中隨著模型向資料學習而調整。
透過凍結預先訓練層的權重,您將它們保持固定,保留深度學習模型從來源任務中獲得的知識。
移除最後一層
在某些使用案例中,您也可以移除預先訓練模型的最後一層。在大多數 ML 架構中,最後一層是任務特定。移除這些最後一層可協助您重新設定模型,以滿足新任務要求。
引入新層
在預先訓練的模型上引入新層,可協助您適應新任務的專業性質。新層可讓模型適應新要求的細微差別和功能。
針對目標領域訓練模型
您可以在目標任務資料上訓練模型,開發其標準輸出以與新任務一致。預先訓練的模型可能會產生與所需輸出不同的輸出。在訓練期間監控和評估模型的效能之後,您可以調整超參數或基準神經網路架構以進一步改善輸出。與權重不同,超參數不是從資料學習。它們是預先設定的,並在決定訓練程序的效率和有效性方面扮演重要角色。例如,您可以調整正規化參數或模型的學習率,以改善其與目標任務相關的能力。
什麼是生成式 AI 中的轉移學習策略?
轉移學習策略對於在各種產業採用生成式 AI 至關重要。組織可以自訂現有基礎模型,而無需大規模對數十億個資料參數訓練新的基礎模型。以下是生成式 AI 中使用的一些轉移學習策略。
領域對抗性訓練
領域對抗性訓練涉及訓練基礎模型,以產生與目標領域中的真實資料無法區分的資料。這種技術通常使用一個鑑別器網路 (如在生成式對抗性網路中所見),嘗試區分真實資料和產生的資料。產生器學習建立越來越逼真的資料。
例如,在影像產生中,以相片訓練的模型可能會調整以產生圖稿。鑑別器有助於確保產生的圖稿與目標領域的風格一致。
教師-學生學習
教師-學生學習涉及更大且更複雜的「教師」模式,教導一個較小且較簡單的「學生」模型。學生模型會學習模仿教師模型的行為,有效地傳輸知識。這對於在資源受限的環境中部署大型生成式模型非常有用。
例如,大型語言模型 (LLM) 可做為較小模型的教師,傳輸其語言產生功能。這可讓較小的模型以較少的運算開銷產生高品質文字。
功能解除
生成式模型中的功能解除涉及將資料的不同方面 (例如內容和樣式) 分隔成不同的表示。這可讓模型在轉移學習過程中獨立操控這些方面。
例如,在臉部產生任務中,模型可能會學習將臉部特徵與藝術風格分開。這可讓它產生各種藝術風格的肖像,同時保持主體的相似性。
跨形式轉移學習
跨形式轉移學習涉及在不同形式之間傳輸知識,例如文字和影像。生成式模型可以學習這些形式之間適用的表示。以文字描述和對應影像訓練的模型可能會學習從新的文字描述產生相關影像,有效地將其理解從文字轉移成影像。
零樣本和少量樣本學習
在零樣本和少量樣本學習中,生成式模型經過訓練以執行任務,或產生在訓練期間看過少數範例或未曾看過範例的資料。這是透過學習良好概括的豐富表示來實現的。例如,生成式模型可能會經過訓練以建立動物的影像。使用少量樣本學習,它可以藉由了解和結合其他動物的特徵來產生罕見動物的影像。
AWS 如何協助處理您的轉移學習要求?
Amazon SageMaker JumpStart 是 ML 中心,您可以在其中存取預先訓練的模型 (包括基礎模型) 來執行文章摘要和影像產生等任務。您可以使用轉移學習,在較小的資料集上產生準確的模型,訓練成本較涉及訓練原始模型的學習成本更低。例如,使用 SageMaker JumpStart,您可以:
- 針對您的使用案例以您的資料完全自訂預先訓練的模型,以便更快地部署到生產中。
- 存取預先建置的解決方案以解決常見的使用案例。
- 在您的組織內共用 ML 成品,包括 ML 模型和筆記本。
使用跨形式轉移學習方法時,您也可以使用 Amazon SageMaker Debugger 來偵測嚴重的隱藏問題。例如,您可以檢查模型預測以找到錯誤、驗證模型的穩健性,並考慮這種穩健性有多大程度來自繼承的能力。您也可以驗證模型的輸入和預先處理,以獲得真實的期望。
立即建立免費帳戶,開始在 AWS 上進行轉移學習。