何謂資料增強?
資料增強是從現有資料以人工方式生成新資料的過程,主要是為了訓練新的機器學習 (ML) 模型。ML 模型需要大量且多樣化資料集進行初步訓練,但是採購足夠多元性真實資料集可能會因為資料孤島、法規和其他限制而造成挑戰。資料增強通過對原始資料進行微幅變動來人工增加資料集。生成式人工智慧 (AI) 解決方案現正被用於各行各業,進行高品質和快速的資料增強。
為什麼資料增強很重要?
深度學習模型仰賴大量的多元資料,在各種情境中開發準確的預測。資料增強為建立資料變化進行補充,可以幫助模型提高其預測的準確性。增強資料在訓練中至關重要。
以下是資料增加的一些好處。
提升型號效能
資料增強技術可透過建立現有資料的許多變化讓資料集更為豐富。這為訓練提供更大的資料集,並使模型能夠遇到更多元化的特徵。增強資料可協助模型更大範圍涵蓋未看過的資料,並改善其在真實環境中的整體效能。
減少資料依賴性
收集和準備龐大資料量以進行訓練可能會耗時也傷本。資料增強技術可增加較小資料集的有效性,大幅減少訓練環境中對大型資料集的依賴性。您可以使用較小的資料集以合成資料點來補充集合。
緩解訓練資料中的過度學習
資料加強有助於防止在訓練 ML 模型時過度學習。過度學習是我們亟欲避免的 ML 行為,也就是當模型能準確提供訓練資料預測,卻難以處理新資料時產生的困境。如果模型僅使用狹窄的資料集進行訓練,它可能會過度學習,並僅能提供該特定資料類型的預測。相比之下,資料增強為模型訓練提供了更大且更全面的資料集。它使訓練套組對深度神經網路而言變得獨特,預防其學習僅具有特定特徵的工作。
改善資料隱私
如果您需要針對敏感資料訓練深度學習模型,您可以在現有資料上使用增強技術來建立合成資料。此增強資料會保留輸入資料的統計屬性和權重,同時保護並限制對原始資料的存取權。
資料增強的使用案例有哪些?
資料增強功能可應用於不同行業,跨多個領域改善 ML 模型的效能。
醫療保健
資料增強對醫學成像是非常有幫助的技術,因為它有助於改善以影像為主,能夠偵測、辨識和診斷疾病的診斷模型。建立增強影像可提供更多訓練資料,尤其針對缺乏來源資料變化的罕見疾病之模型。合成病患資料的生產和使用可以促進醫學研究,同時尊重所有資料隱私考量。
金融
增強功能有助於產生合成詐騙實例,使模型能進行訓練,在真實世界情境中更準確偵測詐騙。更大的訓練資料在風險評估情境中能提供幫助,增強深度學習模型的潛力,以準確評估風險並預測未來趨勢。
生產製造
生產製造業使用 ML 模型來辨識產品中的視覺缺陷。透過增強影像補充真實資料,模型可以改善影像辨識能力,並找出潛在的缺陷。此策略還可降低損壞或有缺陷的專案運送到工廠和生產線的可能性。
零售
零售環境使用模型來辨識產品,並根據視覺因素將其指定給類別。資料增強可產生產品影像的合成資料變化,進而建立在光線條件、影像背景和產品角度方面具有更多差異的訓練集。
資料增強如何運作?
資料增強可轉換、編輯或修改現有資料以建立變化。以下是程序的簡要概述。
資料集探索
資料增強的第一階段是分析現有資料集並了解其特徵。輸入影像大小、資料分佈或文字結構等特徵皆能為增強提供進一步的情境。
您可以根據基礎資料類型和所需的結果選取不同的資料增強技術。例如,使用許多包括新增雜訊、縮放或剪裁的影像增強資料集。或者,增加文字資料集進行自然語言處理 (NLP) 替換同義字或改寫摘錄。
增強現有資料
選擇最適合您所需目標的資料增強技術後,就可以開始套用不同的轉換。資料集中的資料點或影像樣本使用您選取的增強方法進行轉換,提供一系列新的增強樣本。
在增強過程中,您會保有資料一致性的相同標籤規則,確保合成資料包含與來源資料相對應的相同標籤。
通常您可以查看合成影像以判斷是否成功轉換。這個額外的人為主導步驟有助於讓資料維持更高品質。
整合資料表單
接下來,您可合併新增的增強資料與原始資料,生產 ML 模型的更大訓練資料集。訓練模型時,您會使用上述兩種資料的複合資料集。
請注意,透過合成資料增強建立的新資料點會與原始輸入資料有相同的偏差。為了防止偏差傳輸到新資料中,請在開始資料增強程序之前解決來源資料中的任何偏差。
可否提供一些資料增強技術範例?
資料增強技術會因不同資料類型和不同的業務環境而有所不同。
電腦視覺
資料增強是電腦視覺任務中的核心技術。其有助於建立多樣化的資料呈現,同時解決訓練資料集中的類別不平衡。
增強在電腦視覺中的第一種用法是透過位置增強。此策略能裁剪、翻轉或旋轉所輸入影像以建立增強影像。裁剪可以調整影像的大小,或裁剪原始影像的小部分以建立新影像。旋轉,翻轉和調整大小轉換皆會隨機改變原始影像,且皆有提供新影像的可能性。
增強在電腦視覺中的另一種用途是色彩增強。此策略可調整訓練影像的基本因素,例如其亮度、對比度或飽和度。這些常見的影像轉換會改變色澤、陰影和光平衡,以及影像最暗和最亮區域之間的區隔,藉此建立增強影像。
音訊資料增強
音訊文件,例如語音記錄,也是可以使用資料增強的常見領域。音訊轉換通常包括將隨機或高斯雜訊注入某些音訊、快速轉送零件、以固定速率變更零件的速度,或改變音高。
文字資料增強
文字增強是 NLP 和其他與文本相關的 ML 領域的重要資料增強技術。文字資料的轉換包括隨機句子、更改單詞位置、用近似同義字替換單詞、插入隨機單詞和刪除隨機單詞。
神經風格轉換
神經風格轉換是一種進階資料增強形式,可將影像解構成更小的部分。它使用一系列旋轉圖層,可分隔影像的樣式和情境,從單一影像中生成許多影像。
對抗性訓練
像素等級的變更會為 ML 模型帶來挑戰。部分範例包括在影像上包含一層不明顯的雜訊,以測試模型感知下方影像的能力。這個策略是一種預防性的資料增強形式,針對現實世界中潛在的未經授權存取。
生成式 AI 在資料增強中的作用是什麼?
生成式 AI 在資料增強中扮演極為重要的角色,它可以促進生產合成資料。它有助於增加資料多樣性、讓實際資料建立更流暢,同時保護資料隱私。
生成式對抗網路
生成式對抗網路 (GAN) 是兩個相對作用的中央神經網路框架。生成器生產綜合資料樣本,然後鑑別器再區分真實資料和綜合樣本。
隨著時間的推移,GAN 透過專注於欺騙鑑別器來不斷改善生成器的輸出。可以欺騙辨識器的資料會被視為高品質的綜合資料,並以高度可靠的樣本來提供資料增強功能,這些樣本緊密模仿原始資料分發。
变分自动编码器
變分自動編碼器 (VAE) 是神經網路的一種,可幫助增加核心資料的樣本大小,並減少耗時資料收集的需求。VAE 有兩個連接網路:解碼器和編碼器。編碼器採取樣本影像並將它們轉換為中繼表示法。解碼器採用該表示法並根據其對原始樣本的了解重建類似的影像。VAE 能夠建立與樣本資料高度相似的資料,因此提供極大幫助,在維持原始資料分配之餘也有助於增加多樣性。
AWS 如何支援資料增強需求?
Amazon Web Services (AWS) 上的生成式 AI 服務是一組技術,各種規模的組織都可以使用針對自訂案例的自訂資料來建立和擴展生成式 AI 應用程式。透過新功能、業界領先的基礎模型 (FM) 選擇,以及最具成本效益的基礎設施來加速創新。以下是 AWS 上生成式 AI 服務的兩個範例。
Amazon Bedrock 是一項全面受管服務,提供來自領先 AI 公司的高效能 FM 選擇。可以安全地整合和部署生成式 AI 功能,以進行資料擴充,無需管理基礎架構。
Amazon Rekognition 提供預先訓練和可自訂的電腦視覺功能,從您的影像和影片中擷取資訊和見解。自訂模型開發來分析影像是一項重大任務,需要時間、專業知識和資源。通常需要成千上萬張具有手動標記的影像,才能為模型提供足夠的資料以準確地做出決策。
使用 Amazon Rekognition 自訂標籤,可執行各種資料增強來進行模型訓練,包括了隨機裁剪影像、色彩抖動和隨機高斯雜訊。只需將少量針對使用案例的訓練影像集(通常幾百張或更少)上傳至我們易於使用的主控台。
立即建立帳戶,開始使用 AWS 上的資料遷移。