使用人為產生的資料,以就特定任務或使用公司和產業資料自訂 FM

監督式微調

透過監督式學習,模型將獲得所需輸出的具體範例。這些範例稱為示範資料,可讓模型學習如何回應和回答日後未知的使用者請求。透過 SageMaker Ground Truth Plus,AWS 專業註解者團隊可根據您特定的指示產生新的高品質示範資料。示範資料的範例包括影像和影片的字幕、文字摘要、問題的答覆等等。示範資料可用來為您的使用案例自訂現有的 FM,或是微調您從零開始建置的模型。

  • 問題與答案:透過問題與答案配對,您可以準備示範資料集,以訓練您的大型語言模型如何回答問題。
Amazon SageMaker Ground Truth Plus 問題與答案
  • 影像註解:使用影像註解功能,您可以準備資料集,以豐富的細節描述影像中的場景和物件,以便訓練文字轉換影像模型,進而建立符合您意圖的精確創意影像。此外,這個功能也可用來訓練影像轉換文字模型,使其輸出精準的影像場景描述。
Amazon SageMaker Ground Truth Plus 影像註解
  • 影片註解:使用影片註解功能,您可以準備以豐富細節描述影片動作和場景的資料集,以便訓練文字轉換影片模型。高品質的影片註解訓練資料,可讓您根據自己的意圖產生更精準、更具創意的影片。此外也可用來訓練影片轉換文字模型,使其提供精準的影片描述。
影片註解:「Amazon SageMaker Ground Truth Plus 影片註解」

人類意見回饋強化學習 (RLHF)

在人類意見回饋強化學習 (RLHF) 中,資料註解者可對模型藉由排名和/或分類其回應而產生的輸出提供直接的反饋和指引。這些資料稱為比較和排名資料,後續可用來訓練模型。舉例來說,根據精確性、相關性或明確性等條件,將文字回應從最佳到最差進行排名,就是一種比較和排名資料。比較和排名資料可用來為您的使用案例自訂現有的 FM,或是從頭開始微調您建置的模型。

Amazon SageMaker Ground Truth 物件偵測

透過人工評估選取最適合您使用案例的模型

模型評估

利用人類反饋,根據您最重視的可自訂條件清單 (例如精確性、相關性、毒性、偏差、品牌聲音和風格) 評估及比較模型的輸出,並選取最適合您使用案例的模型。AWS 提供了多種方法,讓您快速開始使用模型評估。您可以利用 AWS 管理的團隊,透過 SageMaker Ground Truth 來評估、比較和選取模型。現在,您還可以透過 SageMaker StudioSageMaker JumpstartAmazon Bedrock 來存取模型評估功能,並讓您的內部團隊只需幾個步驟即可開始評估模型。

紅軍測試

刻意嘗試從模型引發有害回應,並有系統地檢視其輸出,以找出漏洞、提升整體安全性、穩健性和可靠性。

建立用於模型訓練的高品質標記資料集

預先建置的標記範本

透過 SageMaker Ground Truth,您可以將超過 30 個特定標記工作流程用於影像資料、影片、文字和 3D 點雲端中的多個註釋使用案例。

  • 影像分類:影像分類工作流程可讓您根據預先定義的一組標籤對影像進行分類。影像分類很適合用於需要考量完整影像脈絡的場景偵測模型。例如,我們可以建置影像分類模型
影像分類
  • 影像物件偵測:您可以使用物件偵測工作流程來識別和標記影像中的相關物件 (例如車輛、行人、狗、貓)。標記任務包含在影像中的相關物件周圍繪製二維 (2D) 週框方塊。透過配有已標記週框方塊的影像訓練的電腦視覺模型,會記住該方塊內對應到指定物件的像素。
影像物件偵測
  • 影像語意區隔:您可以使用語意區隔工作流程,標記出影像中與您的模型需要學習的標籤相對應的確切部分。透過標記個別像素,此功能可以提供非常精準的訓練資料。例如,透過語義分割可以準確地擷取影像中不規則的車輛形狀。
影像語意區隔
  • 影片物件偵測:影片物件偵測工作流程可讓您識別一系列影片畫面內的相關物件。例如,在為自動駕駛汽車建置感知系統時,您可以偵測在場景中,車輛周圍的其他車輛。
影片物件偵測
  • 影片物件追蹤:透過影片物件追蹤工作流程,您可以追蹤一系列影片畫面中的相關物件。例如,在體育遊戲使用案例中,您可以在整個遊戲過程中準確地標記玩家。
影片物件追蹤
  • 影片剪輯分類:透過影片剪輯分類工作流程,您可以將影片檔案分類為預先指定的類別。例如,您可以選取最準確描述影片的預先指定類別,例如「體育轉播」或「繁忙路口的交通擁堵」。
影片剪輯分類
  • 文字分類:文字分類功能會根據一組預先定義的標籤對文字字串進行分類。此分類通常用於自然語言處理 (NLP) 模型,以識別主題 (如產品描述、電影評論) 或情緒等項目。
文字分類
  • 命名實體辨識:命名實體 (NER) 包括仔細檢查文字資料以找出稱為命名實體的片語,以及使用標籤 (例如「人員」、「組織」或「品牌」) 對每個片語進行分類。
命名實體辨識
  • 3D 點雲端物件偵測:透過物件偵測工作流程,您可以識別和標記 3D 點雲端內的相關物件。例如,在自駕車使用案例中,您可以準確地標記車輛、車道和行人。
3D 點雲端物件偵測
  • 3D 點雲端物件追蹤:透過物件追蹤工作流程,您可以追蹤相關物件的軌跡。例如,自動駕駛汽車需要追蹤其他車輛、車道和行人的動作。
3D 點雲端物件追蹤
  • 3D 點雲端語意區隔:透過語意區隔工作流程,您可以將 3D 點雲端的多個點劃分為預先指定的類別。以自動駕駛汽車為例,Ground Truth 可以針對街道、樹葉和建築物進行分類。
3D 點雲端語意區隔

自訂工作流程

SageMaker Ground Truth 可讓您建立自己的自訂標記工作流程。工作流程包含:(1) UI 範本,可為標籤人員提供完成標記任務的指示和工具。您可以選取多種 UI 範本,也可以上傳自己的 Javascript/HTML 範本。(2) 封裝在 AWS Lambda 函數中的任何預先處理邏輯。Lambda 函數可提供要以任何額外的脈絡為標籤人員標記的資料,以及 (3) 封裝在 AWS Lambda 函數中的任何後處理邏輯,用以新增精確性改善演算法。該演算法可評估人工註釋的品質,也可以在多個標籤人員收到相同資料時找出對「正確」結果的共識。

在 Ground Truth 建立您的自訂工作流程

品質保證和共識

SageMaker Ground Truth 可讓您驗證註釋任務的品質,方法是實作品質保證步驟,例如設定核准工作流程、審查及變更註釋、路由任務、運用機器驗證,以及追蹤品質指標。您也可以使用將任務審查路由給多人的演算法,在工作流程中建立共識,以議定資料精確性等級。

品質保證和共識

選取適合您的人力選項

無論您是要由 AWS 代為管理人力,還是要利用現有的內部人力,SageMaker Ground Truth 都提供適當的選項和靈活性。

AWS 受管人力

SageMaker Ground Truth Plus 可代您招聘及管理可擴展的專業人員。例如,您可能需要在標記語音檔案方面饒富經驗的團隊,或具有特定語言能力的團隊。在更進階的使用案例中,您可能需要可以產生示範資料內容的工作團隊。AWS 可以為為期不同的各種專案在全球各地招募、僱用、訓練和管理任何規模的團隊。AWS 受管人力可以滿足您的安全性、隱私和合規要求。

內部私人人力

如果您有內部現有的資料操作團隊,他們可以利用 SageMaker Ground Truth 工具和工作流程,在各種使用案例中註釋資料。如果您屬意於自身團隊的專業知識,或是有特定資料保密要求,您可以採用此選項。

您偏好的廠商

您可以在 AWS Marketplace 中選取偏好的註釋廠商,以在 SageMaker Ground Truth 中完成任務。這有助於減少尋找個別工作者和建置團隊的手動工作。

群眾

透過 Amazon Mechanical Turk 將您的註釋工作群眾外包,對小型和大型專案而言都是具有成本效益且可擴展的方法。您可以聯繫眾多位於不同地理位置的工作者、快速設計及反覆運作任務,並根據您的特定要求調整工作流程。

加速並自動化人工參與,同時降低成本

內建輔助工具

使用 SageMaker Ground Truth 的內建輔助工具減少套用標籤所需的工作量,並協助工作者有效地完成人工參與任務,從而節省時間和成本。

內建輔助工具

互動式儀表板

SageMaker Ground Truth Plus 提供互動式儀表板和使用者介面,因此您可以跨多個專案監控訓練資料集的進度、追蹤專案指標 (例如,每日輸送量)、檢查品質標籤,並為標記的資料提供意見回饋。

互動式儀表板