Amazon Bedrock 防護機制

實施根據您的應用程式需求和負責任的 AI 政策自訂的保護

利用 Amazon Bedrock 防護機制建立負責任 AI 應用程式

Amazon Bedrock 防護機制除了 FM 的原生保護之外,還提供額外的可自訂保護措施,透過以下方式提供業界最好的安全保護:

  • 攔截高達 85% 的有害內容
  • 針對 RAG 和匯總工作負載過濾超過 75% 的幻覺回應
  • 讓客戶在單一解決方案中自訂並應用安全、隱私和真實性保護

為所有應用程式帶來一致水平的 AI 安全

Amazon Bedrock 防護機制會根據使用案例特定的政策來評估使用者輸入和 FM 回應,並提供額外的防護層,無論基礎 FM 為何。 Amazon Bedrock 防護機制是主要雲端供應商提供的唯一負責任 AI 功能,可讓客戶在單一解決方案中為其生成式 AI 應用程式建立和自訂安全、隱私和真實性保護,並且適用於 Amazon Bedrock 中的所有大型語言模型 (LLM) 以及精密調整的模型。 客戶可以建立多個防護機制,每個防護機制都設定不同的控制項組合,並在不同的應用程式和使用場景中使用這些防護機制。 Amazon Bedrock 防護機制也可與 Amazon Bedrock 代理程式和 Amazon Bedrock 知識庫整合,以建置符合您負責任 AI 政策之生成式 AI 應用程式。此外,Amazon Bedrock 防護機制還提供 ApplyGuardrail API,用於評估使用者輸入和 Bedrock 以外任何自訂或第三方 FM 產生的模型回應。

UI 螢幕擷取畫面

在生成式 AI 應用程式中封鎖不需要的主題

組織可識別需要管理生成式 AI 應用程式內的互動,以提供相關且安全的使用者體驗。使用者希望進一步自訂互動,以保持主題與其業務相關,並符合公司政策。Amazon Bedrock 防護機制可讓您使用簡短的自然語言,描述在應用程式環境中定義一組要避免的主題。 Amazon Bedrock 防護機制可偵測並封鎖屬於受限制主題的使用者輸入內容和 FM 回應。例如,可以設計銀行助理以避免與投資建議相關的主題。

Amazon Bedrock 防護機制內容篩選器

根據您負責任的 AI 政策篩選有害內容

Amazon Bedrock 防護機制提供具有可設定閾值的內容篩選條件,以篩選涉及仇恨、辱罵、性、暴力、不當行為 (包含犯罪活動) 以及防範即時攻擊 (提示注入和破解)。大多數 FM 已提供內建保護,以防止產生有害回應。除了這些保護措施之外,Amazon Bedrock 防護機制還可以讓您在不同的內容類別中設定閾值,以篩選出有害互動。增加篩選條件的強度會提升篩選的侵略性。它們會自動評估使用者輸入和模型回應,以偵測並協助防止屬於受限類別的內容。例如,電子商務網站可以設計在線助理,以避免使用不當的語言,例如仇恨言論或羞辱。

Amazon Bedrock 防護機制拒絕的主題

編輯敏感資訊 (PII) 以保護隱私權

Amazon Bedrock 防護機制可讓您偵測使用者輸入內容和 FM 回應中的個人身分識別資訊 (PII) 等敏感內容。可以從預先定義的 PII 清單中選取,也可以使用規則表達式 (RegEx) 定義自訂的敏感資訊類型。依據使用場景,您可以有選擇地拒絕包含敏感資訊的輸入內容,或在 FM 回應中編輯這些資訊。例如,您可以編輯使用者的個人資訊,同時根據呼叫中心的客戶和客服人員對話記錄產生摘要。

偽名化和 gdpr 圖示

使用自訂字詞篩選條件封鎖不適當的內容

您可透過 Amazon Bedrock 防護機制設定一組自訂字詞或片語,在使用者與生成式 AI 應用程式之間的互動中需要偵測並封鎖這些字詞或片語。還可透過防護機制偵測並封鎖褻瀆言語和具體自訂字詞,例如競爭對手名稱或其他冒犯字詞。

內容篩選條件螢幕擷取畫面

使用關聯式接地檢查偵測模型回應中的幻覺

組織需要部署真實且值得信賴的生成式 AI 應用程式,以維持和增加使用者的信任。然而,使用 FM 建立的應用程式,可能會因為幻覺而產生不正確的訊息。例如,FM 可能產生偏離來源資訊的回應、混合多個資訊或發明新資訊。Amazon Bedrock 防護機制支援關聯式接地檢查,以偵測和篩選幻覺,檢查回應在來源資訊中是否不接地 (例如實際上不準確或是新資訊),且與使用者的查詢或指示無關。關聯式接地檢查可用於偵測 RAG、摘要和對話應用程式的幻覺,其中來源資訊可用作參考來驗證模型回應。

使用關聯式接地檢查偵測模型回應中的幻覺