Amazon Bedrock のガードレール

アプリケーション要件と責任ある AI ポリシーに合わせてカスタマイズされた保護手段を実装する

Amazon Bedrock のガードレールで責任ある AI アプリケーションを構築する

FM のネイティブ保護だけでなく、カスタマイズ可能な追加の保護も提供する Amazon Bedrock のガードレールは、以下を実行することで業界最高レベルの安全保護を実現します。

  • 最大 85% の有害コンテンツをブロック
  • RAG および要約ワークロードのハルシネーション応答を 75% 超フィルタリング
  • お客様が単一のソリューション内で安全性、プライバシー、および真実性の保護をカスタマイズして適用できるようにする

すべてのアプリケーションで一貫したレベルの AI 安全性を実現

Amazon Bedrock のガードレールは、ユースケース固有のポリシーに基づいてユーザー入力と FM 応答を評価し、基盤となる FM を問わずに追加の保護レイヤーを提供します。 Amazon Bedrock のガードレールは、大手クラウドプロバイダーが提供する唯一の責任ある AI 機能であり、お客様が単一のソリューションで生成 AI アプリケーションの安全性、プライバシー、および真実性の保護を構築し、カスタマイズすることを可能にします。ガードレールは、Amazon Bedrock のすべての大規模言語モデル (LLM)、および微調整されたモデルで動作します。 お客様は、それぞれ異なるコントロールの組み合わせで設定された複数のガードレールを作成し、これらのガードレールをさまざまなアプリケーションやユースケースで使用できます。 Amazon Bedrock のガードレールは、責任ある AI ポリシーに適合する生成 AI アプリケーションを構築するために、Amazon Bedrock のエージェントやナレッジベースと統合することも可能です。さらに、Amazon Bedrock のガードレールは、ユーザー入力や、カスタム FM またはサードパーティー FM が Bedrock 外で生成したモデル応答を評価するための ApplyGuardrail API も提供します。

UI のスクリーンショット

生成 AI アプリケーション内の望ましくないトピックをブロックする

組織は、適切で安全なユーザーエクスペリエンスを実現するために、生成型AIアプリケーション内のインタラクションを管理する必要性を認識しています。これらの組織は自社のビジネスに関連するトピックにとどまり、会社の方針に沿うように、やり取りをさらにカスタマイズしたいと考えています。Amazon Bedrock のガードレールでは、自然言語を用いた短い説明を使用して、アプリケーションのコンテキスト内で避ける必要のあるトピック一式を定義することができます。 Amazon Bedrock のガードレールは、制限されたトピックに当てはまるユーザー入力と FM 応答を検出してブロックします。たとえば、バンキングアシスタントは、投資アドバイスに関連するトピックを避けるように設計できます。

アマゾン岩盤コンテンツフィルター用ガードレール

責任ある AI ポリシーに基づいて有害なコンテンツをフィルタリングします

Amazon Bedrock のガードレールは、しきい値を設定できるコンテンツフィルターを提供して、嫌悪から侮辱、性的、暴力、不正行為 (犯罪行為を含む) におよぶ有害なコンテンツをフィルタリングし、プロンプト攻撃 (プロンプトインジェクションやジェイルブレイク) を防ぎます。ほとんどのFMには、有害な応答の発生を防ぐための保護機能がすでに組み込まれています。Amazon Bedrock のガードレールでは、これらの保護の他にもさまざまなコンテンツカテゴリ全体でしきい値を設定して、有害なやり取りをフィルタイリングし、除外することができます。フィルターの強度を高めると、フィルタリングの厳格性が高まります。ガードレールは、ユーザー入力とモデル応答の両方を自動的に評価することで、制限されたカテゴリに当てはまるコンテンツを検出し、これらを防止するために役立ちます。例えば、e コマースサイトでは、ヘイトスピーチや侮辱などの不適切な言葉を使わないようにオンラインアシスタントを設計できます。

アマゾン岩盤用ガードレール拒否トピック

プライバシーを保護するために機密情報 (PII) をマスキング

Amazon Bedrock のガードレールは、ユーザー入力や FM 応答に含まれる個人を特定できる情報 (PII) などの機密コンテンツの検出を可能にします。事前定義された PII のリストから選択することも、正規表現 (RegEx) を使用してカスタムの機密情報の種類を定義することもできます。ユースケースに基づいて、選択的に機密情報を含む入力を拒否したり、FM の応答でマスキングしたりできます。たとえば、コールセンターで顧客とエージェントの会話記録から要約を生成しながら、ユーザーの個人情報を編集できます。

仮名化とGDPRアイコン

カスタム単語フィルターで不適切なコンテンツをブロック

Amazon Bedrock のガードレールでは、ユーザーと生成 AI アプリケーション間でのやり取りで検出およびブロックする一連のカスタム単語やフレーズを設定できます。これにより、冒涜的な言葉、競合他社の名称などの特定のカスタム単語、他の攻撃的な単語を検出およびブロックすることもできます。

コンテンツフィルターのスクリーンショット

コンテキストを踏まえたグラウンディングチェックを使用して、モデル応答におけるハルシネーションを検出

組織は、ユーザーの信頼を維持し、高めるために、真実で信頼できる生成 AI アプリケーションをデプロイする必要があります。しかし、FM を使用して構築されたアプリケーションは、ハルシネーションを理由とする誤った情報を生成する可能性があります。例えば、FM は、ソース情報から逸脱した応答を生成したり、複数の情報を合成したり、新しい情報をでっち上げたりすることがあります。Amazon Bedrock のガードレールは、応答がソース情報を根拠としておらず (事実上不正確または新しい情報など)、ユーザーのクエリや指示と無関係である場合にハルシネーションを検出してフィルタリングするための、コンテキストを踏まえたグラウンディングチェックをサポートしています。コンテキストを踏まえたグラウンディングチェックは、RAG、要約、会話型アプリケーションのハルシネーションを検出するために使用できます。この場合、ソース情報はモデル応答を検証するための参照として使用できます。

コンテキストを踏まえたグラウンディングチェックを使用して、モデル応答におけるハルシネーションを検出