Integritätsschutz für Amazon Bedrock

Implementieren Sie Schutzmaßnahmen, die auf Ihre Anwendungsanforderungen und verantwortungsvollen KI-Richtlinien zugeschnitten sind.

Verantwortungsvolle KI-Anwendungen mit Integritätsschutz für Amazon Bedrock entwickeln

Sehen Sie sich Demos zum Erstellen und Anwenden von maßgeschneiderten Integritätsschutz mit Basismodellen (FMs) an, um Richtlinien für verantwortungsvolle KI in Ihren Anwendungen der generativen KI zu implementieren.

Ein einheitliches Maß an KI-Sicherheit für alle Ihre Anwendungen

Guardrails für Amazon Bedrock wertet Benutzereingaben und FM-Antworten auf der Grundlage von anwendungsfallspezifischen Richtlinien aus und bietet unabhängig vom zugrunde liegenden FM eine zusätzliche Sicherheitsebene. Integritätsschutz kann auf alle großen Sprachmodelle (LLMs) in Amazon Bedrock angewendet werden, einschließlich fein abgestimmter Modelle. Kunden können mehrere Integritätsschutzmaßnahmen erstellen, die jeweils mit einer anderen Kombination von Steuerelementen konfiguriert sind, und diesen Integritätsschutz für verschiedene Anwendungen und Anwendungsfälle verwenden. 

Screenshot der Benutzeroberfläche

Blockieren Sie unerwünschte Themen in Ihren generativen KI-Anwendungen

Unternehmen erkennen die Notwendigkeit, Interaktionen innerhalb generativer KI-Anwendungen zu verwalten, um ein relevantes und sicheres Nutzererlebnis zu gewährleisten. Diese möchten die Interaktionen weiter anpassen, damit sie sich auf Themen konzentrieren, die für ihr Unternehmen relevant sind, und sich an den Unternehmensrichtlinien orientieren. Mit Hilfe einer kurzen Beschreibung in natürlicher Sprache können Sie mit Guardrails für Amazon Bedrock eine Reihe von Themen definieren, die im Kontext Ihrer Anwendung zu vermeiden sind. Guardrails erkennt und blockiert Benutzereingaben und FM-Antworten, die in die eingeschränkten Bereiche fallen. Beispielsweise kann ein Bankassistent so konzipiert werden, dass er Themen im Zusammenhang mit Anlageberatung vermeidet.

Guardrails für Amazon-Bedrock-Inhaltsfilter

Filtern Sie schädliche Inhalte auf der Grundlage Ihrer Richtlinien für verantwortungsvolle KI

Integritätsschutz für Amazon Bedrock bietet Inhaltsfilter mit konfigurierbaren Schwellenwerten, um schädliche Inhalte wie Hass, Beleidigungen, Sexualität, Gewalt, Fehlverhalten (einschließlich krimineller Aktivitäten) und Prompt-Angriffe (Prompt Injection und Jailbreak) zu filtern. Die meisten FMs verfügen bereits über integrierte Schutzmaßnahmen, um die Entstehung schädlicher Reaktionen zu verhindern. Zusätzlich zu diesen Schutzmaßnahmen können Sie über Guardrails Schwellenwerte für die verschiedenen Kategorien konfigurieren, um schädliche Interaktionen herauszufiltern. Eine Erhöhung der Filterstärke erhöht die Aggressivität der Filterung. Guardrails wertet automatisch sowohl Benutzeranfragen als auch FM-Antworten aus, um Inhalte zu erkennen und zu verhindern, die in eingeschränkte Kategorien fallen. Beispielsweise kann eine E-Commerce-Website ihren Online-Assistenten so gestalten, dass unangemessene Ausdrücke wie Hassreden oder Beleidigungen vermieden werden.

Guardrails für von die Amazon Bedrock verweigerte Themen

Vertrauliche Informationen (PII) zum Schutz der Privatsphäre zensieren

Integritätsschutz für Amazon Bedrock ermöglicht es Ihnen, vertrauliche Inhalte wie persönlich identifizierbare Informationen (PII) in Benutzereingaben und FM-Antworten zu erkennen. Sie können aus einer Liste vordefinierter PII auswählen oder mithilfe regulärer Ausdrücke (RegEx) einen benutzerdefinierten Typ vertraulicher Informationen definieren. Je nach Anwendungsfall können Sie Eingaben, die vertrauliche Informationen enthalten, selektiv ablehnen oder sie in FM-Antworten zensieren. So können Sie z. B. in einem Callcenter die persönlichen Daten der Benutzer bei der Erstellung von Zusammenfassungen aus Gesprächsprotokollen von Kunden und Kundendienstmitarbeitern schwärzen.

Pseudonymisierung und DSGVO-Symbol

Unangemessene Inhalte mit einem benutzerdefinierten Wortfilter blockieren

Integritätsschutz für Amazon Bedrock ermöglicht es Ihnen, eine Reihe von benutzerdefinierten Wörtern oder Ausdrücken zu konfigurieren, die Sie bei der Interaktion zwischen Ihren Benutzern und generativen KI-Anwendungen erkennen und blockieren möchten. Auf diese Weise können Sie auch Obszönitäten sowie bestimmte benutzerdefinierte Wörter wie Konkurrenznamen oder andere anstößige Wörter erkennen und blockieren.

Screenshot des Inhaltsfilters