Amazon SageMaker Clarify

Évaluez les modèles et expliquez les prévisions des modèles.

Qu'est-ce qu'Amazon SageMaker Clarify ?

Les avantages de SageMaker Clarify

Évaluez automatiquement les FM pour votre cas d'utilisation d'IA générative à l'aide de mesures comme la précision, la robustesse et la toxicité qui soutiennent vos initiatives de création d'IA responsable. Pour les critères ou le contenu nuancé exigeant un avis humain sophistiqué, vous pouvez faire appel à vos propres employés ou à une main-d'œuvre gérée fournie par AWS pour examiner les réponses des modèles.
Expliquez comment les fonctionnalités d'entrée contribuent aux prévisions de votre modèle lors du développement et de l'inférence du modèle. Évaluez votre FM pendant sa personnalisation au moyen d'évaluations automatiques et humaines.
Générez des métriques, des rapports et des exemples faciles à comprendre tout au long du flux de travail de personnalisation des FM et de MLOps.
Détectez les biais potentiels et autres risques, comme le prescrivent des directives telles que la norme ISO 42001, lors de la préparation des données, de la personnalisation du modèle et dans vos modèles déployés.

Évaluer les modèles de base

Assistant d'évaluation et rapports

Pour lancer une évaluation, sélectionnez le modèle, la tâche et le type d'évaluation (reporting humain ou automatique). Tirez parti des résultats d'évaluation pour sélectionner le modèle le mieux adapté à votre cas d'utilisation et pour quantifier l'impact de vos techniques de personnalisation de modèles, telles que l'ingénierie de requête, l'apprentissage par renforcement à partir de retours humains (RLHF), la génération augmentée de récupération (RAG) et le réglage fin supervisé (SFT). Les rapports d'évaluation résument les scores selon plusieurs dimensions, ce qui permet des comparaisons et des décisions rapides. Des rapports plus détaillés fournissent des exemples des résultats des modèles ayant obtenu les scores les plus élevés et les plus faibles, ce qui vous permet de vous concentrer sur les points à optimiser davantage.
Assistant d'évaluation et rapports

Personnalisation

Démarrez rapidement avec des jeux de données sélectionnés, tels que CrowS-Pairs, TriviaQA et WikiText, et des algorithmes sélectionnés, tels que Bert-Score, Rouge et F1. Vous pouvez personnaliser vos propres jeux de données rapides et algorithmes de notation spécifiques à votre application d'IA générative. L'évaluation automatique est également disponible sous forme de bibliothèque open source sur GitHub pour vous permettre de l'exécuter n'importe où. Des exemples de blocs-notes vous montrent comment exécuter des évaluations par programmation pour tous les FM, y compris les modèles qui ne sont pas hébergés sur AWS, et comment intégrer les évaluations FM avec MLOps et les outils de gouvernance SageMaker, tels que SageMaker Pipelines, SageMaker Model Registry et SageMaker Model Cards.
Personnalisation

Évaluations fondées sur l'être humain

Certains critères d'évaluation sont nuancés ou subjectifs et nécessitent un jugement humain pour être évalués. Outre les évaluations automatisées basées sur des métriques, vous pouvez demander à des humains (soit vos propres employés, soit une équipe d'évaluation gérée par AWS) d'évaluer les résultats du modèle sur des critères tels que la serviabilité, le ton et le respect de la voix de la marque. Les évaluateurs humains peuvent également vérifier la cohérence avec les directives, la nomenclature et la voix de la marque spécifiques à l'entreprise. Configurez des instructions personnalisées pour expliquer à votre équipe d'évaluation comment évaluer les invites, par exemple en les classant ou en indiquant des pouces vers le haut ou vers le bas.
Évaluations fondées sur l'être humain

Évaluations de la qualité des modèles

Évaluez votre FM pour déterminer s'il fournit des réponses de haute qualité pour votre tâche spécifique d'IA générative à l'aide d'évaluations automatiques et/ou humaines. Évaluez la précision du modèle à l'aide d'algorithmes d'évaluation spécifiques, tels que Bert Score, Rouge et F1, adaptés à des tâches spécifiques d'IA générative, telles que la synthèse, la réponse à des questions et la classification. Vérifiez la robustesse sémantique de votre sortie FM lorsque vous y êtes invité en cas de perturbations préservant la sémantique des entrées, telles que les ButterFingers, les majuscules aléatoires et les ajouts/suppressions d'espaces.
Évaluations de la qualité des modèles

Évaluations de la responsabilité des modèles

Évaluez le risque que votre FM code des stéréotypes liés aux catégories de race/couleur, genre/identité de genre, orientation sexuelle, religion, âge, nationalité, handicap, apparence physique et statut socio-économique à l'aide d'évaluations automatiques et/ou humaines. Vous pouvez également évaluer le risque de contenu toxique. Ces évaluations peuvent être appliquées à toute tâche impliquant la génération de contenu, y compris la génération ouverte, la synthèse et la réponse à des questions.

Évaluations de la responsabilité des modèles

Prédictions du modèle

Expliquer les prédictions du modèle

SageMaker Clarify est intégré à SageMaker Experiments en vue de fournir des scores détaillant les caractéristiques qui ont le plus contribué à la prédiction de votre modèle sur une entrée particulière pour les modèles tabulaires, de traitement du langage naturel (NLP) et de vision par ordinateur. Pour les jeux de données tabulaires, SageMaker Clarify peut également produire un graphique d'importance des caractéristiques agrégées qui donne un aperçu du processus de prédiction global du modèle. Ces informations peuvent aider à déterminer si une entrée spécifique du modèle a plus d'influence qu'elle ne le devrait sur le comportement global du modèle.
Capture d'un graphique de l'importance d'une caractéristique pour un modèle d'entraînement SageMaker Experiments

Surveillances des modifications de comportement de votre modèle

Les changements dans les données en direct peuvent exposer un nouveau comportement de votre modèle. Par exemple, un modèle de prédiction du risque de crédit formé sur les données d'une région géographique peut modifier l'importance qu'il attribue à diverses caractéristiques lorsqu'il est appliqué aux données d'une autre région. SageMaker Clarify est intégré à SageMaker Model Monitor pour vous avertir, à l'aide de systèmes d'alerte tels que CloudWatch, si l'importance des caractéristiques d'entrée change, entraînant une modification du comportement du modèle.
Capture d'écran de la surveillance de l'importance d'une caractéristique dans SageMaker Model Monitor

Détecter les biais

Identifier les déséquilibres dans les données

SageMaker Clarify permet d'identifier les biais potentiels lors de la préparation des données sans écrire de code. Vous spécifiez des caractéristiques d'entrée comme le sexe ou l'âge, et SageMaker Clarify exécute une tâche d'analyse pour détecter les biais potentiels dans ces caractéristiques. SageMaker Clarify présente alors un rapport visuel avec une description des sources et des mesures de biais possibles afin que vous puissiez identifier les étapes pour remédier au biais. En cas de déséquilibres, vous pouvez utiliser SageMaker Data Wrangler pour équilibrer vos données. SageMaker Data Wrangler propose trois opérateurs d'équilibrage : sous-échantillonnage aléatoire, sur-échantillonnage aléatoire et SMOTE pour rééquilibrer les données dans vos jeux de données non équilibrés.

Capture d'écran de métriques de biais pendant la préparation de données dans SageMaker Data Wrangler

Contrôle de biais dans votre modèle entraîné

Après avoir entraîné votre modèle, vous pouvez exécuter une analyse de biais SageMaker Clarify à travers Amazon SageMaker Experiments pour vérifier que votre modèle ne présente pas de biais potentiels comme des prédictions qui produisent un résultat négatif plus fréquemment pour un groupe que pour un autre. Vous spécifiez les fonctionnalités d'entrée pour lesquelles vous souhaitez mesurer le biais dans les résultats du modèle, et SageMaker effectue une analyse et vous fournit un rapport visuel qui identifie les différents types de biais pour chaque fonctionnalité. La méthode open-source AWS Fair Bayesian Optimization peut aider à atténuer les biais en ajustant les hyper-paramètres d'un modèle.

Capture d'écran des métriques de biais dans un modèle entraîné dans SageMaker Experiments

Surveiller votre modèle déployé pour détecter tout biais

Un biais peut être introduit ou exacerbé dans les modèles de ML déployés lorsque les données d'entraînement diffèrent des données réelles que le modèle voit pendant le déploiement. Par exemple, les résultats d'un modèle de prévision des prix des logements peuvent être biaisés si les taux hypothécaires utilisés pour former le modèle diffèrent des taux hypothécaires actuels. Les capacités de détection de biais de SageMaker Clarify sont intégrées à Amazon SageMaker Model Monitor de sorte que lorsque SageMaker détecte un biais au-delà d'un certain seuil, il génère automatiquement des mesures que vous pouvez visualiser dans Amazon SageMaker Studio et par le biais de mesures et d'alarmes Amazon CloudWatch.

Capture d'écran de la surveillance de biais dans SageMaker Model Monitor

Nouveautés

  • Date (de la plus récente à la plus ancienne)
Aucun résultat correspondant
1