Tarification d’Amazon Bedrock

Vue d'ensemble des tarifs

Amazon Bedrock est un service entièrement géré qui propose un choix de modèles de fondation (FM) performants via une API unique, ainsi qu’un large éventail de capacités permettant de créer des applications d’IA génératives alliant sécurité, confidentialité et IA responsable.

Avec Amazon Bedrock, l’inférence et la personnalisation des modèles vous sont facturées. Vous avez le choix entre deux plans tarifaires pour l’inférence : 1. À la demande et par lots : ce plan vous permet d’utiliser les FM sur la base du paiement à l’utilisation sans avoir à prendre d’engagements temporels. 2. Débit alloué : ce plan vous permet d’allouer un débit suffisant pour répondre aux exigences de performances de votre application en échange d’un engagement à durée déterminée.

Modèles de tarification

À la demande et par lot

Avec le mode à la demande, vous ne payez que ce que vous consommez, sans engagement de durée. Pour les modèles de génération de texte, vous êtes facturé pour chaque jeton d’entrée traité et chaque jeton de sortie généré. Pour les modèles d’intégration, vous êtes facturé pour chaque jeton d’entrée traité. Un jeton est composé de quelques caractères et se réfère à l’unité de base du texte qu’un modèle apprend pour comprendre la saisie et l’invite de l’utilisateur. Pour les modèles de génération d’images, vous êtes facturé pour chaque image générée.

Inférence entre régions : le mode à la demande prend également en charge l’inférence entre régions pour certains modèles. Il permet aux développeurs de gérer de manière fluide les pics de trafic en utilisant le calcul dans différentes Régions AWS et d’obtenir des limites de débit plus élevées et une résilience accrue. L’utilisation de l’inférence entre régions n’entraîne aucun coût supplémentaire et le prix est calculé sur la base de la région dans laquelle vous avez fait la demande (région source).

Avec le mode par lots, vous pouvez fournir un ensemble d’invites dans un seul fichier d’entrée et recevoir les réponses dans un seul fichier de sortie, ce qui vous permet d’obtenir des prédictions simultanées à grande échelle. Les réponses sont traitées et stockées dans votre compartiment Amazon S3 afin que vous puissiez y accéder ultérieurement. Amazon Bedrock propose certains modèles de fondation (FM) provenant des principaux fournisseurs d’IA tels qu’Anthropic, Meta, Mistral AI et Amazon pour l’inférence par lots à un prix 50 % inférieur à celui de la tarification d’inférence à la demande. Consultez la liste des modèles ici.

Latence optimisée (prévisualisation publique)

L’inférence à latence optimisée pour les modèles de fondation dans Amazon Bedrock permet d’accélérer les temps de réponse des modèles et d’améliorer la réactivité de vos applications d’IA générative. Vous pouvez utiliser l’inférence à latence optimisée pour Amazon Nova Pro, le modèle Claude 3.5 Haiku d’Anthropic et les modèles Llama 3.1 405B et 70B de Meta. Après analyse, Anthropic a pu constater que, grâce à l’inférence à latence optimisée sur Amazon Bedrock, Claude 3.5 Haiku s’exécute plus rapidement sur AWS que sur n’importe quelle autre solution. En outre, grâce à l’inférence à latence optimisée dans Bedrock, Llama 3.1 405B et 70B s’exécutent plus rapidement sur AWS que sur les solutions des principaux autres fournisseurs de cloud. Consultez cette section pour en savoir plus.

Débit alloué

Avec le mode de débit provisionné, vous pouvez acheter des unités de modèle pour un modèle de base ou un modèle personnalisé spécifique. Le mode de débit provisionné est principalement conçu pour les charges de travail d’inférence cohérentes importantes qui nécessitent un débit garanti. Les modèles personnalisés ne sont accessibles qu’à l’aide du débit provisionné. Une unité modèle fournit un certain débit, qui est mesuré par le nombre maximum de jetons d’entrée ou de sortie traités par minute. Avec la tarification du débit provisionné, vous êtes facturé à l’heure, vous avez la possibilité de choisir entre des conditions d’engagement d’un mois ou de six mois.

Importation de modèles personnalisés

L’importation de modèles personnalisés vous permet de tirer parti de vos investissements antérieurs en matière de personnalisation de modèles dans Amazon Bedrock et de les utiliser de la même manière entièrement gérée que les modèles de base hébergés existants de Bedrock. Vous pouvez importer des pondérations personnalisées pour les architectures de modèles prises en charge et diffuser le modèle personnalisé en mode à la demande. L’importation d’un modèle personnalisé dans Bedrock est gratuite. Une fois que vous avez importé un modèle, vous pouvez y accéder à la demande sans avoir à effectuer aucune action sur le plan de contrôle. L’inférence de modèle ne vous est facturée que sur la base du nombre de copies de votre modèle personnalisé nécessaires pour gérer votre volume d'inférence et de la durée pendant laquelle chaque copie de modèle est active, facturée par périodes de 5 minutes. Une copie de modèle est une instance unique d’un modèle importé prête à répondre aux demandes d’inférence. Le prix par copie de modèle par minute dépend de facteurs tels que l’architecture, la longueur du contexte, la Région AWS, la version de l’unité de calcul (génération de matériel) et est hiérarchisé en fonction de la taille de copie du modèle.

Modèles Marketplace

Amazon Bedrock Marketplace vous permet de découvrir, de tester et d’utiliser plus de 100 modèles de fondations populaires, émergents et spécialisés dans Bedrock. Les modèles Amazon Bedrock Marketplace sont déployés sur des points de terminaison où vous pouvez sélectionner le nombre d’instances et les types d’instances que vous souhaitez, ainsi que configurer vos politiques de mise à l’échelle automatique pour répondre aux exigences de votre charge de travail. Pour les modèles propriétaires, le prix du logiciel défini par le fournisseur du modèle (par heure, facturable par incréments d’une seconde ou selon la demande) et un prix d’infrastructure basé sur l’instance que vous sélectionnez vous sont facturés. Vous pouvez consulter ces prix avant de souscrire au modèle de fournisseur et également consulter l’annonce du modèle sur AWS Marketplace. Pour les modèles accessibles au public, seul le prix de l’infrastructure vous est facturé en fonction de l’instance que vous sélectionnez. Apprenez-en plus ici.

Personnalisation et optimisation

Personnalisation du modèle

Avec Amazon Bedrock, vous pouvez personnaliser les FM en fonction de vos données afin de fournir des réponses adaptées à des tâches spécifiques et à votre contexte commercial. Vous pouvez affiner les modèles à l’aide de données étiquetées ou utiliser un pré-entraînement continu avec des données non étiquetées. Pour la personnalisation d’un modèle de génération de texte, vous êtes facturé pour l’entraînement du modèle en fonction du nombre total de jetons traités par le modèle (nombre de jetons dans le corpus de données d’entraînement multiplié par le nombre d’époques) et pour le stockage du modèle facturé par mois et par modèle. Une époque correspond à un passage complet dans votre jeu de données d’entraînement lors d’un ajustement ou d’un pré-entraînement continu. Les inférences utilisant des modèles personnalisés sont facturées dans le cadre du plan de débit provisionné et nécessitent que vous achetiez le débit provisionné. Une unité de modèle est mise à disposition sans engagement de durée pour l’inférence sur un modèle personnalisé. Vous serez facturé pour le nombre d'heures que vous utilisez dans la première unité du modèle pour l'inférence de modèle personnalisé. Si vous souhaitez augmenter votre débit au-delà d’une unité de modèle, vous devez souscrire un engagement d’un mois ou de six mois.

Model Distillation

Avec Amazon Bedrock Model Distillation, vous payez en fonction de votre utilisation. La génération de données synthétiques est facturée au tarif à la demande du modèle enseignant sélectionné. L’optimisation du modèle étudiant est facturée aux tarifs de personnalisation du modèle. Comme un modèle distillé est un modèle personnalisé, les inférences utilisant des modèles personnalisés sont facturées dans le cadre du plan de débit alloué et nécessitent que les clients achètent du débit alloué.

Mise en cache des invites

Grâce à la mise en cache des invites sur Amazon Bedrock, vous pouvez mettre en cache le contexte répété entre les appels d’API afin de réduire vos coûts et les temps de latence des réponses. Les invites contiennent souvent un contexte ou des préfixes communs, tels que de longues conversations à plusieurs tours, des exemples variés et des instructions détaillées qui affinent le comportement du modèle. À l’aide des API Amazon Bedrock existantes, vous pouvez spécifier les préfixes d’invite que vous souhaitez mettre en cache pendant cinq minutes dans un cache propre à un compte AWS. Pendant cette période, toutes les demandes comportant des préfixes correspondants bénéficient d’une réduction allant jusqu’à 90 % sur les jetons mis en cache et d’une amélioration de la latence allant jusqu’à 85 %. Les prix et les améliorations de performances varient en fonction du modèle et de la longueur de l’invite, mais vos caches sont toujours isolés de votre compte AWS.

Outils

Barrières de protection

Les garde-fous Amazon Bedrock vous permettent de mettre en œuvre des mesures de protection personnalisées et des politiques d’IA responsable pour vos applications d’IA générative. Ils fournissent des protections de sécurité personnalisables supplémentaires en plus des protections natives proposées par les FM. Il s’agit de la seule fonctionnalité d’IA responsable proposée par un important fournisseur de cloud qui permet aux clients de créer et de personnaliser des protections de sécurité, de confidentialité et de véracité pour leurs applications d’IA générative dans une solution unique, et elle fonctionne avec tous les FM d’Amazon Bedrock, ainsi qu’avec des modèles optimisés. Les garde-fous Bedrock peuvent également être intégrés aux agents et aux bases de connaissances Amazon Bedrock afin de créer des applications d’IA générative conformes à vos politiques d’IA responsable. En outre, ils proposent une API ApplyGuardRail pour évaluer les entrées des utilisateurs et modéliser les réponses générées par tout FM personnalisé ou tiers en dehors de Bedrock.

Knowledge Bases et Data Automation

Amazon Bedrock Knowledge Bases est un flux de travail de génération à enrichissement contextuel (RAG) entièrement géré, qui permet aux clients de créer des applications d’IA générative hautement précises, à faible latence, sécurisées et personnalisées en incorporant des informations contextuelles provenant de leurs propres sources de données. Il prend en charge diverses sources de données, notamment S3, ainsi que Confluence, Salesforce et SharePoint, en version préliminaire. Il permet également l’ingestion de documents pour les données de streaming. Bedrock Knowledge Bases convertit les données non structurées en vectorisations, les stockent dans des bases de données vectorielles et permettent de les extraire de divers magasins de données. Il s’intègre également à Kendra pour la récupération gérée et prend en charge la récupération de données structurées à l’aide du langage naturel vers SQL.

Amazon Bedrock Data Automation transforme le contenu multimodal non structuré en formats de données structurés pour des cas d’utilisation tels que le traitement intelligent des documents, l’analyse vidéo et la génération à enrichissement contextuel (RAG). Bedrock Data Automation peut générer du contenu de sortie standard à l’aide de valeurs par défaut prédéfinies qui sont spécifiques à la modalité, comme des descriptions scène par scène de vidéos, des transcriptions audio ou une analyse automatique de documents. Les clients peuvent également créer des sorties personnalisées en spécifiant leurs exigences de sortie dans des plans en fonction de leur propre schéma de données, qu’ils peuvent ensuite facilement charger dans une base de données ou un entrepôt de données existant. Grâce à une intégration à Knowledge Bases, Bedrock Data Automation peut également servir à analyser le contenu des applications de RAG, pour ainsi améliorer la précision et la pertinence des résultats en incluant des informations intégrées à la fois dans les images et le texte.

Agents

Les agents Amazon Bedrock vous permettent de créer et de configurer des agents autonomes au sein de votre application. Ces agents se connectent en toute sécurité aux sources de données de votre entreprise et répondent aux demandes des utilisateurs avec les bonnes informations afin de générer des réponses précises. Vous pouvez créer une application à agent unique ou à agents multiples en quelques étapes rapides, ce qui accélère le temps nécessaire à la création d’applications d’IA générative. Ces agents prennent en charge l'interprétation du code pour générer et exécuter du code de manière dynamique, ainsi que le retour du contrôle, ce qui vous permet de définir un schéma d'action et de récupérer le contrôle chaque fois que l'agent invoque l'action. En outre, les agents Amazon Bedrock peuvent conserver la mémoire lors des interactions, offrant ainsi des expériences utilisateur plus personnalisées et plus fluides.

Flux

Amazon Bedrock Flows est une fonctionnalité de création et d'exécution de flux de travail Bedrock pour les applications d'IA génératives. Il accélère la création, les tests et le déploiement de flux de travail d'IA générative définis par l'utilisateur grâce à un générateur visuel intuitif et à un ensemble d'API. Il vous permet de relier de manière fluide les derniers modèles de base, les invites, les agents, la base de connaissances, les garde-fous et les services AWS (tels que Amazon Lex, AWS Lambda, Amazon S3) à la logique métier pour créer des flux de travail d'IA générative. Vous pouvez facilement tester et modifier vos flux de travail, et les exécuter dans un environnement sécurisé sans serveur via une interface visuelle ou une API sans avoir à créer votre propre infrastructure.

Évaluations

Évaluation des modèles : avec l’évaluation des modèles d’Amazon Bedrock, vous payez en fonction de votre utilisation, sans engagements de volume minimum sur le nombre d’invites ou de réponses. Pour l’évaluation automatique (programmatique), vous ne payez que pour l’inférence du modèle de votre choix dans l’évaluation. Les scores algorithmiques générés automatiquement sont fournis sans frais supplémentaires. Lors de la version préliminaire publique de l’évaluation automatique (modèle/LLM en tant que juge), vous ne payez que pour l’inférence du modèle générateur et du modèle évaluateur de votre choix. Dans une tâche d’évaluation des modèles avec un LLM en tant que juge, les métriques intégrées utilisent des modèles d’invite spécifiques à chaque métrique et au modèle juge disponible, qui seront facturés dans le cadre de votre utilisation de jetons. Les invites des juges sont disponibles dans la documentation AWS publique pour des raisons de transparence. Dans le cas d'une évaluation basée sur l'humain où vous apportez votre propre équipe de travail, l'inférence du modèle lors de l'évaluation vous est facturée à 0,21 USD par tâche humaine effectuée. Une tâche humaine est définie comme une instance dans laquelle un travailleur humain soumet une évaluation d'une seule invite et de ses réponses d'inférence associées dans l'interface utilisateur d'évaluation humaine. Le prix est le même que vous utilisiez un ou deux modèles pour votre travail d'évaluation et quel que soit le nombre de mesures d'évaluation et de méthodes de notation que vous incluez. Les frais liés aux tâches humaines apparaîtront dans la section Amazon SageMaker de votre facture AWS et sont les mêmes pour toutes les régions AWS. Il n'y a pas de frais distincts pour la main-d'œuvre, car c’est vous qui la fournissez. Pour une évaluation par un expert gérée par AWS, la tarification est personnalisée en fonction de vos besoins d'évaluation dans le cadre d'un engagement privé en collaboration avec l'équipe d'évaluation d'AWS.

Évaluation des bases de connaissances Amazon Bedrock (évaluation RAG) : avec l’évaluation des bases de connaissances Amazon Bedrock (évaluation RAG), vous payez en fonction de votre utilisation, sans engagements de volume minimum sur le nombre d’invites ou de réponses. Lors de la version préliminaire publique, vous ne payez que pour l’inférence du modèle de générateur et du modèle d’évaluateur que vous avez choisi (la tâche d’évaluation utilise un LLM en tant que juge), ainsi que tous les frais liés à l’utilisation de la base de connaissances dans le cadre de la tâche d’évaluation, conformément à la tarification des bases de connaissances Amazon Bedrock. Dans une tâche d’évaluation de la base de connaissances (évaluation RAG), les métriques intégrées utilisent des modèles d’invite de jugement système spécifiques à chaque métrique et au modèle juge disponible, qui seront facturés dans le cadre de votre utilisation de jetons. Les invites des juges sont disponibles dans la documentation d’AWS publique pour garantir la transparence. Certaines métriques impliquent de réaliser une inférence avec le modèle juge sur le contexte récupéré de votre base de connaissances ou sur vos réponses de référence, en plus de l’invite d’entrée, ce qui influe sur les coûts associés à chaque métrique. Plus d’informations sur chaque métrique sont disponibles dans la documentation d’AWS publique pour les évaluations.

Informations sur la tarification

La tarification dépend de la modalité, du fournisseur et du modèle. Sélectionnez le fournisseur du modèle pour voir les tarifs détaillés.

Amazon Bedrock propose certains modèles de fondation (FM) provenant des principaux fournisseurs d’IA tels qu’Anthropic, Meta, Mistral AI et Amazon pour l’inférence par lots à un prix 50 % inférieur à celui de la tarification d’inférence à la demande. Consultez la liste des modèles ici.

AI21 Labs

AI21 Labs

Tarification à la demande

Modèles AI21 Labs	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie
Jamba 1.5 Large	0,002 USD	0,008 USD
Jamba 1.5 Mini	0,0002 USD	0,0004 USD
Jurassic-2 Mid	0,0125 USD	0,0125 USD
Jurassic 2 Ultra	0,0188 USD	0,0188 USD
Jamba-Instruct	0,0005 USD	0,0007 USD

Amazon
- Amazon Nova
- Amazon Titan
- Autres Amazon
- Amazon Nova
- Amazon Nova
  
  Tarification des modèles de compréhension
  
  Tarification des modèles Creative Content Generation
- Amazon Titan
- Amazon Titan
- Autres Amazon
Anthropic

Anthropic

Tarification à la demande et par lots

Région : régions des États-Unis

Modèles Anthropic	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie	Prix pour 1 000 jetons d'entrée (lot)	Prix pour 1 000 jetons de sortie (lot)	Prix pour 1 000 jetons d’entrée (écriture dans le cache)	Prix pour 1 000 jetons d’entrée (lecture du cache)
Claude 3.7 Sonnet***	0,003 USD	0,015 USD	N/A	N/A	0,00375 USD	0,0003 USD
Claude 3.5 Sonnet**	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD	0,00375 USD	0,0003 USD
Claude 3.5 Haiku	0,0008 USD	0,004 USD	0,0005 USD	0,0025 USD	0,001 USD	0,00008 USD
Claude 3 Opus*	0,015 USD	0,075 USD	0,0075 USD	0,0375 USD	NA	NA
Claude 3 Haiku	0,00025 USD	0,00125 USD	0,000125 USD	0,000625 USD	NA	NA
Claude 3 Sonnet	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD	NA	NA
Claude 2.1	0,008 USD	0,024 USD	NA	Pas disponible	Pas disponible	NA
Claude 2.0	0,008 USD	0,024 USD	NA	Pas disponible	Pas disponible	NA
Claude Instant	0,0008 USD	0,0024 USD	NA	Pas disponible	Pas disponible	NA
*Claude 3 Opus est actuellement disponible dans la région USA Ouest (Oregon)
**La tarification de Claude 3.5 Sonnet est applicable à chaque version de Claude 3.5 Sonnet (v1 et v2). Claude 3.5 Sonnet v2 est actuellement disponible dans la région USA Ouest (Oregon)
*** Claude 3.7 Sonnet est également disponible dans la région USA Est (Ohio).

Modèles Anthropic	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie	Prix pour 1 000 jetons d'entrée (lot)	Prix pour 1 000 jetons de sortie (lot)	Prix pour 1 000 jetons d’entrée (écriture dans le cache)	Prix pour 1 000 jetons d’entrée (lecture du cache)
Claude 3.5 Sonnet**	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD	0,00375 USD	0,0003 USD
Claude 3.5 Haiku	0,001 USD	0,005 USD	0,0005 USD	0,0025 USD	0,001 USD	0,00008 USD
Claude 3 Opus*	0,015 USD	0,075 USD	0,0075 USD	0,0375 USD
Claude 3 Haïku	0,00025 USD	0,00125 USD	0,000125 USD	0,000625 USD
Claude 3 Sonnet	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD
Claude 2.1	0,008 USD	0,024 USD	N/A	N/A
Claude 2.0	0,008 USD	0,024 USD	N/A	N/A
Claude Instant	0,0008 USD	0,0024 USD	N/A	N/A
*Claude 3 Opus est actuellement disponible dans la région USA Ouest (Oregon)
**La tarification de Claude 3.5 Sonnet est applicable à chaque version de Claude 3.5 Sonnet (v1 et v2). Claude 3.5 Sonnet v2 est actuellement disponible dans la région de l'Ouest des États-Unis (Oregon)

Région : Europe (Londres)

Modèles Anthropic	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie	Prix pour 1 000 jetons d'entrée (lot)	Prix pour 1 000 jetons de sortie (lot)
Claude 3 Sonnet	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD
Claude 3 Haïku	0,00025 USD	0,00125 USD	0,000125 USD	0,000625 USD

Région AWS : Europe (Zurich)

Modèles Anthropic

Prix pour 1 000 jetons d’entrée

Prix pour 1 000 jetons de sortie

Prix pour 1 000 jetons d'entrée (lot)

Prix pour 1 000 jetons de sortie (lot)

Claude 3.5 Sonnet

0,003 USD

0,015 USD

0,0015 USD

0,0075 USD

Claude 3 Haïku

0,00025 USD

0,00125 USD

0,000125 USD

0,000625 USD

Région AWS : Amérique du Sud (Sao Paulo)

Modèles Anthropic

Prix pour 1 000 jetons d’entrée

Prix pour 1 000 jetons de sortie

Prix pour 1 000 jetons d'entrée (lot)

Prix pour 1 000 jetons de sortie (lot)

Claude 3 Sonnet

0,003 USD

0,015 USD

0,0015 USD

0,0075 USD

Claude 3 Haïku

0,00025 USD

0,00125 USD

0,000125 USD

0,000625 USD

Région AWS : Canada (Centre)

Modèles Anthropic

Prix pour 1 000 jetons d’entrée

Prix pour 1 000 jetons de sortie

Prix pour 1 000 jetons d'entrée (lot)

Prix pour 1 000 jetons de sortie (lot)

Claude 3 Sonnet

0,003 USD

0,015 USD

0,0015 USD

0,0075 USD

Claude 3 Haïku

0,00025 USD

0,00125 USD

0,000125 USD

0,000625 USD

Région : Asie-Pacifique (Mumbai)

Modèles Anthropic

Prix pour 1 000 jetons d’entrée

Prix pour 1 000 jetons de sortie

Prix pour 1 000 jetons d'entrée (lot)

Prix pour 1 000 jetons de sortie (lot)

Claude 3 Sonnet

0,003 USD

0,015 USD

0,0015 USD

0,0075 USD

Claude 3 Haïku

0,00025 USD

0,00125 USD

0,000125 USD

0,000625 USD

Région : Asie-Pacifique (Sydney)

Modèles Anthropic	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie	Prix pour 1 000 jetons d'entrée (lot)	Prix pour 1 000 jetons de sortie (lot)
Claude 3.5 Sonnet v2	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD
Claude 3 Sonnet	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD
Claude 3 Haïku	0,00025 USD	0,00125 USD	0,000125 USD	0,000625 USD

Région : Asie-Pacifique (Tokyo)

Modèles Anthropic	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie	Prix pour 1 000 jetons d'entrée (lot)	Prix pour 1 000 jetons de sortie (lot)
Claude Instant	0,0008 USD	0,0024 USD	N/A	N/A
Claude 2.0/2.1	0,008 USD	0,024 USD	N/A	N/A
Claude 3 Haïku	0,00025 USD	0,00125 USD	0,000125 USD	0,000625 USD
Claude 3.5 Sonnet	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD

Région : Asie-Pacifique (Singapour)

Modèles Anthropic	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie	Prix pour 1 000 jetons d'entrée (lot)	Prix pour 1 000 jetons de sortie (lot)
Claude Instant	0,0008 USD	0,0024 USD	0,0004 USD	0,0012 USD
Claude 2.0/2.1	0,008 USD	0,024 USD	0,004 USD	0,012 USD
Claude 3 Haïku	0,00025 USD	0,00125 USD	0,000125 USD	0,000625 USD
Claude 3.5 Sonnet	0,003 USD	0,015 USD	N/A	N/A

Région : Europe (Paris)

Modèles Anthropic

Prix pour 1 000 jetons d’entrée

Prix pour 1 000 jetons de sortie

Prix pour 1 000 jetons d'entrée (lot)

Prix pour 1 000 jetons de sortie (lot)

Claude 3 Haïku

0,00025 USD

0,00125 USD

0,000125 USD

0,000625 USD

Claude 3 Sonnet

0,003 USD

0,015 USD

0,0015 USD

0,0075 USD

Région : Europe (Francfort)

Modèles Anthropic	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie	Prix pour 1 000 jetons d'entrée (lot)	Prix pour 1 000 jetons de sortie (lot)
Claude Instant	0,0008 USD	0,0024 USD	N/A	N/A
Claude 2.0/2.1	0,008 USD	0,024 USD	N/A	N/A
Claude 3 Sonnet	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD
Claude 3.5 Sonnet	0,003 USD	0,015 USD	0,0015 USD	0,0075 USD
Claude 3 Haïku	0,00025 USD	0,00125 USD	0,000125 USD	0,000625 USD

Région : Asie-Pacifique (Séoul)

Modèles Anthropic

Prix pour 1 000 jetons d’entrée

Prix pour 1 000 jetons de sortie

Prix pour 1 000 jetons d'entrée (lot)

Prix pour 1 000 jetons de sortie (lot)

Claude 3.5 Sonnet

0,003 USD

0,015 USD

N/A

Claude 3 Haïku

0,00025 USD

0,00125 USD

N/A

Région : USA Est (Ohio)

Modèles Anthropic

Prix pour 1 000 jetons d’entrée

Prix pour 1 000 jetons de sortie

Prix pour 1 000 jetons d'entrée (lot)

Prix pour 1 000 jetons de sortie (lot)

Claude 3.5 Sonnet

0,003 USD

0,015 USD

N/A

Claude 3 Haïku

0,00025 USD

0,00125 USD

N/A

Région : AWS GovCloud (US, côte ouest), AWS GovCloud (US, côte est)

Modèles Anthropic	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie
Claude 3.5 Sonnet	0,0036 USD	0,018 USD
Claude 3 Haiku	0,0003 USD	0,0015 USD

Inférence optimisée en termes de latence

Région : USA Est (Ohio)

	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie
Claude 3.5 Haiku	0,001 USD	0,005 USD

Région : USA Est (Virginie du Nord)

	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie
Claude 3.5 Haiku	0,001 USD	0,005 USD

Région : USA Ouest (Oregon)

	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie
Claude 3.5 Haiku	0,001 USD	0,005 USD

Tarification du débit provisionné

Région : USA Est (Virginie du Nord) et USA Ouest (Oregon)

Modèles Anthropic	Prix par heure par modèle avec aucun engagement	Tarif horaire par unité modèle pour un engagement d'un mois	Tarif horaire par unité modèle pour un engagement de six mois
Claude Instant	44,00 USD	39,60 USD	22 USD
Claude 2.0/2.1	70,00 USD	63,00 USD	35,00 USD

Modèles Anthropic	Prix par heure par modèle avec aucun engagement	Tarif horaire par unité modèle pour un engagement d'un mois	Tarif horaire par unité modèle pour un engagement de six mois
Claude Instant	44,00 USD	39,60 USD	22 USD
Claude 2.0/2.1	70,00 USD	63,00 USD	35,00 USD

Région : Asie-Pacifique (Tokyo)

Modèles Anthropic	Tarif horaire par unité modèle pour un engagement d’un mois	Tarif horaire par unité modèle pour un engagement de six mois
Claude Instant	53 USD	29 USD
Claude 2.0/2.1	86 USD	48 USD

Région : Europe (Francfort)

Modèles Anthropic	Tarif horaire par unité modèle pour un engagement d’un mois	Tarif horaire par unité modèle pour un engagement de six mois
Claude Instant	49 USD	27 USD
Claude 2.0/2.1	79 USD	44 USD

Contactez l’équipe responsable de votre compte AWS pour plus de détails sur les unités modèles.

Cohere

Cohere

Tarification à la demande

Modèles Cohere	Prix pour 1 000 jetons d’entrée	Prix pour 1,000 jetons de sortie	Prix par image
Command	0,0015 USD	0,002 USD	S.O.
Command-Light	0,0003 USD	0,0006 USD	S.O.
Command R+	0,0030 USD	0,0150 USD	S.O.
Command R	0,0005 USD	0,0015 USD	S.O.
Intégrer 3 anglais	0,0001 USD	S.O.	0,0001 USD
Intégrer 3 multilingue	0,0001 USD	S.O.	0,0001 USD

Modèles Cohere	Prix pour 1 000 requêtes**
Rerank 3.5	2,00 USD
**Le nombre de requêtes pouvant contenir jusqu’à 100 segments de document vous est facturé. Si la requête contient plus de 100 segments de document, elle est comptée comme plusieurs requêtes. Par exemple, si une demande contient 350 documents, elle sera traitée comme 4 demandes. Veuillez noter que chaque document ne peut contenir que 500 jetons (y compris le total des jetons de la requête et du document), et si la longueur du jeton est supérieure à 512 jetons, il est divisé en plusieurs documents.

Tarification pour la personnalisation (ajustement)

Modèles Cohere	Prix pour entraîner 1 000 jetons	Prix pour stocker chaque modèle personnalisé par mois	Prix à déduire d’un modèle personnalisé par unité de modèle par heure (avec une tarification de débit provisionné sans engagement)
Command de Cohere	0,004 USD	1,95 USD	49,5 USD
Command-Light de Cohere	0,001 USD	1,95 USD	8,56 USD

*Nombre total de jetons entraînés = nombre de jetons dans le corpus de données d’entraînement multipliés par le nombre d’époques

Tarification du débit provisionné

Modèles Cohere	Prix par heure et par modèle sans engagement	Tarif horaire par unité modèle pour un engagement d'un mois	Tarif horaire par unité modèle pour un engagement de six mois
Command de Cohere	49,5 USD	39,60 USD	23,77 USD
Cohere Command - Light	8,56 USD	6,85 USD	4,11 USD
Intégrer 3 anglais	7,12 USD	6,76 USD	6,41 USD
Intégrer 3 multilingue	7,12 USD	6,76 USD	6,41 USD

Veuillez contacter votre compte AWS ou votre équipe de vente pour plus de détails sur les modèles d'unités.

DeepSeek

DeepSeek

Tarification à la demande

Régions : USA Est (Virginie du Nord), USA Est (Ohio) et USA Ouest (Oregon)

Modèles DeepSeek	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie
DeepSeek R-1	0,00135 USD	0,0054 USD

Luma AI

Tarification à la demande

Modèles Luma AI	Résolution vidéo	Prix par seconde de vidéo générée
Luma Ray 2	720p, 24 images par seconde	1,50 USD
Luma Ray 2	540p, 24 images par seconde	0,75 USD

Meta

Stability AI

Tarification à la demande

Modèle Stability AI	Prix par image générée
Stable Diffusion 3.5 Large	0,08 USD
Stable Image Core	0,04 USD
Stable Diffusion 3 Large	0,08 USD
Stable Image Ultra	0,14 USD

Les modèles d’images de la génération précédente proposés par Stability AI sont facturés par image, en fonction du nombre d’étapes et de la résolution de l’image.

Modèle Stability AI	Résolution de l’image	Prix par image générée pour la qualité standard (<=50 étapes)	Prix par image générée pour la qualité supérieure (>50 étapes)
SDXL 1.0	Jusqu’à 1024 × 1024	0,04 USD	0,08 USD

Tarification du débit provisionné

Modèle Stability AI	Tarif horaire par unité modèle pour un engagement d’un mois*	Tarif horaire par unité modèle pour un engagement de six mois*
SDXL 1.0	49,86 USD	46,18 USD

**Comprend l’inférence pour les modèles de base et les modèles personnalisés

Contactez l’équipe responsable de votre compte AWS ou l’équipe des ventes pour plus de détails sur les unités modèles.

Actuellement, la personnalisation des modèles (ajustement) n’est pas prise en charge pour les modèles Stability AI sur Amazon Bedrock.

Importation de modèles personnalisés

Importation de modèles personnalisés

Llama
Lama multimodal
Mistral
Mixtral
Flan

Llama

Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)

Version d'unité modèle personnalisée	v1.0
Prix par unité de modèle personnalisée par min*	0,0785 USD
Coût de stockage mensuel par unité modèle personnalisée	1,95 USD

Les unités de modèle personnalisées nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisées nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Llama 3.1 8B 128K nécessite 2 unités de modèle personnalisées, un modèle Llama 3.1 70B 128k nécessite 8 unités de modèle personnalisées.
*Facturé par créneaux de 5 minutes

Lama multimodal

Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)

Version d'unité modèle personnalisée	v1.0
Prix par unité de modèle personnalisée par min*	0,0785 USD
Coût de stockage mensuel par unité modèle personnalisée	1,95 USD

Les unités de modèle personnalisées nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisées nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Llama 3.2 11B 128K nécessite 4 unités de modèle personnalisées.
*Facturé par créneaux de 5 minutes

Mistral

Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)

Version d'unité modèle personnalisée	v1.0
Prix par unité de modèle personnalisée par min*	0,0785 USD
Coût de stockage mensuel par unité modèle personnalisée	1,95 USD

Les unités de modèle personnalisées nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisées nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Mistral 7B 32K nécessite 1 unité de modèle personnalisée.
*Facturé par créneaux de 5 minutes

Mixtral

Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)

Version d'unité modèle personnalisée	v1.0
Prix par unité de modèle personnalisée par min*	0,0785 USD
Coût de stockage mensuel par unité modèle personnalisée	1,95 USD

Les unités de modèle personnalisées nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisées nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Mixtral 8x7B 32K nécessite 4 unités de modèle personnalisées.
*Facturé par créneaux de 5 minutes

Flan

Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)

Version d'unité modèle personnalisée	v1.0
Prix par unité de modèle personnalisée par min*	0,0785 USD
Coût de stockage mensuel par unité modèle personnalisée	1,95 USD

Les unités de modèle personnalisées nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisées nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Flan-T5 XL 512 nécessite 1 unité de modèle personnalisée.
*Facturé par créneaux de 5 minutes

Tarification par inférence à la demande :
Vous êtes facturé dans des fenêtres de 5 minutes pour la durée pendant laquelle votre copie de modèle est active à compter de la première invocation réussie. La limite maximale de débit et de simultanéité par copie de modèle dépend de facteurs tels que la combinaison de jetons d’entrée/sortie, le type de matériel, la taille du modèle, l’architecture, les optimisations d’inférence et est déterminée lors du flux de travail d’importation du modèle.

Bedrock met automatiquement à l’échelle le nombre de copies du modèle en fonction de vos habitudes d’utilisation. S'il n’y a aucune invocation pendant une période de 5 minutes, Bedrock sera réduit verticalement à zéro puis redimensionné lorsque vous invoquerez votre modèle. Lors de la redimensionnement, vous pouvez rencontrer un temps de démarrage à froid (en dizaines de secondes) en fonction de la taille du modèle. Bedrock augmente verticalement également le nombre de copies du modèle si votre volume d’inférence dépasse systématiquement les limites de simultanéité d’une seule copie de modèle. Remarque : il existe un maximum par défaut de trois copies de modèle par compte et par modèle importé, qui peut être augmenté par le biais de Service Quotas.

Outils de tarification (détails)

Flux
Bases de connaissances
Barrières de protection
Évaluation du modèle
Automatisation des données

Flux
Amazon Bedrock Flows

Vous êtes facturé en fonction du nombre de transitions de nœuds nécessaires pour exécuter votre application. Bedrock Flows comptabilise une transition de nœud chaque fois qu'un nœud de votre flux de travail est exécuté. Le nombre total de transitions de nœuds sur l'ensemble de vos flux vous est facturé.

Toutes les charges sont mesurées quotidiennement et facturées mensuellement à compter du 1er février 2025.

Prix pour 1 000 transitions de nœuds

0,035 USD

Frais supplémentaires

Des frais supplémentaires peuvent vous être facturés si l'exécution du flux de travail de votre application utilise d'autres services AWS ou transfère des données. Par exemple, si votre flux de travail invoque une politique de barrière de protections Amazon Bedrock, le nombre d’unités de texte traitées par cette politique vous sera facturé.
Bases de connaissances
Extraction de données structurées (génération SQL)

La récupération de données structurées est facturée pour chaque demande de génération d’une requête SQL. La requête SQL générée est utilisée pour récupérer les données à partir de magasins de données structurés.

Modèles Rerank

Les modèles Rerank sont conçus pour améliorer la pertinence et la précision des réponses dans les applications de génération à enrichissement contextuel (RAG). Ils sont facturés par requête.

**Le nombre de requêtes pouvant contenir jusqu’à 100 segments de document vous est facturé. Si la requête contient plus de 100 segments de document, elle est comptée comme plusieurs requêtes. Par exemple, si une demande contient 350 documents, elle sera traitée comme 4 demandes. Veuillez noter que chaque document ne peut contenir que 512 jetons (y compris le total des jetons de la requête et du document), et si la longueur du jeton est supérieure à 512 jetons, il est divisé en plusieurs documents. Une requête est équivalente à une unité de recherche.
Barrières de protection

Prix pour 1 000 transitions de nœuds
0,035 USD

Barrières de protection Amazon Bedrock

Politique en matière de barrières de protections *	Prix pour 1 000 unités de texte**
Filtres de contenu (contenu textuel) ****	0,15 USD
Sujets refusés	0,15 USD
Contrôle de l’ancrage contextuel***	0,1 USD
Filtre d’informations sensibles (PII)	0,1 USD
Filtre d’informations sensibles (expression régulière)	Gratuit
Filtres de mots	Gratuit

Tarification à la demande

* Chaque politique de barrière de protections est facultative et peut être activée en fonction des exigences de votre application. Des frais seront facturés en fonction du type de police utilisé pour la barrière de protections. Par exemple, si une barrière de protections est configurée avec des filtres de contenu et des sujets refusés, des frais seront facturés pour ces deux politiques, alors qu'aucun frais ne sera associé aux filtres d'informations sensibles.

**Une unité de texte peut contenir jusqu'à 1 000 caractères. Si une saisie de texte comporte plus de 1 000 caractères, elle est traitée comme plusieurs unités de texte, chacune contenant 1 000 caractères ou moins. Par exemple, si une saisie de texte contient 5 600 caractères, elle sera facturée pour 6 unités de texte.

***Le contrôle de l’ancrage contextuel utilise une source de référence et une requête pour déterminer si la réponse du modèle est fondée sur la source et pertinente pour la requête. Le nombre total d’unités de texte facturées est calculé en combinant tous les caractères de la source, de la requête et de la réponse du modèle.

****La tarification des filtres de contenu destinés à détecter et à filtrer le contenu d’image préjudiciable sera annoncée lorsque la fonctionnalité sera disponible de manière générale.

Évaluation du modèle

Évaluation du modèle

L'évaluation du modèle est facturée pour l'inférence à partir du modèle que vous avez choisi. Les scores algorithmiques générés automatiquement sont fournis sans frais supplémentaires. Pour l'évaluation basée sur l'humain dans laquelle vous apportez votre propre flux de travail, l'inférence du modèle dans l'évaluation vous est facturée et des frais de 0,21 USD par tâche humaine effectuée vous sont facturés.

Modèle

Prix pour 1 000 jetons d’entrée

Prix pour 1 000 jetons de sortie

Prix par tâche humaine

Modèle sélectionné pour l'évaluation

Sur la base du modèle sélectionné

0,21 USD

Automatisation des données
Automatisation des données

Les bases de connaissance d’Amazon Bedrock proposent une intégration Bedrock Data Automation afin de fournir des réponses plus pertinentes et plus précises aux données multimodales. Lorsque vous configurez une base de connaissances, vous pouvez sélectionner Bedrock Data Automation comme méthode d’analyse pour analyser et extraire des informations pertinentes à partir d’images ou de documents, qui peuvent inclure des figures, des graphiques et des diagrammes. Au cours du traitement, Bedrock Data Automation extrait des informations pertinentes des documents et des images ingérés, qui sont ensuite utilisées dans les étapes suivantes de la base de connaissances pour le découpage, la vectorisation et le stockage. Lorsqu’elle est intégrée aux bases de connaissances, Bedrock Data Automation fournit et facture des résultats standardisés.

Exemples de tarification

AI21 labs

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Jurrasic-2 Mid d’AI21 pour résumer une entrée de 10 000 jetons de texte d’entrée en une sortie de 2 000 jetons.

Coût total encouru = 10 000 jetons/1 000 x 0,0125 USD + 2 000 jetons/1 000 x 0,0125 USD = 0,15 USD
Amazon

Tarification à la demande

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock toutes les heures : une demande au modèle Amazon Titan Text Lite pour résumer une entrée de 2 000 jetons de texte d’entrée en une sortie de 1 000 jetons.

Coût horaire total encouru = 2 000 jetons/1 000 x 0,0003 USD + 1 000 jetons/1 000 x 0,0004 USD = 0,001 USD.

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle de base Amazon Titan Image Generator pour générer 1 000 images de taille 1 024 × 1 024 au format de qualité standard.

Coût total encouru = 1 000 images x 0,01 USD par image = 10 USD

Tarification de la personnalisation (ajustement et pré-entraînement continu)

Un développeur d’applications personnalise un modèle Amazon Titan Image Generator à l’aide de 1 000 paires image-texte. Après l’entraînement, le développeur utilise le débit provisionné du modèle personnalisé pendant une heure pour évaluer la performance du modèle. Le modèle ajusté est conservé pendant un mois. Après évaluation, le développeur utilise le débit provisionné (engagement d’un mois) pour héberger le modèle personnalisé.

Le coût mensuel encouru pour l’ajustement est le suivant : entraînement de l’ajustement (0,005 USD x 500 x 64), où 0,005 USD est le prix par image vue, 500 est le nombre d’étapes et 64 est la taille du lot, + stockage du modèle personnalisé par mois (1,95 USD) + une heure d’inférence de modèle personnalisé (21 USD) = 160 USD + 1,95 USD + 21 USD = 182,95 USD

Tarification du débit provisionné

Un développeur d’applications achète deux unités de modèles Amazon Titan Text Express avec un engagement d'un mois pour son cas d'utilisation de résumé de texte.

Coût mensuel total encouru = 2 unités de modèles x 18,40 USD/heure x 24 heures x 31 jours = 27 379,20 USD

Un développeur d’applications achète une unité de modèle du modèle de base Amazon Titan Image Generator avec un engagement d’un mois.

Coût total engagé = 1 unité modèle x 16,20 USD x 24 heures x 31 jours = 12 052,80 USD
Anthropic

Tarification à la demande

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock dans la région USA Ouest (Oregon) : une demande au modèle Anthropic Claude pour résumer une entrée de 11 000 jetons de texte d’entrée en une sortie de 4 000 jetons.

Coût total encouru = 11 000 jetons/1 000 x 0,008 USD + 4 000 jetons/1 000 x 0,024 USD = 0,088 USD + 0,096 USD = 0,184 USD

Tarification du débit provisionné

Un développeur d’applications achète une unité de modèle Anthropic Claude Instant dans la région USA Ouest (Oregon) :

Coût mensuel total encouru = 1 unité de modèle x 39,60 USD x 24 heures x 31 jours = 29 462,40 USD
Cohere

Tarification à la demande

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Cohere Command pour résumer une entrée de 6 000 jetons de texte d’entrée en une sortie de 2 000 jetons.

Coût total encouru = 6 000 jetons/1 000 x 0,0015 USD + 2 000 jetons/1 000 x 0,0020 USD = 0,013 USD

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Cohere Command - Light pour résumer une entrée de 6 000 jetons de texte d’entrée en une sortie de 2 000 jetons.

Coût total encouru = 6 000 jetons/1 000 x 0,0003 USD + 2 000 jetons/1 000 x 0,0006 USD = 0,003 USD

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Cohere Embed anglais ou multilingue pour générer des intégrations pour 10 000 jetons d’entrée.

Coût total encouru = 10 000 jetons/1 000 x 0,0001 USD = 0,001 USD

Tarification de la personnalisation (ajustement)

Un développeur d’applications personnalise un modèle Cohere Command à l’aide de 1 000 jetons de données. Après l’entraînement, il utilise le débit provisionné du modèle personnalisé pendant une heure pour évaluer les performances du modèle. Le modèle ajusté est conservé pendant un mois. Après évaluation, le développeur utilise le débit provisionné (engagement d’un mois) pour héberger le modèle personnalisé.

Coût mensuel encouru pour l’ajustement = ajustement de l’entraînement (0,004 USD x 1 000) + stockage du modèle personnalisé par mois (1,95 USD) + 1 heure d’inférence du modèle personnalisé (49,50 USD) = 55,45 USD

Coût mensuel encouru pour le débit provisionné (engagement d’un mois) du modèle personnalisé = 39,60 USD

Tarification du débit provisionné

Un développeur d’applications achète une unité de modèle de Cohere Command avec un engagement d’un mois pour son cas d’utilisation de résumé de texte.

Coût mensuel total encouru = 1 unité de modèle x 39,60 USD x 24 heures x 31 jours = 29 462,40 USD
Meta

Tarification à la demande

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Meta Llama 2 Chat (13B) pour résumer une entrée de 2 000 jetons de texte d’entrée en une sortie de 500 jetons.

Coût total encouru = 2 000 jetons/1 000 x 0,00075 USD + 500 jetons/1 000 x 0,001 USD = 0,002 USD

Tarification de la personnalisation (ajustement)

Un développeur d’applications personnalise le modèle Llama 2 Pretrained (70B) à l’aide de 1 000 jetons de données. Après l’entraînement, il utilise le débit provisionné du modèle personnalisé pendant une heure pour évaluer les performances du modèle. Le modèle ajusté est conservé pendant un mois. Après évaluation, le développeur utilise le débit provisionné (engagement d’un mois) pour héberger le modèle personnalisé.

Coût mensuel encouru pour l’ajustement = ajustement de l’entraînement (0,00799 USD x 1 000) + stockage du modèle personnalisé par mois (1,95 USD) + 1 heure d’inférence du modèle personnalisé (23,50 USD) = 33,44 USD

Coût mensuel encouru pour le débit provisionné (engagement d’un mois) du modèle personnalisé = 21,18 USD

Tarification du débit provisionné

Un développeur d’applications achète une unité de modèle de Meta Llama 2 avec un engagement d’un mois pour son cas d’utilisation de résumé de texte.

Coût mensuel total encouru = 1 unité de modèle x 21,18 USD x 24 heures x 31 jours = 15 757,92 USD
Mistral AI

Tarification à la demande

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock toutes les heures : une demande au modèle Mistral 7B pour résumer une entrée de 2 000 jetons de texte d’entrée en une sortie de 1 000 jetons.

Coût horaire total encouru = 2 000 jetons/1 000 x 0,00015 USD + 1 000 jetons/1 000 x 0,0002 USD = 0,0005 USD

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock toutes les heures : une demande au modèle Mixtral 8x7B pour résumer une entrée de 2 000 jetons de texte d’entrée en une sortie de 1 000 jetons.

Coût horaire total encouru = 2 000 jetons/1 000 x 0,00045 USD + 1 000 jetons/1 000 x 0,0007 USD = 0,0016 USD

Un développeur d'application effectue les appels d'API suivants à Amazon Bedrock toutes les heures : une demande au modèle Mistral Large pour résumer une entrée de 2 000 jetons de texte d'entrée en une sortie de 1 000 jetons.

Coût horaire total encouru = 2 000 jetons/1 000 * 0,008 USD + 1 000 jetons/1 000 * 0,024 USD = 0,04 USD
Stability AI

Tarification à la demande

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle SDXL pour générer une image de 512 x 512 avec une taille d’étape de 70 (qualité supérieure).

Coût total encouru = 1 image x 0,036 USD par image = 0,036 USD

Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle SDXL1.0 pour générer une image de 1 024 x 1 024 avec une taille d’étape de 70 (qualité supérieure).

Coût total encouru = 1 image x 0,08 USD par image = 0,08 USD

Tarification du débit provisionné

Un développeur d’applications achète une unité de modèle de SDXL 1.0 avec un engagement d’un mois.

Coût total = 1 x 49,86 USD x 24 heures x 31 jours = 37 095,84 USD

Évaluation du modèle

Exemple d'évaluation du modèle 1 :

Le jeu de données contient 50 invites, et le développeur a besoin d’un travailleur pour évaluer chaque ensemble invite-réponse (configurable dans le paramètre de création de tâches d'évaluation en tant que « travailleurs par invite »).

Cette tâche d'évaluation comportera 50 tâches (1 tâche pour chaque paire d’invite-réponse par travailleur). Les 50 invites totalisent 5 000 jetons d'entrée, et les réponses associées totalisent 15 000 jetons pour Anthropic Claude Instant et 20 000 jetons pour Anthropic Claude 2.1.

Les frais suivants sont encourus pour ce travail d'évaluation de modèles :

Élément	Nombre de jetons d'entrée	Prix pour 1000 jetons d'entrée	Coût des intrants	Nombre de jetons de sortie	Prix pour 1000 jetons de sortie	Coût de production	Nombre de tâches humaines	Prix par tâche humaine	Coût des tâches humaines	Total
Inférence instantanée Claude	5 000	0,0008 USD	0,004 USD	15 000	0,0024 USD	0,036 USD				0,04 USD
Claude 2.1 Inference	5 000	0,008 USD	0,04 USD	20 000	0,024 USD	0,48 USD				0,52 USD
Tâches humaines							50	0,21 USD	10,50 USD	10,50 USD
Total										11,06 USD

Exemple d'évaluation du modèle 2 :

Tarification à la demande
Un développeur d'applications soumet un jeu de données pour l'évaluation de modèles humains à l'aide d'Anthropic Claude 2.1 et d'Anthropic Claude Instant dans la région AWS de l'USA Est (Virginie du Nord).

Le jeu de données contient 50 invites, et le développeur a besoin de 2 travailleurs pour évaluer chaque ensemble invites-réponses (configurable dans le paramètre de création de tâches d'évaluation en tant que « travailleurs par invite »). Ce travail d'évaluation comportera 100 tâches (1 tâche pour chaque ensemble invites-réponses par travailleur : 2 travailleurs x 50 ensembles invites-réponses = 100 tâches humaines).

Les 50 invites totalisent 5 000 jetons d'entrée, et les réponses associées totalisent 15 000 jetons pour Anthropic Claude Instant et 20 000 jetons pour Anthropic Claude 2.1.

Les frais suivants sont encourus pour ce travail d'évaluation de modèles :

Élément	Nombre de jetons d'entrée	Prix pour 1000 jetons d'entrée	Coût des intrants	Nombre de jetons de sortie	Prix pour 1000 jetons de sortie	Coût de production	Nombre de tâches humaines	Prix par tâche humaine	Coût des tâches humaines	Total
Inférence instantanée Claude	5 000	0,0008 USD	0,0040 USD	15 000	0,0024 USD	0,036 USD				0,04 USD
Claude 2.1 Inference	5 000	0,008 USD	0,0400 USD	20 000	0,024 USD	0,48 USD				0,52 USD
Tâches humaines							100	0,21 USD	21,00 USD	21,00 USD
Total										21,56 USD

Garde-fous Amazon Bedrock

Exemple 1 : chatbot d'assistance à la clientèle
Un développeur d'applications crée un chatbot d'assistance à la clientèle et utilise des filtres de contenu pour bloquer le contenu préjudiciable et les sujets refusés pour filtrer les requêtes et les réponses indésirables.

Le chatbot répond à 1 000 requêtes d'utilisateurs par heure. Chaque requête utilisateur a une longueur d'entrée moyenne de 200 caractères et reçoit une réponse FM de 1 500 caractères.

Chaque requête utilisateur de 200 caractères correspond à une unité de texte.

Chaque réponse FM de 1 500 caractères correspond à 2 unités de texte.

Unités de texte traitées chaque heure = (1 + 2) x 1 000 requêtes = 3 000 unités de texte

Coût total par heure pour les filtres de contenu et les sujets refusés = 3000 x (0,15 USD + 0,15 USD) / 1000 = 0,90 USD

Exemple 2 : résumé des transcriptions d’un centre d’appels
Un développeur d'applications crée une application pour résumer les transcriptions des discussions entre les utilisateurs et les agents d’assistance. Il utilise un filtre d'informations sensibles pour supprimer les données d’identification personnelles (PII) dans les résumés générés pour 10 000 conversations.

Chaque résumé généré comporte en moyenne 3 500 caractères, ce qui correspond à 4 unités de texte.

Coût total engagé pour résumer 10 000 conversations = 10 000 x 4 x (0,1 / 1 000 USD) = 4 USD

Élément	Nombre de jetons d'entrée	Prix pour 1000 jetons d'entrée	Coût des intrants	Nombre de jetons de sortie	Prix pour 1000 jetons de sortie	Coût de production	Nombre de tâches humaines	Prix par tâche humaine	Coût des tâches humaines	Total
Inférence instantanée Claude	5 000	0,0008 USD	0,004 USD	15 000	0,0024 USD	0,036 USD				0,04 USD
Claude 2.1 Inference	5 000	0,008 USD	0,04 USD	20 000	0,024 USD	0,48 USD				0,52 USD
Tâches humaines							100	0,21 USD	21,00 USD	21,00 USD
Total										21,56 USD

Importation de modèles personnalisés

Exemple de tarification : un développeur d'applications importe un modèle de type Llama 3.1 personnalisé d'une taille de paramètre 8B avec une longueur de séquence de 128 Ko dans la région us-est-1 et supprime le modèle au bout d'un mois. Cela nécessite 2 unités de modèle personnalisées. Ainsi, le prix par minute sera de 0,1570 USD car 2 unités de modèle personnalisées sont requises. Les coûts de stockage des modèles pour 2 unités modèles personnalisées seraient de 3,90 USD par mois.

L’importation du modèle est gratuite. La première invocation réussie a lieu à 8 h 03, heure à laquelle le comptage commence. Les fenêtres de comptage de 5 minutes vont de 8 h 03 à 8 h 07 ; de 8 h 07 à 8 h 11, etc. S’il y a au moins une invocation pendant une période de 5 minutes, la fenêtre sera considérée comme active pour la facturation. S’il y a une invocation à 8 h 03 et aucune autre invocation après 8 h 07, le comptage s’arrêtera à 8 h 07. Dans ce cas, la facture serait calculée comme suit : 0,1570 USD * 5 minutes * 1 fenêtre de 5 minutes = 0,785 USD.
Bases de connaissances d’Amazon Bedrock

Exemple de tarification 1 (reclassement à l’aide du modèle Amazon Rerank 1.0)

Au cours d’un mois donné, vous soumettez 2 millions de demandes à l’API Rerank en utilisant le modèle Amazon Rerank 1.0 : 1 million de ces demandes contiennent moins de 100 documents chacune et seront donc facturées pour une demande chacune. Le million de demandes restant contient 120 à 150 documents. Par conséquent, chacune de ces demandes sera facturée pour 2 demandes.

Prix par demande = 0,001 USD
Coût total = 1 000 000 * 0.001 USD + 1 000 000 * 2 * 0.001 USD = 3 000 USD

Exemple de tarification 2 : (extraction de données structurées)

Un développeur d’applications crée un chatbot de support qui interroge les données structurées stockées dans Amazon Redshift. Le développeur crée une base de connaissances Bedrock et se connecte à Amazon Redshift. Le chatbot répond à 10 000 requêtes d’utilisateurs par heure. Chaque requête utilisateur coûtera 0,002 USD par API GenerateQuery pour générer du code SQL à partir d’une requête utilisateur.

Coût total encouru pour générer du code SQL par heure = 0,002 * 10 000 USD = 20 USD.
Coût total engagé au cours du mois = 20 USD * 24 * 30 = 1 440 USD
Flux

Exemple : résumé des actualités
Un développeur d’applications crée un flux pour automatiser la synthèse des actualités pour les traders. Le flux comprend un nœud d’entrée qui prend un emplacement S3 et un nœud de récupération S3 qui récupère 10 fichiers contenant des articles de 10 agences de presse majeures dans S3 (2 transitions de nœuds). Il utilise ensuite un nœud itérateur pour invoquer un modèle avec un nœud d’invite pour résumer chaque fichier (+ 10 fichiers x 2 transitions de nœuds). Il collecte ensuite tous les résultats à l’aide d’un nœud collecteur, écrit les résultats dans S3 à l’aide d’un nœud de stockage S3 et les complète dans un nœud de sortie (+ 3 transitions de nœud). Ils font fonctionner ce flux toutes les demi-heures de chaque jour de la semaine.

Le nombre de transitions de nœuds par exécution de flux est le suivant : 2 + 1 + 10 * 2 + 3 = 25 transitions de nœuds par exécution de flux

Le nombre d’exécutions de flux par mois est de : 24 heures * 2 * 5 jours * 4 semaines = 960 exécutions de flux par mois.

La facture mensuelle totale est de : 25 * 960 * 0,035 USD / 1 000 = 0,84 USD

Frais supplémentaires
La facture inclura également des frais supplémentaires pour les services AWS utilisés dans l’exécution du flux de travail, notamment l’utilisation d’Amazon S3 dans les nœuds de récupération et de stockage, et l’utilisation du modèle de fondation Amazon Bedrock dans le nœud d’invite.
Automatisation des données

Exemple de tarification 1 :
Supposons que vous traitiez un document de 1 000 pages à l’aide de la sortie standard BDA. Les 1 000 pages sont traitées à l’aide du plan 1 qui comporte 15 champs. Le prix par page pour tout plan comportant 30 champs ou moins est de 0,040 USD. Le coût total s’élèverait à 40 USD.

Nombre total de pages traitées = 1 000
Prix par page pour les plans comportant moins de 30 champs = 0,040 USD
Coût total = 1 000 USD * 0.040 = 40 USD

Exemple de tarification 2 :
Supposons que vous traitiez 2 documents à l’aide de la sortie standard BDA. Le document 1 compte 40 pages et est traité à l’aide du plan 1 qui comporte 20 champs. Le document 2 compte 10 pages et est traité à l’aide du plan 2, qui comporte 40 champs. Le prix par page du plan 1 est de 0,040 USD, car il contient 30 champs ou moins. Le prix par page du plan 2 est de 0,045 USD. Le coût de traitement du document 1 à l’aide du plan 1 est de 1,60 USD. Le coût de traitement du document 2 à l’aide du plan 2 est de 0,45 USD. Le coût total du traitement des deux documents serait de 2,05 USD.

Nombre total de pages traitées = 50
Prix par page pour le Plan 1 contenant moins de 30 champs = 0,040 USD
Prix par page pour le Plan 2 avec 40 champs = 0,040 USD + (nombre de champs supplémentaires supérieurs à 30 * 0,0005 USD par champ)
Nombre de champs supplémentaires supérieur à 30 = 40 - 30 = 10
Prix par page pour le Plan 2 avec 40 champs = 0,040 USD + (10 *0,0005 USD par champ) = 0,045 USD
Frais pour le document 1 utilisant le plan 1 = 40 pages x 0,040 USD par page = 1,6 USD
Frais pour le document 2 utilisant le plan 2 = 10 pages x 0,045 USD par page = 0,45 USD
Frais totaux = Frais pour le document 1 + Frais pour le document 2 = 1,6 USD + 0,45 USD = 2,05 USD

Exemple de tarification 3 :
Supposons que vous configuriez les bases de connaissances Bedrock pour utiliser Bedrock Data Automation comme analyseur, puis que vous ingériez un document de 1 000 pages. Notez que les structures de coûts diffèrent entre les options d'analyse des bases de connaissances. BDA utilise une tarification par page, tandis que les analyseurs du modèle de fondation facturent en fonction des jetons d'entrée et de sortie. À titre de contexte, le traitement de 1 000 pages, dont 30 % contiennent des tableaux et 30 % des figures, nécessite généralement 2 900 jetons d'entrée et 750 jetons de sortie. La consommation de jetons varie en fonction du type de contenu. Les clients sont donc invités à effectuer des tests en utilisant leurs propres données pour obtenir des estimations plus précises. L’intégration des bases de connaissances Bedrock et de Bedrock Data Automation utilise une sortie standard, dont le prix par page est de 0,010 USD. Le coût total s’élèverait à 10 USD.

Nombre total de pages traitées = 1 000
Prix par page pour la sortie standard = 0,010 USD
Coût total = 1 000 * 0,010 USD = 10 USD

Exemple de tarification 4 :
Supposons que vous traitez une vidéo de 60 minutes à l’aide de la sortie standard BDA. Le prix par minute pour la sortie vidéo standard est de 0,050 USD. Le coût total s’élèverait à 3,00 USD.

Nombre total de minutes traitées = 60
Prix par minute pour la sortie vidéo standard = 0,050 USD
Coût total = 60 * 0.050 USD = 3,00 USD

Exemple de tarification 5 :
Supposons que vous traitiez 2 000 images à l’aide de la sortie personnalisée BDA. Les 1 000 premières images sont traitées à l’aide du plan 1, qui comporte 10 champs. Les 1 000 dernières images sont traitées à l’aide du plan 2, qui comporte 40 champs. Le prix par image pour le plan 1 est de 0,005 USD, car il contient 30 champs ou moins. Le prix par image du plan 2 est de 0,01 USD. Le coût de traitement des 1 000 premières images à l’aide du plan 1 est de 5,00 USD. Le coût de traitement des 1 000 dernières images à l’aide du plan 2 est de 10,00 USD. Le coût total du traitement des 2 000 images serait de 15,00 USD

Coût des 1 000 premières images = 1 000 images * 0,005 USD par image = 5,00 USD
Coût pour 1 000 dernières images = 1 000 images * (0,005 USD + (nombre de champs supplémentaires supérieurs à 30 *0,0005 USD par champ))
= 1 000 * (0,005 USD + ((40 - 30) *0,0005 USD))
= 1 000 * (0,005 USD + (10 * 0,0005 USD)) = 10,00 USD
Coût total = 5,00 USD + 10,00 USD = 15,00 USD

Exemple de tarification 6 :
Supposons que vous souhaitiez utiliser la sortie standard de Bedrock Data Automation pour traiter 15 000 minutes d’enregistrements audio de réunions dans votre organisation. Le coût total du traitement des 15 000 minutes audio serait de 90 USD.

Nombre total de minutes traitées = 15 000 minutes
Coût total = 15 000 min × 0,006 USD = 90 USD

Modèles Meta	Prix pour 1 000 jetons d’entrée	Prix pour 1 000 jetons de sortie
Lama 2 Chat (13B)	0,00075 USD	0,001 USD
Llama 2 Chat (70B)	0,00195 USD	0,00256 USD

Modèles Meta	Tarif horaire par unité modèle pour un engagement d’un mois	Tarif horaire par unité de modèle pour un engagement de six mois
Llama 2 Pretrained et Chat (13B)	21,18 USD	13,08 USD
Llama 2 Pretrained (70B)	21,18 USD	13,08 USD

Sélectionner vos préférences de cookies

Tarification d’Amazon Bedrock

Vue d'ensemble des tarifs

Modèles de tarification

À la demande et par lot

Latence optimisée (prévisualisation publique)

Débit alloué

Importation de modèles personnalisés

Modèles Marketplace

Personnalisation et optimisation

Personnalisation du modèle

Model Distillation

Mise en cache des invites

Outils

Barrières de protection

Knowledge Bases et Data Automation

Agents

Flux

Évaluations

Informations sur la tarification

AI21 Labs

Amazon Nova

Tarification des modèles de compréhension

Tarification des modèles Creative Content Generation

Amazon Titan

Anthropic

Cohere

DeepSeek

Tarification à la demande

Meta

Mistral AI

Stability AI

Importation de modèles personnalisés

Outils de tarification (détails)

Amazon Bedrock Flows

Barrières de protection Amazon Bedrock

Évaluation du modèle

Automatisation des données

Exemples de tarification

AI21 labs

Amazon

Tarification à la demande

Tarification de la personnalisation (ajustement et pré-entraînement continu)

Tarification du débit provisionné

Anthropic

Tarification à la demande

Tarification du débit provisionné

Cohere

Tarification à la demande

Tarification de la personnalisation (ajustement)

Meta

Tarification à la demande

Tarification de la personnalisation (ajustement)

Tarification du débit provisionné

Mistral AI

Tarification à la demande

Stability AI

Tarification à la demande

Tarification du débit provisionné

Évaluation du modèle

Exemple d'évaluation du modèle 1 :

Exemple d'évaluation du modèle 2 :

Garde-fous Amazon Bedrock

Importation de modèles personnalisés

Bases de connaissances d’Amazon Bedrock

Flux

Automatisation des données

Fin de la prise en charge d'Internet Explorer