Fonctionnalités d'Amazon Textract

Pourquoi Amazon Textract ?

Amazon Textract est un service de machine learning (ML) qui extrait automatiquement le texte, l'écriture manuscrite, les éléments de mise en page et les données des documents numérisés. Il va au-delà de la simple reconnaissance optique de caractères (OCR) pour identifier, comprendre et extraire les données des formulaires et des tableaux. Toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un polygone qui englobe chaque élément de données identifié – mot isolé, ligne, tableau ou même cellules individuelles dans un tableau. Amazon Textract renvoie également un score de confiance pour tout ce qu'il identifie afin que vous puissiez prendre des décisions éclairées quant à l'utilisation des résultats.

Focntionnalités générales

Requêtes personnalisées

Amazon Textract vous permet de personnaliser la fonctionnalité de requêtes prédéfinie et d'améliorer la précision d'extraction pour les types de documents spécifiques à votre entreprise, tout en conservant le contrôle et la propriété de vos données. Grâce à la console AWS, vous pouvez télécharger jusqu'à dix exemples de documents, annoter les données et personnaliser la fonctionnalité de requêtes préformée en quelques heures.

Disposition

Amazon Textract vous permet d'extraire des éléments de mise en page tels que des paragraphes, des titres, des listes, des en-têtes, des pieds de page, etc. à partir de documents. La mise en page est un type de fonctionnalité de l'API Analyze Document. Les clients peuvent utiliser Layout en tant que fonctionnalité autonome ou en combinaison avec d'autres types de fonctionnalités d'analyse de document.

Reconnaissance optique de caractères

Amazon Textract OCR détecte automatiquement le texte imprimé et manuscrit contenu dans les documents et les images. L'OCR basé sur le ML de Textract peut reconnaître le texte dans différentes polices et styles, et il peut également gérer le texte bruyant ou déformé.

Extraction de formulaires

Vous pouvez détecter automatiquement les paires clé-valeur dans les images de document et conserver le contexte sans intervention manuelle. Une paire clé-valeur est un ensemble d'éléments de données liés. Par exemple, dans un document, le champ « Prénom » est la clé et « Jane » est la valeur. Il est ainsi facile d'importer les données extraites dans une base de données ou de les fournir comme variable dans une application. Avec les solutions OCR traditionnelles, les clés et les valeurs sont extraites sous forme de texte simple et leur relation est perdue, à moins que des règles codées en dur ne soient écrites et maintenues pour chaque formulaire.

Détection de signature

Amazon Textract offre la possibilité de détecter des signatures sur n'importe quel document ou image. Ainsi, il est facile de détecter automatiquement les signatures sur des documents tels que les chèques, les formulaires de demande de prêt et les formulaires de réclamation. L'emplacement des signatures et les scores de confiance associés sont inclus dans la réponse API.

Extraction de tableau

Amazon Textract préserve la composition des données stockées dans les tableaux pendant l'extraction. C'est particulièrement utile pour les documents composés en grande partie de données structurées, comme les rapports financiers ou les dossiers médicaux avec des tableaux en colonnes et en lignes. Vous pouvez charger automatiquement les données extraites dans une base de données en utilisant un schéma prédéfini. Par exemple, les rangées de numéros d'articles et de quantités dans un rapport d'inventaire conserveront leur association, ce qui permet à une application de gestion des stocks d'incrémenter facilement les totaux des articles.

Analyser les prêts

Analyze Lending API est une API de traitement intelligent des documents, gérée et préconfigurée, qui automatise entièrement l'extraction d'informations à partir des dossiers de prêt. Les clients n'ont qu'à télécharger leurs documents de prêt hypothécaire vers l'API d'Analyze Lending et ses modèles de machine learning préconstruits classeront et diviseront l'ensemble des documents par type.

Extraction basée sur des requêtes

Amazon Textract vous offre la possibilité de spécifier les données que vous devez extraire des documents à l'aide de requêtes. Vous pouvez spécifier les informations dont vous avez besoin sous la forme de questions en langage naturel (par exemple, « Quel est le nom du client ») et recevoir les informations exactes (par exemple, « John Doe ») dans le cadre de la réponse API. Vous n'avez pas besoin de connaître la structure des données dans le document (tableau, formulaire, champ implicite, données imbriquées) ni de vous soucier des variations entre les versions et les formats de documents. Les requêtes Textract sont pré-entraînées sur une grande variété de documents : fiches de paie, relevés bancaires, formulaires W-2, formulaires de demande de prêt, notes hypothécaires, documents de réclamation et cartes d'assurance. La flexibilité offerte par les requêtes Textract réduit la nécessité d'implémenter un post-traitement, de vérifier manuellement les données extraites et d'entraîner des modèles de ML.

Factures et reçus

Les factures et les reçus peuvent présenter une grande variété de mises en page, ce qui rend l'extraction manuelle des données à grande échelle difficile et fastidieuse. Amazon Textract utilise le machine learning (ML) pour comprendre le contexte des factures et des reçus, puis extrait automatiquement les données pertinentes telles que le nom du fournisseur, le numéro de facture, les prix des articles, le montant total et les conditions de paiement.

Pièces d'identité

Amazon Textract utilise le machine learning (ML) pour comprendre le contexte des documents d'identité tels que les passeports et les permis de conduire américains, sans avoir besoin de modèles ou de configuration. Vous pouvez extraire automatiquement des données spécifiques telles que la date d'expiration et la date de naissance, mais aussi identifier et extraire intelligemment des informations implicites telles que le nom et l'adresse. Grâce à Analyze ID, les sociétés fournissant des services de vérification d'identité et les entreprises des secteurs de la finance, de la santé et de l'assurance peuvent facilement automatiser la création de compte, la planification de rendez-vous, la gestion des candidatures, et bien plus encore, en proposant à leurs clients et interlocuteurs de soumettre une photo ou une numérisation de leur pièce d'identité.

Tarification d'Amazon Textract

Amazon Textract est un service de machine learning (ML) qui extrait automatiquement le texte, l'écriture manuscrite et les données des documents numérisés. Il va au-delà de la simple reconnaissance optique de caractères (OCR) pour identifier, comprendre et extraire les données des formulaires et des tableaux. Avec Amazon Textract, vous ne payez que ce que vous utilisez. Il n'y a pas de frais minimums et aucun engagement initial n'est requis. Amazon Textract est facturé uniquement pour les pages traitées, que vous extrayiez du texte seul, du texte avec des tableaux, des données de formulaire, des requêtes ou que vous traitiez des factures et des documents d'identité. Consultez les questions fréquentes pour obtenir des informations supplémentaires sur les pages et l'utilisation acceptable de Textract.

Étapes suivantes

Free Tier

Créez un compte gratuit

S'inscrire

Console

Commencer à créer dans la console

S'inscrire

Fonctionnalités d'Amazon Textract

Pourquoi Amazon Textract ?

Page Topics

Focntionnalités générales

Requêtes personnalisées

Disposition

Reconnaissance optique de caractères

Extraction de formulaires

Détection de signature

Extraction de tableau

Analyser les prêts

Extraction basée sur des requêtes

Factures et reçus

Pièces d'identité

Tarification d'Amazon Textract

Étapes suivantes

Créez un compte gratuit

Commencer à créer dans la console

Fin de la prise en charge d'Internet Explorer