Amazon DataZone : Automatiser la découverte des données

Présentation

Accélérez la saisie manuelle des attributs de données dans le catalogue de données, qui peut être source d'erreurs. Générez le contexte commercial et recommandez des analyses pour des jeux de données afin d'améliorer les résultats de la découverte des données. Déterminez d'où proviennent vos données et quelles sources seront affectées par les modifications. L'ajout de données en l'enrichissement des données dans le catalogue de données commerciales améliore également l'expérience de recherche. Réduisez votre temps de recherche et d'utilisation des données de plusieurs semaines à plusieurs jours.

Caractéristiques principales

Le catalogue de données commerciales Amazon DataZone agit comme un registre organisationnel fédéré dans lequel les métadonnées techniques peuvent être publiées sous forme de ressources, et vous pouvez ajouter un contexte commercial enrichi. Vous pouvez rendre les données visibles grâce au contexte commercial afin que tous vos utilisateurs puissent les trouver, les comprendre et leur faire confiance rapidement et facilement.

Automatisez l'ajout de descriptions et de noms commerciaux aux données afin de comprendre facilement le contexte et d'éviter d'avoir à utiliser des noms techniques cryptiques. Cette automatisation est alimentée par de grands modèles de langage (LLM) pour une précision et une cohérence accrues. 

La recherche à facettes s'ajoute au catalogue de données commerciales pour aider les consommateurs et les producteurs de données à trouver des actifs de données à l'aide d'informations structurelles familières, telles que les noms de tables et de colonnes, ainsi que les termes commerciaux.

Pour chaque jeu de données, générez une liste des colonnes les plus utiles et des utilisations analytiques potentielles. 

Grâce aux statistiques de qualité des données d'Amazon DataZone, les consommateurs de données peuvent consulter les indicateurs de qualité des données provenant de systèmes de qualité des données d’AWS Glue ou de systèmes tiers. Les consommateurs de données peuvent faire confiance aux sources de données qu'ils utilisent pour prendre des décisions et bénéficier d'un contexte de qualité des données lors de leurs recherches d’actifs. Les producteurs et les équipes informatiques peuvent également utiliser des API pour intégrer les statistiques de qualité des données provenant de systèmes tiers dans un portail unifié, hors console. Les producteurs de données peuvent importer les résultats de qualité des données d’AWS Glue selon un calendrier afin de s'assurer que les scores sont à jour, même si les données sont en constante évolution.

Comprenez l'évolution des données au fil du temps. Le lignage des données peut renforcer la confiance et la maîtrise des données en vous aidant à comprendre d'où proviennent les données, la manière dont elles ont évolué et leur consommation. Vous pouvez réduire le temps passé à cartographier un actif de données et ses relations, à dépanner et à développer des pipelines, et à appliquer des pratiques de gouvernance des données.

Regroupez les actifs de données dans des packages définis (produits de données) adaptés à des cas d’utilisation commerciaux spécifiques afin de rationaliser le catalogage et de permettre aux consommateurs de données de découvrir facilement les données et de s’y abonner. Les producteurs de données peuvent organiser une collection d’actifs pertinents, ajouter un contexte d’entreprise et la publier en tant qu’unité de produit de données. Cela simplifie le processus permettant aux consommateurs de données de localiser tous les actifs de données nécessaires pour des cas d’utilisation particuliers. Les consommateurs peuvent s’abonner à tous les actifs d’un produit de données via un flux de travail d’approbation unique. Les producteurs de données peuvent gérer le cycle de vie du produit, notamment modifier la collection de ressources, annuler la publication, la supprimer et gérer les abonnements. Amazon DataZone propose également une prise en charge des API pour les flux de travail des produits de données, facilitant ainsi l’intégration et l’automatisation.

Cas d'utilisation

Réduisez le temps consacré à l'obtention d'informations en trouvant les bonnes données, dans le bon contexte. Les données ne peuvent être fiables que si elles sont cohérentes, précises, complètes, opportunes, traçables et si leur score de qualité est transparent. Grâce à la propriété distribuée, chaque département ou équipe d'analytique assure la fidélité des actifs afin que les consommateurs de données sachent qu'ils utilisent les bonnes données.

Créez un catalogue de données commerciales en explorant vos actifs et en introduisant les métadonnées techniques (et non les données réelles) pour l'enrichir en fonction du contexte commercial. Le contexte commercial peut être enrichi à l'aide de glossaires et de termes normalisés. Vous pouvez également personnaliser des métadonnées supplémentaires à l'aide de formulaires de métadonnées.

Pour utiliser les bonnes données, vous devez comprendre le contexte des données. Amazon DataZone permet de créer ce contexte pour toutes les données cataloguées à l'aide de glossaires et de formulaires de métadonnées. Désormais, le propriétaire des données peut partager autant d'informations que possible afin de définir le contexte des données afin que le consommateur puisse les trouver, les comprendre, puis s'y abonner. Le score de qualité des données aide les consommateurs de données à comprendre si un actif de données est adapté à son objectif.

Réduisez le temps passé à cartographier les actifs de données et leurs relations, à dépanner et à développer des pipelines, et à appliquer des pratiques de gouvernance des données. Grâce à une expérience graphique, les consommateurs de données comprennent l'origine de l'actif. Les producteurs de données peuvent évaluer l'effet des modifications sur un tableau ou une colonne en comprenant quels systèmes ou quels consommateurs de données utilisent les données (analyse d'impact). Les producteurs de données peuvent également résoudre les problèmes liés aux données en consultant des instantanés du lignage d'un actif de données pour identifier la source de l'erreur. Amazon DataZone visualise le lignage des données capturées à partir des événements OpenLineage, une norme ouverte pour la collecte de lignages, mais peut également capturer des mappages de lignage personnalisés. Le lignage aide les producteurs de données à inclure le lignage des données lors du partage des données, ce qui renforce la confiance dans les sources de données.

Vidéos

AWS re:Invent 2023 – Comment créer un catalogue professionnel avec Amazon DataZone (21:37)
AWS re:Invent 2023 – Comprenez vos données dans leur contexte commercial (55:40)

Questions fréquentes (FAQ)

Quel est le type d'informations utilisé dans le catalogue de données commerciales Amazon DataZone ?

Dans le catalogue de données commerciales Amazon DataZone, les métadonnées commerciales fournissent des informations créées ou utilisées par des professionnels et fournissent un contexte aux données organisationnelles. Cela peut inclure les informations suivantes :

  • Propriété : Les organisations modernes centrées sur les données utilisent un processus de gestion des données distribué dans lequel les secteurs d'activité (LOB) sont responsables de la gestion de leurs propres données. Un catalogue permet de suivre cette propriété de manière à ce que les parties intéressées puissent rechercher et demander l'accès aux données dans le cadre de leurs tâches professionnelles.
  • Classification : La découverte des données est une tâche clé que les métadonnées d'entreprise peuvent prendre en charge. La découverte de données utilise des ontologies et des taxonomies d'entreprise définies de manière centralisée pour classer les sources de données et vous aide à trouver les objets de données pertinents.
  • Relations : Vous pouvez utiliser le catalogue de données commerciales Amazon DataZone pour ajouter des informations de relations sous forme de métadonnées. Comme dans le cas d'un schéma de jeu de données techniques, le catalogue de données commerciales indique les relations qui existent entre les objets du catalogue, notamment entre les bases de données, les jeux de données et leurs colonnes.
  • Schéma : la fonctionnalité de recommandations de l'IA pour les descriptions peut utiliser le schéma technique et commercial pour générer des descriptions recommandées et afficher l'utilisation des données.
  • Origine et consommation : le lignage des données et l’analyse d’impact, ainsi que les mappages personnalisés d’OpenLineage, sont liés dans le catalogue de données commerciales.

Quels éléments puis-je cataloguer avec Amazon DataZone ?

Amazon DataZone prend en charge les ressources de données publiées directement à partir du catalogue de données AWS Glue et d'Amazon Redshift. Ces deux sources permettent de cataloguer les données aux emplacements suivants :

  • Lacs de données Amazon Simple Storage Service (Amazon S3)
  • De nombreuses bases de données sur mesure AWS, comme Amazon Relational Database Service (Amazon RDS) via un crawler AWS Glue
  • Plus de 100 connecteurs Amazon AppFlow, pour importer des données provenant d'applications tierces telles que Snowflake, Salesforce et Google Analytics