Qu'est-ce que la gouvernance des données ?

La gouvernance des données est une méthodologie qui garantit que les données sont en bon état pour soutenir les initiatives et les opérations commerciales. L'alignement de la gouvernance des données sur les initiatives commerciales présente de nombreux avantages.

  • Justifier le financement du programme de gouvernance des données
  • Encourager la participation des milieux d'affaires
  • Donner la priorité aux activités de gouvernance des données
  • Améliorer le niveau d'intégration des données requis dans les domaines d'activité participants
  • Aider à déterminer le bon modèle opérationnel, en particulier le niveau de centralisation et de décentralisation requis.

Pourquoi la gouvernance des données est-elle importante ?

Selon Gartner, d'ici 2025, 80 % des entreprises qui cherchent à développer leur activité numérique n'y parviendront pas, car leur approche de la gouvernance des données et des analyses n'est pas moderne. Il n'est donc pas étonnant que les Chief Data Officers (CDO) considèrent la gouvernance des données comme une priorité absolue de leurs projets de données. Dans une enquête menée par le CDOIQ du MIT en 2023 auprès de 350 CDO et personnes occupant des postes à responsabilités équivalentes, 45 % des personnes interrogées identifient la gouvernance des données comme une priorité absolue. Ces leaders des données cherchent à mettre en place un modèle de gouvernance qui leur permette de mettre les données à la disposition des bonnes personnes et applications quand elles en ont besoin, tout en préservant la sécurité des données, avec des contrôles appropriés en place. 

La gouvernance a toujours été utilisée pour sécuriser les données dans des silos empêchant les fuites ou l'utilisation abusive des données. Cependant, ces silos sont accompagnés de barrières que les utilisateurs légitimes doivent franchir pour accéder aux données quand ils en ont besoin. Sans le vouloir, l'innovation axée sur les données est entravée.

Vous disposez de deux leviers pour faire de la gouvernance un moteur d'innovation : l'accès et le contrôle. La clé du succès est de trouver le bon équilibre entre accès et contrôle, mais celui-ci est différent pour chaque organisation. Lorsque vous exercez trop de contrôle, les données sont bloquées dans des silos et les utilisateurs ne peuvent pas y accéder lorsqu'ils en ont besoin. Cela entrave non seulement la créativité, mais conduit également à la création de systèmes informatiques parallèles qui rendent les données obsolètes et non sécurisées. En revanche, lorsque vous accordez trop d'accès, les données se retrouvent dans des applications et des entrepôts de données, ce qui augmente le risque de fuite.

La mise en place d'une gouvernance appropriée, avec un équilibre entre accès et contrôle, favorise une découverte, une conservation, une protection et un partage appropriés des données. Les utilisateurs ont ainsi davantage confiance dans les données. L'innovation est encouragée et les données sont protégées.

Qu'est-ce que la gouvernance analytique ?

La gouvernance analytique concerne à la fois les données destinées à être utilisées dans les applications analytiques et l'utilisation des systèmes d'analytique. Votre équipe de gouvernance analytique peut établir des mécanismes de gouvernance, tels que la gestion des versions et la documentation des rapports d'analytique. Comme toujours, gardez un œil sur les exigences réglementaires, établissez une politique de l'entreprise et offrez des barrières de protection à l'ensemble de l'organisation.

Qu'est-ce que la gouvernance du machine learning (ML) ?

La plupart des pratiques de gouvernance du ML sont identiques à celle de la gouvernance des données. La qualité et l'intégration des données doivent fournir les données requises pour l'entraînement des modèles et le déploiement en production (les magasins de fonctionnalités constituent un aspect important à cet égard). L'intelligence artificielle (IA) responsable accorde une attention particulière à l'utilisation de données sensibles pour la génération de modèles. Les capacités supplémentaires de gouvernance du ML consistent notamment à permettre aux utilisateurs de participer à la création, au déploiement et à la surveillance des modèles, à documenter l'entraînement des modèles, la gestion des versions, les cas d'utilisation pris en charge et l'orientation de l'utilisation éthique des modèles, et à surveiller le modèle en production pour en vérifier la précision, la dérive, le surajustement et le sous-ajustement.

L'IA générative nécessite des capacités supplémentaires de gouvernance des données, telles que la qualité et l'intégrité des données afin de prendre en charge l'adaptation des modèles de base pour l'entraînement et l'inférence, la gouvernance de la toxicité et des biais de l'IA générative, et les opérations du modèle de fondation (FMOps).

Vous pouvez prendre en charge l'IA et le ML avec le même programme de gouvernance des données. La préparation des données est nécessaire pour transformer les données sous une forme que les modèles d'IA et de ML peuvent utiliser pour l'entraînement et l'inférence de production, mais la préparation des données la plus efficace est celle que vous n'avez pas à effectuer. Les data scientists passent trop de temps à préparer les données pour chaque cas d'utilisation. Votre équipe de gouvernance des données peut vous aider à soulager cette tâche lourde non différenciée. En outre, la gouvernance des données peut superviser la création de magasins de fonctionnalités modelés à utiliser dans les cas d'utilisation de l'IA et du ML.

Enfin, les données sensibles doivent être protégées de manière appropriée, afin que votre équipe puisse atténuer les risques liés à l'utilisation des données sensibles pour entraîner les modèles de base.

Tout comme l'analytique en général, vous devez gouverner l'utilisation des modèles d'IA et de ML que vous créez ou personnalisez. Idéalement, cette gouvernance devrait être étroitement associée à la gouvernance analytique afin de soutenir différents secteurs d'activité.

Quels sont les principaux défis de la gouvernance des données ?

Le défi stratégique le plus courant en matière de gouvernance des données est de réussir à aligner le programme avec les initiatives métier au lieu de mettre en avant l'importance de la gouvernance des données directement. Par exemple, vous pouvez mettre en avant l'importance de permettre aux utilisateurs finaux de trouver plus facilement les données qu'ils recherchent, ou bien mettre en avant l'importance de résoudre les problèmes liés à la qualité des données. Mais ce sont là des solutions à la recherche d'un problème. Si vous procédez ainsi, vous vous retrouverez en concurrence, pour le financement et le parrainage, avec des initiatives métier que vous êtes censé soutenir. À la place, faites en sorte que la gouvernance des données soutienne les initiatives métier. Chaque initiative métier d'envergure nécessite des données. La gouvernance des données doit garantir que les données sont en bon état pour favoriser la réussite des initiatives métier. Veillez à établir des rapports et des audits pour savoir comment la gouvernance des données soutient ces initiatives.

Un autre enjeu stratégique courant de la gouvernance des données est d'éviter d'appliquer la gouvernance des données de manière trop étroite. Une gouvernance des données trop étroite peut être définie comme un alignement du programme sur des domaines d'activité ou des cas d'utilisation de manière séparée, sans prendre en compte l'ensemble des domaines d'activité. Elle peut également être définie comme se limitant à seulement une ou deux capacités de gouvernance des données. Par exemple, le fait de disposer d'un catalogue de données ne constitue pas un programme de gouvernance des données.

Quels sont les différents styles de gouvernance des données ?

Pour votre programme de gouvernance des données, vous devez trouver un équilibre entre centralisation et décentralisation (libre-service compris). L'organisation, dans son ensemble, présente une combinaison de gouvernance centralisée, fédérée et décentralisée, là encore selon les besoins métiers. Vous devez autonomiser autant que possible les différentes équipes, tout en préservant la cohérence entre elles (par exemple, permettre de relier les données).  

  • Gouvernance centralisée des données : les services centraux sont les principaux responsables des rapports de missions, des politiques, du choix des outils, etc. Les actions quotidiennes sont souvent intégrées aux secteurs d'activité.
  • Gouvernance fédérée des données : la gouvernance fédérée des données permet de répondre au mieux aux besoins des différentes unités opérationnelles ou initiatives commerciales. Avec la gouvernance fédérée des données, une petite équipe centralisée est principalement chargée de résoudre les problématiques les plus courantes, comme les outils de qualité des données à l'échelle de l'entreprise.
  • Gouvernance des données en libre-service ou décentralisée : chaque secteur d'activité fait ce dont il a besoin pour son projet spécifique. Chaque projet utilise tous les outils ou processus utilisés pour d'autres projets et qui sont adaptés. Les sujets tels que le maillage de données (lui-même décentralisé) devenant de plus en plus centraux, la gouvernance des données en libre-service augmente elle aussi. 

Qui établit la gouvernance des données ?

La mise en place d'un programme de gouvernance des données centré sur l'entreprise nécessite de nombreuses fonctions.

  • Les sponsors exécutifs connaissent de nombreuses initiatives commerciales de la feuille de route de l'entreprise et peuvent aider à déterminer les priorités pour soutenir la gouvernance des données.
  • Les gestionnaires de données font partie de l'entreprise et sont impliqués dans les projets au quotidien. Ils aident à détecter les problèmes liés aux données pouvant entraîner des difficultés grâce à des initiatives commerciales ciblées.
  • Les propriétaires de données élaborent des politiques concernant les données, notamment ; qui a accès aux données et dans quelles circonstances, comment interpréter et appliquer les réglementations, et la définition des principaux termes
  • Les ingénieurs de données sont généralement issus du service informatique et fournissent des outils pour sécuriser les données, gérer la qualité des données, intégrer des données provenant de diverses sources et trouver les bonnes données.

Comment fonctionne la gouvernance des données ?

La gouvernance des données nécessite des solutions de ressources humaines, de processus et de technologies intégrant un large éventail de capacités.

Organisez les données à l'échelle pour limiter leur prolifération. Pour organiser vos données à l'échelle, vous devez identifier et gérer vos sources de données les plus précieuses, notamment les bases de données, les lacs de données et les entrepôts de données, afin de limiter la prolifération et la transformation des actifs de données critiques. L'organisation des données implique également de s'assurer qu'elles sont exactes, à jour et exemptes d'informations sensibles, afin que les utilisateurs puissent avoir confiance dans les décisions basées sur les données et dans les applications d'alimentation de données.

Capacités : gestion de la qualité des données, intégration des données et gestion des données principales

Découvrez et comprenez vos données dans leur contexte pour accélérer les décisions basées sur les données. Comprendre vos données dans leur contexte signifie que tous les utilisateurs peuvent découvrir et comprendre la signification de leurs données afin de pouvoir les utiliser en toute confiance pour créer de la valeur métier. Un catalogue de données centralisé permet de trouver facilement les données, de demander leur accès et de les utiliser pour prendre des décisions métier.

Capacités : profilage des données, lignage des données et catalogues de données

Protégez et partagez vos données en toute sécurité avec contrôle et confiance. Pour protéger vos données, vous devez trouver le juste équilibre entre confidentialité, sécurité et accès aux données. Il est essentiel de pouvoir gérer l'accès aux données au-delà des frontières organisationnelles, à l'aide d'outils intuitifs à destination des utilisateurs professionnels et techniques.

Capacités : cycle de vie, conformité et sécurité des données

Réduisez les risques métier et améliorez la conformité réglementaire. Pour réduire les risques, il est nécessaire de comprendre comment les données sont utilisées et par qui. Les services AWS vous aident à surveiller et à auditer l'accès aux données, y compris l'accès via des modèles de ML, afin de garantir la sécurité des données et la conformité réglementaire. Le machine learning nécessite également la transparence des audits pour garantir une utilisation responsable et des rapports simplifiés.

Capacités : audit de l'utilisation des données et ML

Comment pouvez-vous améliorer l'efficacité de vos équipes chargées de la gouvernance des données ?

Pour qu'un programme de gouvernance des données soit efficace, la clé est de l'associer à des initiatives commerciales déjà financées. Assurez-vous que votre équipe comprend les domaines, les sources et les éléments de données nécessaires pour soutenir ces initiatives.

  • Élaborez une feuille de route de gouvernance des données qui soutient des initiatives commerciales ciblées. Commencez ensuite à identifier les données qui se chevauchent entre les initiatives commerciales choisies.
  • Identifiez les applications et les cas d'utilisation de la Business Intelligence que les données doivent prendre en charge et alimenter, y compris les exigences en matière d'actualisation et de confidentialité.
  • Découvrez à quoi ressemblent les données adaptées à l'objectif pour chaque initiative commerciale choisie.
  • Soutenez et développez le programme de gouvernance des données en l'intégrant au modèle opérationnel de l'entreprise, de sorte que la planification et la mise en œuvre des données fassent partie intégrante du fonctionnement de l'organisation.
  • Organisez la communauté dédiée à l'analytique de façon à privilégier le libre-service et la cohérence.
  • Appuyez l’intelligence artificielle (IA) et le machine learning (ML) grâce à la gouvernance des données et à la gouvernance du ML. Utilisez le même programme de gouvernance des données pour les magasins de fonctionnalités et les modèles de ML.

Quelles sont les offres d'AWS pour la gouvernance des données ?

Grâce à la gouvernance des données de bout en bout sur AWS, les entreprises peuvent contrôler où se trouvent leurs données, qui y a accès et ce qui peut être fait avec elles à chaque étape du flux de travail des données. La gouvernance des données avec AWS aide les entreprises à accélérer les décisions basées sur les données en permettant aux bonnes personnes et aux bonnes applications de trouver les bonnes données, d'y accéder et de les partager facilement, en toute sécurité et lorsqu'elles en ont besoin. Vous pouvez organiser les données en automatisant leur intégration et leur qualité afin de limiter leur prolifération. Vous pouvez découvrir et comprendre vos données grâce à des catalogues centralisés qui améliorent la connaissance des données. Vous pouvez protéger vos données grâce à des autorisations précises qui vous permettent de les partager en toute confiance. Vous pouvez réduire les risques et améliorer la conformité réglementaire en surveillant et en auditant l'accès aux données.

  • Amazon DataZone : débloquez les données au-delà des frontières organisationnelles avec une gouvernance intégrée
  • AWS Glue : découvrez, préparez et intégrez toutes vos données à n'importe quelle échelle
  • AWS Lake Formation : créez, gérez et sécurisez des lacs de données en quelques jours
  • Amazon QuickSight : la Business Intelligence unifiée à très grande échelle
  • Amazon SageMaker : créez, entraînez et déployez rapidement et facilement des modèles de machine learning pour tous les cas d'utilisation avec une infrastructure, des outils et des flux de travail entièrement gérés
  • Page web sur la gouvernance du ML
  • Amazon Bedrock : créez et mettez à l'échelle des applications d'IA génératives à l'aide de modèles de fondation (FM)
  • Amazon Macie : découvrez et protégez les données sensibles quelle que soit l'échelle
  • Amazon Simple Storage Service (Amazon S3) : stockez des objets conçu pour extraire n'importe quelle quantité de données, depuis n'importe où
  • AWS Data Exchange : découvrez facilement les données de tiers dans le cloud, abonnez-vous à elles et utilisez-les
  • AWS Clean Rooms : créez des salles blanches en quelques minutes pour collaborer avec vos partenaires sans dévoiler les données brutes

Démarrez avec la gouvernance de données sur AWS en créant un compte gratuit dès aujourd'hui.

Prochaines étapes sur AWS

Consultez d'autres ressources relatives aux produits
En savoir plus sur les services d'analytique AWS 
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter