Qu'est-ce qu'un entrepôt de données ?
Un entrepôt de données est un dépôt central contenant des informations qui peuvent analysées dans le but de prendre des décisions plus éclairées. Les données stockées dans un entrepôt des données proviennent de systèmes transactionnels, de bases de données relationnelles et d'autres sources, et arrivent généralement à intervalle régulier. Les analystes métier, les ingénieurs des données, les scientifiques des données et les décisionnaires accèdent aux données via des outils de Business Intelligence (BI), des clients SQL et d'autres applications d'analytique.
Les données et leur analyse sont indispensables pour les entreprises qui souhaitent rester compétitives. Les utilisateurs des entreprises utilisent des rapports, des tableaux de bord et des outils d'analyse pour exploiter leurs données, surveiller leurs performances et soutenir la prise de décision. Ces rapports, tableaux de bord et outils d'analyse sont alimentés par les entrepôts de données, qui stockent les données efficacement pour minimiser le taux d'E/S et fournir des résultats de requêtes ultra rapidement à des centaines de milliers d'utilisateurs en même temps.
Comment un entrepôt de données est-il architecturé ?
Une architecture d'entrepôt de données est constituée de différents niveaux. Le niveau supérieur représente le client frontal qui affiche les résultats via des outils de création de rapports, d'analyse et d'exploration de données. Le niveau intermédiaire comprend le moteur d'analyse utilisé pour accéder et analyser les données. Le niveau inférieur de l'architecture représente le serveur de base de données, soit l'endroit où les données sont chargées et stockées. Les données sont stockées de deux manières différentes : 1) les données consultées fréquemment sont stockées dans des stockages très rapides (tels que des disques SSD) et, 2) les données rarement consultées sont stockées dans des stockages d'objets peu coûteux, tel Amazon S3. L'entrepôt de données s'assure automatiquement que les données consultées fréquemment sont stockées dans le stockage rapide afin que la vitesse de traitement des requêtes soit optimale.
Comment fonctionne un entrepôt de données ?
Un entrepôt de données peut contenir plusieurs bases de données. Dans chacune d'elles, les données sont organisées en tableaux et colonnes. Dans chaque colonne, vous pouvez définir une description des données, telles qu'une valeur entière, un champ de données ou une chaîne. Les tableaux sont organisés à l'intérieur de schémas, qui peuvent être considérés comme des sortes de dossier. Lorsque les données sont intégrées, elles sont stockées dans différents tableaux décrits par le schéma. Les outils de recherche se servent de ce schéma afin de déterminer quels tableaux peuvent être consultés et analysés.
Quels sont les avantages de l'utilisation d'un entrepôt de données ?
Les avantages d'un entrepôt de données sont notamment :
- La prise de décision informée
- Des données consolidées provenant de sources différentes
- L'analyse des données historiques
- Posséder des données de qualité, cohérentes et précises
- La séparation du traitement analytique et des bases de données transactionnelles, ce qui améliore les performances des deux systèmes.
Comment les entrepôts de données, les bases de données et les lacs de données travaillent-ils ensemble ?
En règle générale, les entreprises utilisent une combinaison comprenant une base de données, un lac de données et un entrepôt de données pour stocker et analyser celles-ci. L'architecture Lake House d'Amazon Redshift facilite une telle intégration.
Compte tenu de l'augmentation du volume et de la variété des données, il est avantageux de suivre un ou deux modèles communs pour travailler avec les données sur votre base de données, votre lac de données et votre entrepôt de données :
En savoir plus sur les bases de données »
Contrairement à un entrepôt de données, un lac de données est un dépôt centralisé pour toutes les données, y compris les données structurées, semi-structurées et non structurées. Un entrepôt de données requiert que les données soient organisées dans un format tabulaire, et c'est ici qu'intervient le schéma. Le format tabulaire est nécessaire afin que SQL puisse être utilisé pour interroger les données. Cependant, toutes les applications ne réclament pas que les données soient dans un format tabulaire. Certaines applications, comme l'analyse du big data, la recherche plein texte ou le machine learning peuvent accéder aux données même si elles sont semi-structurées, ou complètement non structurées.
À propos des lacs de données »
Pour une comparaison détaillée des entrepôts de données et des lacs de données, consultez notre page relative à la comparaison entre les entrepôts de données et les lacs de données.
How does a data mart compare to a data warehouse? (Comparaison entre le datamart et l'entrepôt de données)
Le datamart représente un entrepôt de données qui répond aux besoins d'une équipe ou d'une unité commerciale spécifique, comme la finance, le marketing ou les ventes. Il s'agit d'un entrepôt plus petit, plus ciblé, pouvant contenir des résumés de données pour servir au mieux ses utilisateurs. Un datamart peut également être une partie d'un entrepôt de données.
Pour une comparaison détaillée du data mart et des entrepôts de données, consultez notre page relative à la comparaison entre le data mart et les entrepôts de données.
Comment AWS peut-il prendre en charge vos entrepôts de données ?
AWS vous permet de profiter de tous les avantages clés associés au calcul à la demande, notamment l'accès à des capacités de stockage et de calcul sans limite apparente, et la possibilité de faire évoluer votre système en parallèle avec le volume croissant de données collectées, stockées et interrogées, en payant uniquement les ressources que vous mettez en service. AWS propose une large gamme de services gérés qui s'intègrent les uns aux autres de façon transparente pour vous permettre de déployer rapidement une solution d'analyse et d'entreposage de données de bout en bout.
L'illustration suivante montre les étapes clés d'un processus d'analyse de bout en bout, également appelé pile. AWS offre une grande variété de services gérés à chaque étape.
Amazon Redshift est notre service d'entreposage des données rapide, entièrement géré et économique. Il offre un entreposage de données à l'échelle du pétaoctet et une analyse des lacs de données à l'échelle de l'exaoctet réunis en un seul service, pour lequel vous ne payez que pour ce que vous utiliser.
Commencez à utiliser des entrepôts de données sur AWS en créant un compte dès aujourd'hui.