Obtenez des informations intégrées en exécutant des analytiques en temps réel et prédictives sur des données mises à l'échelle, complexes sur l'ensemble de vos bases de données opérationnelles, lac de données, entrepôt des données et milliers d'ensembles de donnés tiers.
Requête fédérée : grâce à la nouvelle fonctionnalité de requête fédérée d'Amazon Redshift, vous pouvez accéder à votre base de données relationnelle opérationnelle. Vous pouvez interroger des données en temps réel sur un ou plusieurs Amazon Relational Database Service (RDS), bases de données Aurora PostgreSQL, RDS MySQL et Aurora MySQL pour obtenir une visibilité instantanée sur toutes les opérations métiers sans avoir à déplacer des données. Vous pouvez également combiner des données de votre entrepôt des données Redshift, des données de votre lac de données et des données de vos magasins opérationnels pour prendre de meilleures décisions orientées données. Amazon Redshift propose des optimisations qui permettent de réduire les données transférées sur le réseau et les complète avec son traitement de données massivement parallèle pour les requêtes hautes performances. En savoir plus.
Partage de données : le partage de données d'Amazon Redshift vous permet d'étendre la facilité d'utilisation, les performances et les avantages en termes de coûts qu'Amazon Redshift offre dans un seul cluster à des déploiements multi-clusters tout en permettant le partage des données. Le partage de données permet un accès aux données instantané, détaillé et rapide dans les clusters Redshift sans avoir besoin de les copier ou de les déplacer. Le partage de données fournit un accès en direct aux données afin que vos utilisateurs voient toujours les informations les plus récentes et les plus cohérentes au fur et à mesure qu'elles sont mises à jour dans l'entrepôt des données. Vous pouvez partager en toute sécurité des données en direct avec les clusters Redshift dans le même compte AWS ou dans des comptes différents sur l'ensemble des régions. En savoir plus.
AWS Data Exchange for Amazon Redshift : interrogez les jeux de données Amazon Redshift de votre propre cluster Redshift sans extraction, transformation et chargement (ETL) des données. Vous pouvez vous abonner aux produits d'entrepôt des données cloud Redshift dans AWS Data Exchange. Dès qu'un fournisseur effectue une mise à jour, le changement est visible aux abonnés. Si vous êtes un fournisseur de données, l'accès est automatiquement octroyé quand un abonnement démarre et révoqué quand il prend fin, les factures sont automatiquement générées lorsque les paiements sont dus, et les paiements sont encaissés via AWS. Vous pouvez mettre sous licence l'accès aux fichiers statiques, les données dans Amazon Redshift, et les données livrées via les API, le tout avec un seul abonnement. En savoir plus.
Redshift ML : Redshift ML permet aux analystes de données, aux scientifiques des données, aux professionnels de l'informatique décisionnelle et aux développeurs de créer, entraîner et déployer des modèles Amazon SageMaker à l'aide de SQL. Avec Redshift ML, vous pouvez utiliser des instructions SQL pour créer et entraîner des modèles Amazon SageMaker sur leurs données dans Amazon Redshift, puis utiliser ces modèles pour des prédictions telles que la détection du taux de désabonnement, les prédictions financières, la personnalisation et l'évaluation des risques directement dans leurs requêtes et rapports. En savoir plus.
Amazon Redshift Integration for Apache Spark : cette fonctionnalité facilite la création et l'exécution d'applications Apache Spark sur les données Amazon Redshift, ce qui permet aux clients d'ouvrir l'entrepôt des données à un ensemble plus large de solutions d'analytique et de machine learning. Avec Amazon Redshift Integration for Apache Spark, les développeurs utilisant des services AWS d'analyse et de machine learning (ML) comme Amazon EMR, AWS Glue et Amazon Athena Spark et Amazon SageMaker peuvent désormais créer facilement des applications Apache Spark qui lisent et écrivent dans leur entrepôt de données Amazon Redshift sans compromettre les performances de leurs applications ou la cohérence transactionnelle de leurs données. L'intégration d'Amazon Redshift pour Apache Spark facilite également la surveillance et le dépannage des problèmes de performance des applications Apache Spark lorsqu'elles sont utilisées avec Amazon Redshift.
Amazon Aurora Zero-ETL vers Amazon Redshift : il s'agit d'une intégration sans code entre Amazon Aurora et Amazon Redshift qui permet aux clients d'Amazon Aurora d'utiliser Amazon Redshift pour l'analytique en temps quasi-réel et le machine learning sur des pétaoctets de données transactionnelles. Quelques secondes après l'écriture des données transactionnelles dans Amazon Aurora, Amazon Aurora Zero-ETL to Amazon Redshift rend les données disponibles de manière transparente dans Amazon Redshift, ce qui évite aux clients de devoir construire et maintenir des pipelines de données complexes effectuant des opérations d'extraction, de transformation et de chargement (ETL). Cette intégration réduit la charge et les coûts opérationnels, et permet aux clients de se concentrer sur l'amélioration de leurs applications. Grâce à l'accès en quasi temps réel aux données transactionnelles, les clients peuvent exploiter les capacités d'analyse et de machine learning d'Amazon Redshift pour tirer des enseignements des données transactionnelles et autres afin de répondre efficacement aux événements critiques et sensibles au facteur temps.
Ingestion de streaming : les ingénieurs de données, les analystes de données et les développeurs big data utilisent des moteurs de streaming en temps réel pour améliorer la réactivité vis-à-vis des clients. Grâce à la nouvelle fonctionnalité d’ingestion en streaming d’Amazon Redshift, vous pouvez utiliser SQL (langage de recherche structurée) pour vous connecter et ingérer directement des données provenant d'Amazon Kinesis Data Streams et d'Amazon Managed Streaming for Apache Kafka (MSK). Amazon Redshift Streaming Ingestion facilite également la création et la gestion des pipelines en aval en vous permettant de créer directement des vues matérialisées sur les flux. Les vues matérialisées peuvent également inclure des transformations SQL dans le cadre de votre pipeline ELT (Extract Load Transform). Vous pouvez rafraîchir manuellement les vues matérialisées définies pour interroger les données en continu les plus récentes. Cette approche vous donne la possibilité d’effectuer un traitement en aval et des transformations de données en streaming à l’aide d’outils existants qui sont familiers. Et cela, sans frais supplémentaires.
Interrogation et exportation de données depuis et vers votre lac de données : aucun autre entrepôt des données cloud ne permet d'interroger aussi facilement des données et de réécrire des données dans votre lac de données dans des formats ouverts. Vous pouvez interroger des formats de fichiers ouverts tels que Parquet, ORC, JSON, Avro, CSV et plus directement dans Amazon S3 à l'aide du langage SQL ANSI courant. Pour exporter des données vers votre lac de données, utilisez simplement la commande Amazon Redshift UNLOAD dans votre code SQL, vous spécifiez Parquet comme format de fichier, et Amazon Redshift prend automatiquement en charge le formatage et le déplacement des données dans S3. Cela vous donne la possibilité de stocker des données hautement structurées et fréquemment consultées et des données semi-structurées dans un entrepôt des données Amazon Redshift, tout en conservant plusieurs exaoctets de données structurées, semi-structurées et non structurées dans Amazon S3. La réexportation de données d'Amazon Redshift vers votre lac de données vous permet d'analyser davantage les données avec des services AWS tels qu'Amazon Athena, Amazon EMR et Amazon SageMaker.
Intégration aux services AWS : l'intégration native aux services AWS ainsi qu'aux services de base de données et de machine learning facilite le traitement des flux de travail d'analytique complets sans accroc. Par exemple, AWS Lake Formation est un service qui facilite la configuration d'un lac de données sécurisé en quelques jours. AWS Glue peut effectuer des opérations Extract-transform-load (ETL) des données dans Amazon Redshift. Amazon Kinesis Data Firehose constitue le moyen le plus facile de capturer, transformer et charger des données de streaming dans Amazon Redshift pour une analyse presque en temps réel. Vous pouvez utiliser Amazon EMR pour traiter des données via Hadoop/Spark et charger la sortie dans Amazon Redshift pour l'informatique décisionnelle et les analyses. Amazon QuickSight est le premier service d'informatique décisionnelle avec paiement à l'utilisation que vous pouvez utiliser pour créer des rapports, des visualisations et des tableaux de bord sur des données Redshift. Vous pouvez utiliser Amazon Redshift pour préparer vos données à l'exécution de charges de travail de machine learning (ML) avec Amazon SageMaker. Pour accélérer les migrations vers Amazon Redshift, vous pouvez utiliser AWS Schema Conversion tool et AWS Database Migration Service (DMS). En outre, Amazon Redshift est pleinement intégré à Amazon Key Management Service (KMS) et Amazon CloudWatch à des fins de sécurité, de surveillance et de conformité. Vous pouvez également utiliser des fonctions définies par l'utilisateur Lambda pour appeler une fonction Lambda à partir de vos requêtes SQL comme si vous appeliez une fonction définie par l'utilisateur dans Amazon Redshift. Vous pouvez écrire des fonctions définies par l'utilisateur Lambda à intégrer aux services partenaires AWS mais aussi pour accéder à d'autres services AWS populaires tels qu'Amazon DynamoDB et Amazon SageMaker.
Intégration de la console partenaire : vous pouvez accélérer l'intégration des données et créer des informations métiers précieuses en quelques minutes en intégrant la console Amazon Redshift à certaines solutions partenaires. Grâce à ces solutions, vous pouvez intégrer les données d'autres applications telles que Salesforce, Google Analytics, Facebook Ads, Slack, Jira, Splunk et Marketo dans votre entrepôt des données Redshift de manière efficace et rationnelle. Vous pouvez également réunir ces jeux de données hétérogènes et les analyser ensemble afin d'obtenir des informations exploitables.
Copie automatique à partir d'Amazon S3 : Amazon Redshift prend en charge la copie automatique pour simplifier et automatiser le chargement des données à partir d'Amazon S3, ce qui réduit le temps et les efforts nécessaires pour élaborer des solutions personnalisées ou gérer des services tiers. Grâce à cette fonctionnalité, Amazon Redshift élimine la nécessité d'exécuter manuellement et de manière répétée les procédures de copie en automatisant l'ingestion des fichiers et en prenant en charge les étapes de chargement continu des données sous le capot. La prise en charge de la copie automatique permet aux utilisateurs opérationnels et aux analystes de données sans aucune connaissance en ingénierie des données de créer facilement des règles d'ingestion et de configurer l'emplacement des données qu'ils souhaitent charger depuis Amazon S3. Lorsque de nouvelles données arrivent dans les dossiers Amazon S3 spécifiés, le processus d'ingestion est déclenché automatiquement en fonction des configurations définies par l'utilisateur. Tous les formats de fichiers sont pris en charge par la commande de copie Redshift, y compris CSV, JSON, Parquet et Avro.
Support natif pour l'analytique avancée : Amazon Redshift prend en charge les types de données scalaires standard tels que NUMBER, VARCHAR et DATETIME, et fournit un support natif pour les traitements analytiques avancés ci-dessous :
- Traitement des données spatiales : Amazon Redshift fournit des données de type polymorphe, GEOMETRY, qui prennent en charge plusieurs formes géométriques telles que Point, Linestring et Polygon. Amazon Redshift fournit également des fonctions SQL spatiales pour élaborer des formes géométriques, importer, exporter, accéder et traiter les données spatiales. Vous pouvez ajouter des colonnes GEOMETRY aux tables Redshift et écrire des requêtes SQL couvrant des données spatiales et non spatiales. Cette fonctionnalité vous permet de stocker, de récupérer et de traiter des données spatiales et d'améliorer de manière transparente vos informations métiers en intégrant des données spatiales dans vos requêtes analytiques. Grâce à la capacité d'Amazon Redshift à interroger de manière transparente les lacs de données, vous pouvez également facilement étendre le traitement spatial aux lacs de données en intégrant des tables externes dans les requêtes spatiales. Consultez la documentation pour plus de détails.
- HyperLogLog sketches : HyperLogLog est un nouvel algorithme qui estime efficacement le nombre approximatif de valeur distinctes dans un jeu de données. Le sketch HLL est une construction qui contient l'information sur les valeurs distinctes d'un jeu de données. Vous pouvez utiliser les sketches HLL afin de parvenir à des profits significatifs en termes de performance pour des requêtes qui calculent la cardinalité approximative de larges jeux de données, avec un taux moyen d'erreur de 0,01-0,6 %. Amazon Redshift fournit une première classe de type de données HLLSKETCH et fonctions SQL afférentes afin de générer, conserver et combiner les sketches HyperLogLog. La fonctionnalité HyperLogLog Amazon Redshift utilise des techniques de correction de biais et offre une haute précision tout en ayant une faible empreinte mémoire. Consultez la documentation pour plus de détails.
- Les données de type date et heure : Amazon Redshift fournit plusieurs types de données DATE, TIME, TIMETZ, TIMESTAMP et TIMESTAMPTZ pour stocker et traiter de manière native les données / données d'heure. Les données de type TIME et TIMESTAMP stockent les données d'heure sans informations de fuseau horaire, tandis que les données de type TIMETZ et TIMESTAMPTZ stockent les données d'heure ainsi que les informations de fuseau horaire. Vous pouvez également utiliser diverses fonctions SQL date/heure pour traiter les valeurs de temps dans les requête Redshift. Consultez la documentation pour plus de détails.
- Traitement des données semi-structurées : les données de type SUPER Amazon Redshift stockent de manière native les données semi-structurées JSON et autres dans des tables Redshift et utilisent le langage de requête PartiQL pour traiter de manière transparente les données semi-structurées. Les données de type SUPER sont par essence sans schéma et permettent de stocker des valeurs imbriquées pouvant contenir des valeurs scalaires Redshift, des tableaux imbriqués et des structures imbriquées. PartiQL est une extension de SQL qui fournit de puissantes capacités d'interrogation notamment naviguer dans les objets et les tableaux, aplatir les tableaux imbriqués mais aussi effectuer le typage dynamique et la sémantique sans schéma. Cette fonctionnalité vous permet de réaliser des analytiques avancées qui combinent les données SQL structurées classiques aux données SUPER semi-structurées avec des performances, une flexibilité et une facilité d'utilisation supérieures. Consultez la documentation pour plus de détails.
- Intégration avec des outils tiers : plusieurs options permettent d'améliorer Amazon Redshift notamment les outils et experts leaders du marché pour le chargement, la transformation et la visualisation des données. Un grand nombre de nos partenaires ont certifié que leurs solutions fonctionnaient avec Amazon Redshift.
- Chargez et convertissez vos données avec les partenaires d'intégration de données.
- Analysez des données et partagez des informations avec toute votre entreprise grâce aux partenaires de business intelligence.
- Concevez et mettez en œuvre votre plateforme d'analytique avec les partenaires consultants et intégrateurs de systèmes.
- Interrogez, explorez et modélisez vos données à l'aide des outils et utilitaires proposés par nos partenaires spécialisés dans l'interrogation et la modélisation de données.