Moteurs d'intégration de données AWS Glue

Choisissez le moteur d'intégration de données adapté aux compétences de vos utilisateurs et à vos charges de travail analytiques.

AWS Glue est un service d'intégration de données sans serveur qui offre plusieurs moteurs d'intégration de données pour prendre en charge vos utilisateurs et vos charges de travail. Avec AWS Glue, vous pouvez utiliser le moteur approprié pour n'importe quelle charge de travail, en fonction des caractéristiques de cette dernière et des préférences de vos développeurs et analystes.

Présentation d’AWS Glue for Ray

Fonctionnalités principales

AWS Glue pour Apache Spark

AWS Glue fournit une infrastructure sans serveur optimisée en termes de performances pour l'exécution d'Apache Spark pour l'intégration de données et les tâches d'extraction, de transformation et de chargement (ETL). AWS Glue pour Apache Spark prend en charge le traitement par lots et en continu, et accélère l'ingestion, le traitement et l'intégration des données. Vous pouvez alors créer et mettre à jour votre lac de données et votre entrepôt des données et extraire plus rapidement des informations à partir des données.

AWS Glue pour Ray

Avec AWS Glue pour Ray, vos ingénieurs et développeurs de données peuvent traiter de grands jeux de données à l'aide de Python et de bibliothèques Python populaires. AWS Glue utilise Ray (Ray.io), un cadre de calcul unifié à code source ouvert utilisé pour faire évoluer les charges de travail Python. AWS Glue for Ray comprend les bibliothèques de traitement de données Python les plus courantes. Vous pouvez donc apporter vos propres bibliothèques pour personnaliser votre travail d'intégration de données.

AWS Glue for Python Shell

Avec AWS Glue pour Python Shell, vous pouvez utiliser une tâche Python Shell pour exécuter des scripts Python sur AWS Glue. Grâce à ces travaux, vous pouvez écrire des travaux complexes d'intégration de données et d'analyse en Python. Les tâches Shell d'AWS Glue for Python offrent des bibliothèques d'analyse courantes prêtes à l'emploi, notamment Pandas, NumPy et Amazon SageMaker Data Wrangler. Vous pouvez utiliser la fonctionnalité groupée pour vous connecter à diverses bases de données, à des entrepôts de données et à des services AWS.