O AWS Glue é um serviço de integração de dados de tecnologia sem servidor que oferece vários mecanismos de integração de dados para dar suporte a seus usuários e workloads. Com o AWS Glue, você pode usar o mecanismo apropriado para qualquer workload, com base nas características do seu workload e nas preferências dos seus desenvolvedores e analistas.
Principais recursos
AWS Glue para Apache Spark
O AWS Glue fornece uma infraestrutura de tecnologia sem servidor e otimizada para performance para executar o Apache Spark para integração de dados e trabalhos de extração, transformação e carregamento (ETL). O AWS Glue para Apache Spark oferece suporte ao processamento em lotes e fluxos e acelera a ingestão, o processamento e a integração de dados. Em seguida, você pode criar e atualizar seu data lake e data warehouse e extrair insights dos dados com mais rapidez.
AWS Glue para Ray
Com o AWS Glue para Ray, seus engenheiros de dados e desenvolvedores podem processar grandes conjuntos de dados usando Python e bibliotecas Python populares. O AWS Glue usa o Ray (Ray.io), uma estrutura de computação unificada de código aberto usada para escalar workloads em Python. O AWS Glue para Ray inclui bibliotecas populares de processamento de dados em Python, para que você possa trazer suas próprias bibliotecas para personalizar seu trabalho de integração de dados.
AWS Glue para Python Shell
Com o AWS Glue para Python Shell, você pode usar um trabalho do Python Shell para executar scripts Python no AWS Glue. Por meio desses trabalhos, você pode escrever trabalhos complexos de integração e análise de dados em Python. Os trabalhos do AWS Glue para Python Shell oferecem bibliotecas de análise comuns prontas para uso, incluindo Pandas, NumPy e Amazon SageMaker Data Wrangler. Os clientes podem usar a funcionalidade incluída para se conectarem a diversos bancos de dados, data warehouses e serviços da AWS.