O que é ETL zero?
ETL zero corresponde a um conjunto de integrações que elimina ou minimiza a necessidade de desenvolver pipelines de dados de ETL. Extração, transformação e carregamento (ETL) é o processo de combinar, limpar e normalizar dados de diferentes fontes para prepará-los para workloads de análise, inteligência artificial (IA) e machine learning (ML). Os processos de ETL tradicionais são demorados e complexos de desenvolver, manter e escalar. Em vez disso, as integrações ETL zero facilitam a movimentação de dados ponto a ponto sem a necessidade de criar pipelines de dados de ETL. A integração de ETL zero também pode habilitar consultas em silos de dados sem a necessidade de movimentação de dados.
Quais desafios de ETL a integração ETL zero resolve?
As integrações ETL zero resolvem muitos dos desafios existentes na movimentação de dados em processos de ETL tradicionais.
Aumento da complexidade do sistema
Os pipelines de dados de ETL adicionam mais uma camada de complexidade às suas iniciativas de integração de dados. O mapeamento de dados para corresponder ao esquema de destino desejado envolve regras complexas associadas a esse processo e requer o tratamento de inconsistências e de conflitos de dados. É necessário implementar mecanismos eficazes de tratamento, registro em log e notificação de erros para diagnosticar problemas. Os requisitos de segurança de dados aumentam ainda mais as restrições do sistema.
Custos adicionais
Os pipelines de ETL são dispendiosos no começo, mas os custos podem aumentar à medida que o volume de dados cresce. O armazenamento de dados duplicados entre sistemas pode não ser acessível para grandes volumes de dados. Além disso, a escalabilidade dos processos de ETL geralmente requer atualizações caras de infraestrutura, otimização da performance das consultas e técnicas de processamento em paralelo. Se os requisitos forem alterados, a engenharia de dados precisa monitorar e testar constantemente o pipeline durante o processo de atualização, aumentando os custos de manutenção.
Atraso em análises, IA e ML
Normalmente, ETL requer que os engenheiros de dados criem um código personalizado e que os engenheiros de DevOps implantem e gerenciem a infraestrutura necessária para escalar a workload. Em caso de alterações nas fontes de dados, os engenheiros de dados precisam modificar manualmente o código e implantá-lo novamente. O processo pode demorar semanas, causando atrasos na execução das workloads de análises, inteligência artificial e machine learning. Além disso, o tempo necessário para desenvolver e implantar pipelines de dados de ETL torna os dados impróprios para casos de uso quase em tempo real, como a colocação de anúncios on-line, a detecção de transações fraudulentas ou a análise da cadeia de suprimentos em tempo real. Nesses cenários, a chance de aprimorar as experiências do cliente, abordar novas oportunidades de negócios ou reduzir os riscos de negócios é perdida.
Quais são os benefícios de ETL zero?
A integração de ETL zero oferece vários benefícios para a estratégia de dados de uma organização.
Aumento da agilidade
ETL zero simplifica a arquitetura de dados e reduz os esforços de engenharia de dados. Isso permite a inclusão de novas fontes de dados sem a necessidade de reprocessar grandes quantidades de dados. Essa flexibilidade aumenta a agilidade ao oferecer suporte para a tomada de decisão orientada a dados e a inovação rápida.
Eficiência de custos
ETL zero utiliza tecnologias de integração de dados que são nativas de nuvem e escaláveis, permitindo que as empresas otimizem os custos com base nas necessidades reais de uso e de processamento de dados. As organizações reduzem os custos de infraestrutura, os esforços gastos em desenvolvimento e as despesas gerais de manutenção.
Insights em tempo real
Geralmente, os processos de ETL tradicionais envolvem atualizações periódicas em lote, o que resulta em atrasos na disponibilidade de dados. ETL zero, por outro lado, fornece acesso a dados em tempo real, ou quase, garantindo dados mais atualizados para análises, IA/ML e geração de relatórios. Você obtém insights mais precisos e com rapidez para casos de uso, como painéis em tempo real, experiências de jogos otimizadas, monitoramento de qualidade dos dados e análises de comportamento dos clientes. As organizações fazem previsões orientadas a dados com mais confiança, aprimoram as experiências do cliente e promovem insights orientados a dados em toda a empresa.
Quais são os diferentes casos de uso para ETL zero?
Existem três casos de uso principais para ETL zero.
Consultas federadas
As tecnologias de consultas federadas fornecem a capacidade de consultar uma variedade de fontes de dados sem a necessidade de se preocupar com a movimentação de dados. É possível usar comandos SQL conhecidos para executar consultas e juntar dados em várias fontes, como bancos de dados operacionais, data warehouses e data lakes. Os In-Memory Data Grids (IMDG) armazenam dados na memória para que sejam colocados em cache e processados. Assim, você aproveita os benefícios dos tempos de resposta às consultas e de análises imediatas. Em seguida, você pode armazenar os resultados da junção em um armazenamento de dados para análise posterior e uso subsequente.
Ingestão de streaming
As plataformas de streaming de dados e enfileiramento de mensagens transmitem dados em tempo real de várias fontes. Uma integração ETL zero com um data warehouse permite ingerir dados de vários desses fluxos e apresentá-los para análise quase instantaneamente. Não há necessidade de preparar os dados de streaming para transformação em qualquer outro serviço de armazenamento.
Replicação instantânea
Tradicionalmente, mover dados de um banco de dados transacional para um data warehouse central sempre exigia uma solução de ETL complexa. Atualmente, a integração de ETL zero pode atuar como uma ferramenta de replicação de dados, duplicando instantaneamente os dados do banco de dados transacional para o data warehouse. O mecanismo de duplicação usa técnicas de captura de dados de alteração (CDC) e pode ser incorporado ao data warehouse. A duplicação é invisível para os usuários, portanto, as aplicações armazenam dados no banco de dados transacional e os analistas consultam os dados do warehouse sem problemas.
Como a AWS pode ajudar você nas suas iniciativas de ETL zero?
A AWS está investindo em um futuro com ETL zero. A seguir são apresentados exemplos de serviços que oferecem suporte integrado para ETL zero.
O Amazon Athena é um serviço de análise interativa e com tecnologia sem servidor desenvolvido em estruturas de código aberto, com suporte a formatos de arquivos e tabelas abertos. O Athena fornece uma maneira simplificada e flexível de analisar petabytes de dados onde eles residem. É possível analisar dados ou desenvolver aplicações com base em um data lake do Amazon Simple Storage Service (S3) e de 30 fontes de dados, incluindo fontes de dados on-premises ou outros sistemas em nuvem, usando SQL ou Python. O Athena é construído com mecanismos Trino e Presto de código aberto e frameworks Apache Spark, sem necessidade de provisionamento ou configuração.
A ingestão de streaming do Amazon Redshift consome centenas de megabytes de dados por segundo do Amazon Kinesis Data Streams ou do Amazon MSK. Defina um esquema ou opte pela ingestão de dados semiestruturados com o tipo de dados SUPER para consultar dados em tempo real.
A integração ETL zero do Amazon Aurora com o Amazon Redshift possibilita análises e machine learning (ML) quase em tempo real. Essa tecnologia usa o Amazon Redshift para workloads de análise em petabytes de dados transacionais do Aurora. É uma solução totalmente gerenciada para disponibilizar dados transacionais no Amazon Redshift depois de eles serem gravados em um cluster de banco de dados do Aurora.
A cópia automática do S3 no Amazon Redshift simplifica e automatiza a ingestão de arquivos no Amazon Redshift. Essa funcionalidade ingere dados continuamente assim que novos arquivos são criados no S3, sem codificação personalizada nem atividades de ingestão manual.
O controle de acesso ao compartilhamento de dados com o AWS Lake Formation gerencia o acesso granular aos dados compartilhados de maneira centralizada em sua organização. É possível definir, modificar e auditar permissões em tabelas, colunas e linhas no Amazon Redshift.
Comece a usar ETL zero na AWS criando uma conta hoje mesmo.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.