O que é um data warehouse?
Um data warehouse é um repositório central de informações que podem ser analisadas para tomar decisões mais adequadas. Os dados fluem de sistemas transacionais, bancos de dados relacionais e de outras fontes para o data warehouse, normalmente com uma cadência regular. Analistas de negócios, engenheiros de dados, cientistas de dados e tomadores de decisões acessam os dados por meio de ferramentas de business intelligence (BI), clientes SQL e outras aplicações de análise.
Dados e análises se tornaram indispensáveis para que as empresas se mantenham competitivas. Os usuários corporativos contam com relatórios, painéis e análises para extrair insights dos dados, monitorar a performance dos negócios e apoiar a tomada de decisões. Os data warehouses alimentam esses relatórios, painéis e ferramentas de análise armazenando dados de maneira eficiente para minimizar a entrada e saída (E/S) dos dados e fornecer resultados de consulta rapidamente para centenas e milhares de usuários simultaneamente.
Como um data warehouse é arquitetado?
Uma arquitetura de data warehouses é composta de camadas. A camada superior é o cliente do front-end, que apresenta os resultados por meio de ferramentas de relatórios, análises e mineração de dados. A camada intermediária consiste no mecanismo de análises, usado para acessar e analisar os dados. A camada inferior da arquitetura é o servidor de banco de dados, onde os dados são carregados e armazenados. Os dados são armazenados de dois modos diferentes: 1) os dados acessados com frequência são armazenados em armazenamento muito rápido (como unidades SSD) e 2) os dados acessados com pouca frequência são armazenados em um armazenamento de objetos barato, como o Amazon S3. O data warehouse garantirá automaticamente que os dados acessados com frequência sejam movidos para o armazenamento "rápido", para otimizar a velocidade da consulta.
Como funciona um data warehouse?
Um data warehouse pode conter vários bancos de dados. Dentro de cada banco de dados, os dados são organizados em tabelas e colunas. Dentro de cada coluna, você pode definir uma descrição dos dados, como número inteiro, campo de dados ou sequência. As tabelas podem ser organizadas dentro de esquemas, que você pode considerar como pastas. Quando os dados são consumidos, eles são armazenados em várias tabelas descritas pelo esquema. As ferramentas de consulta usam o esquema para determinar as tabelas de dados que serão acessadas e analisadas.
Quais são os benefícios de usar um data warehouse?
Os benefícios de um data warehouse incluem o seguinte:
- Tomada de decisão adequada
- Dados consolidados de várias fontes
- Análise de dados históricos
- Qualidade, consistência e precisão de dados
- Separação do processamento analítico dos bancos de dados transacionais, o que melhora o desempenho dos dois sistemas
Como os data warehouses, os bancos de dados e data lakes funcionam juntos?
Normalmente, as empresas usam uma combinação de banco de dados, data lake e data warehouse para armazenar e analisar dados. A arquitetura de lake house do Amazon Redshift facilita essa integração.
À medida que o volume e a variedade de dados aumentam, é vantajoso seguir um ou mais padrões comuns para trabalhar com dados em seu banco de dados, data lake e data warehouse:
Ao contrário de um data warehouse, um data lake é um repositório centralizado para todos os dados, incluindo estruturados, semiestruturados e não estruturados. Um data warehouse exige que os dados sejam organizados em um formato tabular, onde o esquema torna-se necessário. O formato tabular é necessário para que o SQL possa ser usado para consultar os dados, mas nem todos os aplicativos exigem que os dados estejam em formato de tabela. Alguns aplicativos, como análise de big data, pesquisa de texto completo e machine learning, podem acessar dados mesmo que sejam "semiestruturados" ou completamente não estruturados.
Para uma comparação aprofundada entre data warehouses e data lakes, visite nossa página de comparação dedicada para datawahouse versus data lake.
Como um data mart se compara a um data warehouse?
Um data mart é um data warehouse que atende às necessidades de uma equipe ou unidade de negócios específica, como finanças, marketing ou vendas. O data mart é menor, mais focado e pode conter resumos de dados para atender melhor à comunidade de usuários. Um data mart também pode ser uma parte de um data warehouse.
Para uma comparação aprofundada entre data mart e data warehouses, visite nossa página de comparação dedicada para data mart versus data warehouse.
Como a AWS pode oferecer suporte seus esforços de data warehouse?
A AWS permite que você aproveite todos os principais benefícios associados à computação sob demanda: acessando a capacidade aparentemente ilimitada de armazenamento e computação, dimensionando o sistema em paralelo com a crescente quantidade de dados coletados, armazenados e consultados e pagando apenas pelo recursos que você provisiona. A AWS oferece um amplo conjunto de recursos gerenciados integrados de forma transparente entre si, o que permite implantar rapidamente uma solução completa de análises e data warehousing.
A ilustração a seguir mostra as principais etapas de um processo analítico de ponta a ponta, também chamado de pilha. A AWS oferece uma variedade de serviços gerenciados a cada etapa.
O Amazon Redshift é o nosso serviço de data warehouse rápido, totalmente gerenciado e econômico. Ele fornece data warehousing em escala de petabyte e análise de data lake em escala de exabyte juntos em um serviço, pelo qual você paga apenas pelo que usar.
Comece a usar data warehouse na AWS criando uma conta hoje mesmo.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.