O que é uma malha de dados?
Uma malha de dados é uma estrutura arquitetônica que resolve desafios avançados de segurança de dados por meio de propriedade distribuída e descentralizada. As organizações têm várias fontes de dados de diferentes linhas de negócios que devem ser integradas para análise. Uma arquitetura de malha de dados une de forma efetiva as fontes de dados diferentes e as vincula por meio de diretrizes de governança e compartilhamento de dados gerenciados centralmente. As funções de negócios podem manter o controle sobre como os dados compartilhados são acessados, quem os acessa e em quais formatos são acessados. Uma malha de dados adiciona complexidades à arquitetura, mas também traz eficiência ao melhorar o acesso aos dados, a segurança e a escalabilidade.
Quais desafios uma malha de dados resolve?
Embora as organizações tenham acesso a um volume cada vez maior de dados, elas têm que classificar, filtrar,processar e analisar esses dados para obter benefícios práticos. Muitas vezes, elas utilizam uma equipe central de engenheiros e cientistas para gerenciar os dados. Essa equipe usa uma plataforma centralizada de dados para as seguintes finalidades:
- Ingerir os dados de todas as diferentes unidades de negócios (ou domínios de negócios).
- Transformar os dados em um formato consistente, confiável e útil. Por exemplo, a equipe pode assegurar que todos os dados no sistema estejam em um formato comum ou resumir relatórios diários.
- Preparar os dados para consumidores de dados, por exemplo, gerando relatórios para humanos ou preparando arquivos XML para aplicações. Leia sobre XML »
À medida que o volume de dados aumenta, as organizações enfrentam custos crescentes para manter a mesma agilidade de antes. O sistema monolítico é difícil de escalar em função dos motivos a seguir.
Equipe de dados isolada
A equipe central de dados tem cientistas e engenheiros de dados especializados com conhecimento limitado do negócio e do domínio. No entanto, eles ainda têm que fornecer dados para um conjunto diversificado de necessidades operacionais e analíticas sem um claro entendimento da motivação.
Reação lenta a mudanças
Normalmente, os engenheiros de dados implementam pipelines que ingerem os dados e utilizam várias etapas para transformar esses dados antes de armazená-los em um data lake central. Todas as mudanças solicitadas exigem modificações em todo o pipeline. A equipe central precisa fazer essas mudanças enquanto gerencia prioridades conflitantes e com conhecimento limitado do domínio do negócio.
Precisão reduzida
As unidades de negócios são desconectadas dos consumidores de dados e das equipes centrais de dados. Como resultado, eles não têm incentivo para fornecer dados significativos, corretos e úteis.
Quais são os benefícios de uma malha de dados?
Com o tempo, uma arquitetura de plataforma de dados pode resultar em consumidores de dados frustrados, produtores de dados desconectados e uma equipe de gerenciamento de dados sobrecarregada. A arquitetura de malha de dados tenta resolver esses desafios capacitando as unidades de negócios a terem elevada autonomia e propriedade de seu domínio de dados. Os benefícios da arquitetura de malha de dados são fornecidos abaixo.
Processamento democrático de dados
Uma malha de dados transfere o controle de dados para especialistas de domínio que criam produtos de dados significativos dentro de uma estrutura de governança descentralizada. Os consumidores de dados também solicitam acesso aos produtos de dados e buscam aprovações ou alterações diretamente dos proprietários dos dados. Como resultado, todos obtêm acesso mais rápido aos dados relevantes, e o acesso mais rápido melhora a agilidade dos negócios.
Maior flexibilidade
A infraestrutura de dados centralizada é mais complexa e requer colaboração para manter e modificar. Em vez disso, a malha de dados reorganiza a implementação técnica do sistema central para os domínios de negócios. Isso remove os pipelines de dados centrais e reduz os gargalos operacionais e as tensões técnicas no sistema.
Eficiência de custos
A arquitetura de dados distribuídos se afasta do processamento em lote, promovendo a adoção de fluxos de dados em tempo real. Você melhora a visibilidade da alocação de recursos e dos custos de armazenamento, resultando em melhor orçamento e custos reduzidos.
Descoberta de dados aprimorada
Um modelo de malha de dados evita a formação de silos de dados em torno das equipes centrais de engenharia. Também reduz o risco de ativos de dados ficarem bloqueados em diferentes sistemas de domínio de negócios. Em vez disso, a estrutura central de gerenciamento de dados controla e registra os dados disponíveis na organização. Por exemplo, as equipes de domínio registram automaticamente seus dados em um registro central.
Segurança e conformidade reforçadas
As arquiteturas de malha de dados impõem políticas de segurança de dados dentro e entre os domínios. Eles fornecem monitoramento e auditoria centralizados do processo de compartilhamento de dados. Por exemplo, você pode impor requisitos de dados de log e rastreamento em todos os domínios. Seus auditores podem observar o uso e a frequência do acesso aos dados.
Quais são os casos de uso de uma malha de dados?
Uma malha de dados pode suportar todos os tipos de casos de uso de big data. Veja alguns exemplos a seguir.
Análises de dados
Várias funções de negócios fornecem dados confiáveis e de alta qualidade para suas workloads de análise de dados. Suas equipes podem usar os dados para criar painéis de business intelligence personalizados que mostram a performance do projeto, os resultados de marketing e os dados operacionais. Os cientistas de dados podem acelerar os projetos de machine learning para obter todos os benefícios da automação.
Serviço de atendimento ao cliente
Uma malha de dados fornece uma visão abrangente dos clientes para as equipes de suporte e marketing. Por exemplo, as equipes de suporte podem extrair dados relevantes e reduzir o tempo médio de atendimento, e as equipes de marketing podem garantir que visam os dados demográficos certos dos clientes em suas campanhas.
Relatórios regulatórios
A necessidade de volume, pontualidade e precisão nos dados que atendem aos objetivos regulatórios coloca desafios tanto para os reguladores quanto para as empresas reguladas. Todas as partes podem se beneficiar da aplicação de tecnologias de malha de dados. Por exemplo, as organizações podem enviar dados de relatório para uma malha de dados controlada centralmente por reguladores.
Dados de terceiros
Você pode aplicar a tecnologia de malha de dados para casos de uso que exigem conjuntos de dados públicos e de terceiros. Você pode tratar dados externos como um domínio separado e implementá-los na malha para garantir consistência com conjuntos de dados internos.
Quais são os princípios da arquitetura de malha de dados?
Sua organização deve implementar os quatro princípios a seguir para adotar o paradigma de malha de dados.
Arquitetura orientada por domínio distribuído
A abordagem de malha de dados propõe que a responsabilidade de gerenciamento de dados seja organizada em torno de funções ou domínios de negócios. As equipes de domínio são responsáveis por coletar, transformar e fornecer dados relacionados ou criados por suas funções de negócios. Em vez de dados de domínio fluindo de fontes de dados para uma plataforma de dados central, uma equipe específica hospeda e atende seus conjuntos de dados de maneira facilmente consumível. Por exemplo, um varejista pode ter um domínio de vestuário com dados sobre seus produtos de vestuário e um domínio de comportamento do site que contém análises de comportamento do visitante do site.
Dados como um produto
Para que uma implementação de malha de dados seja bem-sucedida, todas as equipes de domínio precisam aplicar o pensamento do produto aos conjuntos de dados que fornecem. Elas devem considerar seus ativos de dados como seus produtos e o restante das equipes de negócios e dados da organização como seus clientes.
Para a melhor experiência do usuário, os produtos de dados de domínio devem ter as seguintes qualidades básicas.
Descobríveis
Cada produto de dados se registra em um catálogo de dados centralizado para fácil descoberta.
Endereçáveis
Cada produto de dados deve ter um endereço exclusivo que ajude os consumidores de dados a acessá-lo programaticamente. O endereço geralmente segue padrões de nomenclatura decididos centralmente dentro da organização.
Confiáveis
Os produtos de dados definem objetivos de serviço aceitáveis em relação à proximidade com que os dados refletem a realidade dos eventos que documentam. Por exemplo, o domínio de pedidos pode publicar dados após verificar o endereço e o número de telefone de um cliente.
Autodescritivos
Todos os produtos de dados têm sintaxe e semântica bem descritas que seguem as convenções de nomenclatura padrão determinadas pela organização.
Infraestrutura de dados de autoatendimento
Uma arquitetura de dados distribuídos exige que cada domínio configure seu próprio pipeline de dados para limpar, filtrar e carregar seus próprios produtos de dados. Uma malha de dados introduz o conceito de uma plataforma de dados de autoatendimento para evitar a duplicação de esforços. Os engenheiros de dados configuram tecnologias para que todas as unidades de negócios possam processar e armazenar seus produtos de dados. A infraestrutura de autoatendimento permite, assim, uma divisão de responsabilidades. As equipes de engenharia de dados gerenciam a tecnologia enquanto as equipes de negócios gerenciam os dados.
Governança de dados federados
As arquiteturas de malha de dados implementam a segurança como uma responsabilidade compartilhada dentro da organização. A liderança determina padrões e políticas globais que você pode aplicar em todos os domínios. Ao mesmo tempo, a arquitetura de dados descentralizada permite um alto grau de autonomia sobre padrões e implementação de políticas dentro do domínio.
Como você pode construir uma malha de dados em sua organização?
A malha de dados é um conceito emergente que só ganhou força após a pandemia. As organizações estão experimentando diferentes tecnologias à medida que tentam construir uma malha de dados para casos de uso específicos. No entanto, a adoção de malha de dados corporativos em toda a organização ainda é rara. Não há um caminho claro para a implementação da malha de dados, mas aqui estão algumas sugestões.
Analisar seus dados existentes
Antes de construir uma malha de dados, você deve catalogar seus dados existentes e identificar domínios de negócios relevantes. Seguir certas regras de harmonização é a chave para a correlação efetiva de dados entre domínios. Por exemplo, você precisará definir padrões globais para formatação de tipo de campo, campos de metadados e convenções de endereço de produtos de dados.
Implementar políticas globais de governança de dados
A governança de dados federada requer que a equipe de TI principal identifique os padrões de geração de relatório, autenticação e conformidade para a estrutura de data mesh. Você também pode definir controles de acesso granulares que os proprietários de produtos de dados aplicam ao hospedar seus conjuntos de dados. Enquanto os produtores de dados definem e medem a qualidade dos dados, as políticas de governança central ajudam a orientar suas decisões.
Criar sua plataforma de dados de autoatendimento
Sua plataforma de dados de autoatendimento deve ser genérica, para que qualquer pessoa possa criar novos produtos de dados de domínio nela. Ele também deve ocultar a complexidade técnica subjacente e fornecer componentes de infraestrutura no modo de autoatendimento. Aqui estão alguns recursos a serem incluídos:
- Criptografia de dados
- Esquema do produto de dados
- Governança e controle de acesso
- Descoberta de produtos de dados, como registro ou publicação de catálogo
- Registro em log e monitoramento de produtos de dados
- Armazenamento em cache para melhorar a performance
Você também pode criar automação, como configurações e scripts, para diminuir o tempo de espera para criar produtos de dados.
Escolha as tecnologias certas
Seus sistemas de armazenamento tradicionais existentes, como data warehouses e data lakes, também podem potencializar sua malha de dados. Você só precisa mudar seu uso de sistemas monolíticos para vários repositórios de dados descentralizados. Uma malha de dados também permite a adoção de plataformas de nuvem e tecnologias centradas na nuvem. A infraestrutura em nuvem reduz os custos operacionais e o esforço necessário para construir uma malha de dados. Você deve escolher um provedor de nuvem com serviços avançados de gerenciamento de dados para dar suporte à sua arquitetura de malha de dados. Você também precisará considerar os requisitos de integração de dados com sistemas herdados.
Iniciar uma mudança cultural em toda a organização
Hoje temos a tecnologia e as ferramentas necessárias para construir facilmente uma malha de dados com vários produtos de dados. A mudança para a unificação de lote e streaming agora é mais fácil do que nunca com ferramentas como o Amazon EMR. No entanto, dimensionar sua malha de dados além de pequenos projetos exige uma mudança de paradigma das arquiteturas de dados centralizadas do passado. Requer uma nova linguagem que enfatize o seguinte:
- Descoberta e uso de dados sobre extração e carregamento
- Processamento de dados em tempo real sobre processamento em lote de alto volume em uma data posterior
- Propriedade de produtos de dados distribuídos sobre arquitetura de plataforma de dados central
Atualmente, a tecnologia de dados geralmente orienta as decisões arquitetônicas. Uma malha de dados reverte esse fluxo, colocando os produtos de dados de domínio no centro para que eles orientem as decisões de tecnologia.
Qual é a diferença entre uma malha de dados e um data lake?
Um data lake é um repositório onde você pode armazenar todos os seus dados estruturados e não estruturados sem qualquer pré-processamento e em qualquer escala. Em plataformas de dados centralizadas, o data lake é a principal tecnologia para armazenar dados de todas as fontes possíveis.
Uma malha de dados é um paradigma de gerenciamento de dados que usa data lakes de maneira diferente. Um data lake não é mais a peça central de toda a arquitetura. Em vez disso, você pode usá-lo para implementar produtos de dados ou como parte da infraestrutura de autoatendimento.
Qual é a diferença entre malha de dados e malha de dados?
Uma data fabric é outra arquitetura moderna que usa machine learning e automação para integração de ponta a ponta de vários ambientes de nuvem e pipelines de dados. Você pode pensar nisso como uma camada de tecnologia sobre sua infraestrutura subjacente que integra e apresenta dados de forma coesa para usuários não técnicos. Por exemplo, os tomadores de decisão usam a estrutura de dados para visualizar todos os seus dados em um só lugar e fazer conexões entre conjuntos de dados diferentes.
Tanto a estrutura de dados quanto a malha de dados têm objetivos semelhantes:- gerenciamento de dados unificado e eficaz. Por exemplo, digamos que você tenha um data lake central e use os serviços da AWS para ingestão de dados. Ao mesmo tempo, você tem uma infraestrutura legada para transformações de dados. Sua malha de dados integra os dois sistemas e apresenta uma visão unificada sem alterar o pipeline existente.
Uma malha de dados, portanto, usa tecnologia para trabalhar com sua infraestrutura existente. Por outro lado, uma implementação de malha de dados exige que você altere a própria infraestrutura subjacente. Você precisa alterar o modelo de envio e ingestão de seu gerenciamento de dados para um modelo de serviço e recebimento em seus domínios de negócios.
Como a AWS pode oferecer suporte às suas arquiteturas de malha de dados?
Arquitetura de dados moderna na AWS lista vários serviços que você pode usar para implementar malha de dados e outras arquiteturas de dados modernas em sua organização. Você pode criar rapidamente produtos de dados e infraestrutura de malha de dados a um custo baixo sem comprometer a performance.
Aqui estão exemplos de serviços da AWS que você pode usar:
- Usar o AWS Lake Formation para construir um padrão de malha de dados em escala com controle de acesso baseado em tags
- Usar o AWS Data Exchange para integrar dados de terceiros em sua malha de dados
- Usar o AWS Glue para compartilhar, hospedar e catalogar produtos de dados
Comece a usar sua data mesh na AWS criando uma conta gratuita hoje mesmo.
Próximas etapas do Data Mesh
Obtenha acesso instantâneo ao nível gratuito da AWS.