O que é o Apache HBase?
O Apache HBase é um armazenamento de big data distribuído NoSQL e de código aberto. Ele permite acesso aleatório, estritamente consistente e em tempo real a petabytes de dados. O HBase é muito eficaz para lidar com conjuntos de dados grandes e esparsos.
O HBase se integra perfeitamente ao Apache Hadoop e ao ecossistema Hadoop e é executado no Sistema de Arquivos Distribuído do Hadoop (HDFS) ou no Amazon S3 usando o sistema de arquivos Amazon Elastic MapReduce (EMR), ou EMRFS. O HBase serve como entrada e saída diretas para a framework Apache MapReduce para Hadoop e trabalha com o Apache Phoenix para permitir consultas semelhantes a SQL em tabelas do HBase.
Como o HBase funciona?
O HBase é um banco de dados não relacional orientado por colunas. Isso significa que os dados são armazenados em colunas individuais e indexados por uma chave de linha exclusiva. Essa arquitetura permite a recuperação rápida de linhas e colunas individuais e escaneamentos eficientes em colunas individuais em uma tabela. Tanto os dados quanto as solicitações são distribuídos em todos os servidores em um cluster HBase, permitindo que você consulte os resultados em petabytes de dados em questão de milissegundos. O HBase é usado com mais eficiência para armazenar dados não relacionais, acessados por meio da API do HBase. O Apache Phoenix é comumente usado como uma camada SQL sobre o HBase, permitindo que você use a sintaxe SQL familiar para inserir, excluir e consultar dados armazenados no HBase.
Quais são os benefícios do HBase?
Escalonável
O HBase foi projetado para lidar com a escalabilidade em milhares de servidores e gerenciar o acesso a petabytes de dados. Com a elasticidade do Amazon EC2 e a escalabilidade do Amazon S3, o HBase é capaz de lidar com o acesso online a conjuntos de dados grandes.
Rápido
O HBase fornece acesso aleatório de leitura e gravação de baixa latência a petabytes de dados, distribuindo solicitações de aplicações em um cluster de hosts. Cada host tem acesso aos dados no HDFS e no S3 e atende a solicitações de leitura e gravação em milissegundos.
Tolerante a falhas
O HBase divide os dados armazenados em tabelas em vários hosts no cluster e foi criado para resistir a falhas individuais do host. Como os dados são armazenados no HDFS ou no S3, os hosts íntegros serão automaticamente escolhidos para hospedar os dados depois de servidos pelo host que falhou, e os dados serão colocados online automaticamente.
Quais são os casos de uso do Hbase?
A FINRA (Financial Industry Regulatory Authority) é o maior órgão regulador independente dos Estados Unidos, que monitora e regulamenta práticas do mercado financeiro. A FINRA usa o Amazon EMR para executar o Apache HBase no Amazon S3 para dar acesso aleatório a 3 trilhões de registros (número que cresce aos bilhões diariamente) para que um aplicativo interativo pesquise e exiba eventos relacionados ao mercado. Ao desacoplar o armazenamento e a computação, a FINRA consegue armazenar uma única cópia dos seus dados no Amazon S3 e dimensionar o cluster para a capacidade computacional necessária, em vez de dimensionar o cluster para armazenar dados no HDFS com uma replicação 3 vezes maior. Isso significa economias de custos de mais de 60% ao ano, fácil escalabilidade da computação e redução do tempo de restauração de um cluster em uma nova zona de disponibilidade do EC2, que antes levava dias e agora é realizada em menos de 30 minutos.
A Monster, um líder global na conexão entre pessoas e empregos, utiliza o Apache HBase no Amazon EMR para armazenar clickstreams e dados de campanhas publicitárias para a análise de downstream. Isso permite que eles monitorem as diferenças de performance entre os segmentos de clientes em uma determinada campanha com a granularidade de uma impressão única. A equipe de análise da Monster pode facilmente verificar as linhas para agregar o número de visualizações e cliques por usuário para identificar a atividade da campanha. Além disso, eles utilizam a sólida integração do Apache HBase com o ecossistema do Apache Hadoop. A Monster executa o Apache Hive em um cluster separado do Amazon EMR para consultar sua tabela do HBase com SQL, o que é útil para a análise adicional e a exportação de dados do Apache HBase para o Amazon Redshift.
Como a AWS pode oferecer suporte ao HBase e ao Hadoop?
O Amazon EMR fornece a framework Hadoop gerenciada mais fácil, rápida e econômica, permitindo que os clientes processem grandes quantidades de dados em instâncias do EC2 dinamicamente escaláveis. Os clientes também podem executar outras frameworks distribuídas populares, como Apache HBase, Hive, Spark, Presto e Flink, no EMR.
Saiba mais sobre o Amazon EMR
Comece hoje mesmo a usar o Apache HBase na AWS criando uma conta gratuita da AWS.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.