¿Qué es Apache HBase?
Apache HBase es un almacén de big data distribuido, NoSQL y de código abierto. Permite el acceso aleatorio, estrictamente coherente y en tiempo real a petabytes de datos. HBase es muy eficaz para gestionar conjuntos de datos grandes y dispersos.
HBase se integra a la perfección con Apache Hadoop y el ecosistema de Hadoop y se ejecuta sobre el Sistema de archivos distribuido de Hadoop (HDFS) o Amazon S3 mediante el sistema de archivos Amazon Elastic MapReduce (EMR) o EMRFS. HBase sirve como entrada y salida directas al marco Apache MapReduce para Hadoop y funciona con Apache Phoenix para permitir consultas similares a las de SQL en tablas de HBase.
¿Cómo funciona HBase?
HBase es una base de datos no relacional y orientada a columnas. Esto significa que los datos se almacenan en columnas individuales y se indexan mediante una clave de fila única. Esta arquitectura permite la recuperación rápida de filas y columnas individuales y análisis eficientes de las columnas individuales de una tabla. Tanto los datos como las solicitudes se distribuyen en todos los servidores de un clúster de HBase, lo que le permite consultar los resultados en petabytes de datos en cuestión de milisegundos. HBase se usa de manera más eficaz para almacenar datos no relacionales, a los que se accede a través de la API de HBase. Apache Phoenix se usa comúnmente como una capa SQL sobre HBase, lo que le permite usar la sintaxis SQL conocida para insertar, eliminar y consultar los datos almacenados en HBase.
¿Qué beneficios aporta HBase?
Escalabilidad
HBase está diseñado para gestionar el escalado en miles de servidores y el acceso a petabytes de datos. Con la elasticidad de Amazon EC2 y la escalabilidad de Amazon S3, HBase puede gestionar el acceso en línea a conjuntos de datos masivos.
Rapidez
HBase proporciona acceso de lectura y escritura aleatorio de baja latencia a petabytes de datos mediante la distribución de las solicitudes de las aplicaciones en un clúster de hosts. Cada host tiene acceso a los datos en HDFS y S3, y atiende las solicitudes de lectura y escritura en milisegundos.
Tolerante a fallas
HBase divide los datos almacenados en tablas en varios hosts del clúster y está diseñado para soportar errores de host individuales. Como los datos se almacenan en HDFS o S3, los hosts en buen estado se elegirán de manera automática para alojar los datos una vez que los entregue el host defectuoso, y los datos se pondrán en línea automáticamente.
¿Cuáles son los casos de uso de HBase?
FINRA, la Autoridad Reguladora de la Industria Financiera, es la mayor organización reguladora de títulos de valor independiente de Estados Unidos. Su tarea consiste en monitorizar y regular las prácticas del comercio financiero. FINRA utiliza Amazon EMR para ejecutar Apache HBase en Amazon S3 para acceder de forma aleatoria a 3 billones de registros (cantidad que incrementa en miles de millones al día) para que una aplicación interactiva busque y visualice eventos del mercado relacionados. Al separar el almacenamiento y la capacidad informática, FINRA puede almacenar una única copia de sus datos en Amazon S3 y cambiar el tamaño del clúster en función de la capacidad informática necesaria, en lugar de modificar el clúster para almacenar datos en HDFS con replicación x3. Esto se traduce en unos ahorros de costos de más del 60% por año, escalabilidad sencilla de la capacidad informática y la reducción del tiempo de restauración de un clúster en una nueva zona de disponibilidad de EC2 de días a menos de 30 minutos.
Monster, líder mundial en la conexión de personas y trabajos, utiliza Apache HBase en Amazon EMR para almacenar datos de secuencias de clics y campañas publicitarias para el análisis de los datos recibidos. De este modo, puede monitorizar el desempeño de distintos segmentos de clientes en una campaña determinada con tal minuciosidad que se puede visualizar cada impresión. El equipo de análisis de Monster puede examinar con facilidad las filas y sumar el número de vistas y clics por usuario para identificar la actividad en la campaña. Además, utiliza la excelente integración de Apache HBase con el ecosistema de Apache Hadoop. Monster ejecuta Apache Hive en un clúster de Amazon EMR independiente para realizar consultas en la tabla de HBase con SQL, que resulta útil para realizar más análisis y exportar datos de Apache HBase a Amazon Redshift.
¿Cómo puede AWS ofrecer soporte para HBase y Hadoop?
Amazon EMR proporciona el marco Hadoop administrado más fácil, rápido y rentable, que permite a los clientes procesar grandes cantidades de datos en instancias de EC2 escalables de forma dinámica. Los clientes también pueden ejecutar otros marcos distribuidos populares, como Apache HBase, Hive, Spark, Presto y Flink en EMR.
Más información sobre Amazon EMR
Para comenzar a usar Apache HBase en AWS, cree una cuenta de AWS gratuita hoy mismo.
Siguientes pasos en AWS
Obtenga acceso instantáneo al nivel Gratuito de AWS.
Comience a crear en la consola de administración de AWS.