Qu'est-ce qu'Apache HBase ?
Apache HBase est un magasin de big data distribué, NoSQL et open source. Il permet un accès aléatoire, strictement cohérent et en temps réel à des pétaoctets de données. HBase est très efficace pour traiter des jeux de données volumineux et épars.
HBase s'intègre parfaitement à Apache Hadoop et à l'écosystème Hadoop et s'exécute sur le système de fichiers distribué Hadoop (HDFS) ou Amazon S3 à l'aide du système de fichiers Amazon Elastic MapReduce(EMR) ou EMRFS. HBase sert d'entrée et de sortie directes au framework Apache MapReduce pour Hadoop et fonctionne avec Apache Phoenix pour permettre des requêtes de type SQL sur des tables HBase.
Comment fonctionne HBase ?
HBase est une base de données non relationnelle orientée colonnes. Cela signifie que les données sont stockées dans des colonnes individuelles et indexées par une clé de ligne unique. Cette architecture permet de récupérer rapidement des lignes et des colonnes individuelles et de parcourir efficacement les colonnes individuelles d'une table. Les données et les requêtes sont distribuées sur tous les serveurs d'un cluster HBase, ce qui vous permet d'interroger des résultats sur des pétaoctets de données en quelques millisecondes. HBase est utilisé le plus efficacement pour stocker des données non relationnelles, accessibles via l'API HBase. Apache Phoenix est couramment utilisé comme couche SQL sur HBase, ce qui vous permet d'utiliser une syntaxe SQL familière pour insérer, supprimer et interroger des données stockées dans HBase.
Quels sont les avantages de HBase ?
Evolutif
HBase est conçu pour gérer la mise à l'échelle de milliers de serveurs et l'accès à des pétaoctets de données. Grâce à l'élasticité d'Amazon EC2 et à la capacité de mise à l'échelle d'Amazon S3, HBase est en mesure de gérer l'accès en ligne à des jeux de données volumineux.
Rapide
HBase fournit un accès aléatoire en lecture et en écriture à faible latence à des pétaoctets de données en distribuant les requêtes des applications sur un cluster d'hôtes. Chaque hôte a accès aux données dans HDFS et S3 et répond aux demandes de lecture et d'écriture en quelques millisecondes.
Tolérant aux pannes
HBase répartit les données stockées dans des tables entre plusieurs hôtes du cluster et est conçu pour résister aux défaillances individuelles des hôtes. Les données étant stockées sur HDFS ou S3, des hôtes sains seront automatiquement sélectionnés pour héberger les données une fois qu'elles seront servies par l'hôte défaillant, et les données seront automatiquement mises en ligne.
Quels sont les cas d'utilisation de Hbase ?
La FINRA (Financial Industry Regulatory Authority, ou Autorité de règlementation du secteur financier) est le plus grand organisme indépendant de règlementation de titres des États-Unis. Elle est chargée de surveiller et de règlementer les pratiques de transaction financières. La FINRA utilise Amazon EMR pour exécuter Apache HBase sur Amazon S3 et disposer d'un accès aléatoire à 3 billions de dossiers (avec plusieurs milliards de dossiers ajoutés chaque jour), afin de soutenir une application interactive permettant de chercher et d'afficher des événements de marché associés. En découpant sa capacité de stockage et de calcul, la FINRA peut stocker une copie unique de ses données dans Amazon S3 et dimensionner son cluster selon la puissance de calcul nécessaire, au lieu de dimensionner son cluster pour le stockage des données dans HDFS avec une triple réplication. Cela lui permet de réaliser 60 % d'économies par an, de bénéficier d'une puissance de calcul évolutive et de réduire le délai de restauration d'un cluster dans une nouvelle zone de disponibilité EC2, en passant de plusieurs jours à moins de 30 minutes.
Monster, leader mondial de la recherche d'emploi et du recrutement, utilise Apache HBase sur Amazon EMR pour stocker des données sur les parcours de navigation et les campagnes publicitaires afin de réaliser des analyses en aval. L'entreprise peut ainsi surveiller l'efficacité des différents segments de clients pendant une campagne donnée avec la granularité d'une seule impression. L'équipe d'analyse de Monster peut facilement parcourir les lignes pour comptabiliser le nombre de vues et de clics par utilisateur afin d'identifier l'activité de la campagne. De plus, l'équipe profite de l'intégration étroite d'Apache HBase à l'écosystème Apache Hadoop. Monster exécute Apache Hive sur un cluster Amazon EMR séparé pour interroger sa table HBase avec SQL, ce qui est utile pour mener des analyses supplémentaires et exporter des données d'Apache HBase vers Amazon Redshift.
Comment AWS peut-il prendre en charge HBase et Hadoop ?
Amazon EMR fournit le framework Hadoop géré le plus simple, le plus rapide et le plus rentable, permettant aux clients de traiter de grandes quantités de données sur des instances EC2 dynamiquement évolutives. Les clients peuvent également exécuter d'autres frameworks distribués populaires tels qu'Apache HBase, Hive, Spark, Presto et Flink dans EMR.
En savoir plus sur Amazon EMR
Commencez à utiliser Apache HBase sur AWS en créant un compte AWS gratuit dès aujourd'hui.