什麼是 Apache Hive？

建立 AWS 帳戶

探索免費分析服務

閱讀最新的 AWS 分析產品新聞和最佳實務

什麼是 Apache Hive？

Apache Hive 是一種容錯的分散式資料倉儲系統，可進行大規模分析。資料倉儲提供資訊的中央存放區，可以輕鬆分析資料以作出明智且資料導向的決策。Hive 讓客戶使用 SQL 讀取、寫入與管理 PB 級資料。

Hive 建構在 Apache Hadoop 之上，這是一個用於有效儲存和處理大型資料集的開源框架。因此，Hive 與 Hadoop 密切整合，並且旨在快速處理 PB 的資料。Hive 獨一無二之處是能夠利用 Apache Tez 或 MapReduce 查詢大型資料集，並具有類似 SQL 的介面。

Hive 如何運作？

Hive 是為了允許熟悉 SQL 的非程式設計師使用類似 SQL 的介面，使用稱為 HiveQL 類似的 SQL 介面處理資料。傳統關聯式資料庫專為對中小型資料集進行互動式查詢而設計，並且不能很好處理大量資料集。Hive 是使用批次處理，以便在非常大的分散式資料庫中快速執行。Hive 將 HiveQL 查詢轉換為 MapReduce 或 Tez 工作，這些工作可在 Apache Hadoop 的分散式工作排程框架「另一個資源協商」(YARN) 上執行。它會查詢儲存在分散式儲存解決方案的資料，例如 Hadoop 分散式檔案系統 (HDFS) 或 Amazon S3。Hive 將其資料庫和表格中繼資料儲存在中繼存放區，這是一個資料庫或檔案支援的存放區，可輕鬆擷取和探索資料。

Hive 包括 HCatalog，這是一個表格和儲存管理層，可從 Hive 中繼存放區讀取資料，以便在 Hive、Apache Pig 和 MapReduce 之間進行無縫整合。經由使用中繼存放區，HCatalog 允許 Pig 和 MapReduce 使用與 Hive 相同的資料結構，因此不必為每個引擎重新定義中繼資料。自訂應用程式或第三方整合可使用 WebHCat，這是 HCatalog 的 RESTful API 來存取和重複使用 Hive 中繼資料。

Hive 具有哪些優勢？

快速

Hive 旨在使用批次處理來快速處理 PB 資料。

熟悉

Hive 提供了一個類似 SQL 的熟悉界面，讓非程式設計師可以存取。

可擴展性

Hive 可根據您的需求輕鬆分發和擴展。

Apache Hive 與阿帕奇 HBase 有什麼區別？

Apache HBase 是 NoSQL 分散式資料庫，可隨機、嚴格一致的即時存取 PB 級的資料。Apache Hive 是一個分散式資料倉儲系統，提供類似 SQL 的查詢功能。

效能特性	Apache Hive	Apache HBase
功能	類似 SQL 的查詢引擎，專為大容量資料儲存設計。支援多種檔案格式。	具有自訂查詢功能的低延遲分散式索引鍵值存放區。資料以欄導向格式儲存。
處理類型	使用 Apache Tez 或 MapReduce 計算框架進行批次處理。	即時處理。
延遲	中等到高，取決於運算引擎的響應速度。與同一資料磁碟區的單元查詢系統 (例如 RDBMS) 相比，分散式執行模型提供卓越的效能。	低，但可能不一致。在高度寫入負載下，HBase 架構的結構限制可能會導致延遲突發。
Hadoop 整合	在 Hadoop 上執行，使用 Apache Tez 或 MapReduce 進行處理，以及 HDFS 或 Amazon S3 進行儲存。	在 HDFS 或 Amazon S3 上執行。
SQL 支援	使用 HiveQL 提供類似 SQL 的查詢功能。	本身沒有 SQL 支持。您可使用 Apache Phoenix for SQL 功能。
結構描述	為所有表格定義的結構描述。	無模式。
資料類型	支援結構化和非結構化資料。為一般 SQL 資料類型提供原生支援，例如 INT、FLOAT 和 VARCHAR。	僅支援非結構化資料。使用者定義資料欄位的對應至 Java 支援的資料類型。

Hive 的使用案例是什麼？

Guardian 透過保險和財富管理產品和服務，為 27 萬成員提供他們應得的安全。Guardian 使用 Amazon EMR 在 S3 資料湖上執行 Apache Hive。Apache Hive 用於批次處理。S3 資料湖為 Guardian Direct 提供支援，這是一個數位平台，可讓消費者研究和購買保險業的 Guardian 產品和第三方產品。

FINRA (美國金融業監管局) 是美國最大的獨立安全監管機構，負責監督和規範金融交易實務。FINRA 使用 Amazon EMR 在 S3 資料湖上執行 Apache Hive。在 EMR 叢集上執行 Hive 可讓 FINRA 使用 SQL 處理和分析多達 90 億個事件的交易資料。與 FINRA 的內部部署解決方案相比，雲端資料湖節省高達 20 萬美元的成本，並大幅縮短了恢復和升級所需的時間。

Vanguard 是美國註冊投資顧問，是最大的共同基金提供商，也是第二大交易所交易基金提供商。Vanguard 使用 Amazon EMR 在 S3 資料湖上執行 Apache Hive。資料儲存在 S3 ，EMR 會在該資料之上構建一個 Hive 中繼存放區。Hive 中繼存放區包含有關 EMR 叢集中資料和表格的所有中繼資料，可輕鬆分析資料。Hive 還可讓分析師對儲存在 S3 資料湖的資料執行臨機 SQL 查詢。使用 Amazon EMR 移轉至 S3 資料湖，讓超過 150 位資料分析師能實現營運效率，並降低了 EC2 和 EMR 成本 60 萬美元。

AWS 如何支援 Hive？

Amazon EMR 提供最簡單、最快、最符合成本效益的受控 Hadoop 架構，使客戶能夠在動態可擴充的 EC2 執行個體中處理大量資料。客戶還可在 EMR 中執行其他流行的分散式架構，例如 Apache Hive、Spark、HBase、Presto 和 Flink。

進一步了解 Amazon EMR

立即建立免費 AWS 帳戶，開始在 AWS 上使用 Apache Hive。