Amazon Athena 功能
為什麼選擇 Athena?
Amazon Athena 是一種互動式查詢服務,可在 Amazon S3 中使用標準 SQL 簡單地直接分析資料。Athena 是無伺服器服務,因此無需設定或管理基礎設施,並且您可以選擇根據執行的查詢或查詢所需的運算付費。使用 Athena 處理日誌、執行資料分析及執行互動式查詢。Athena 會自動擴展 (平行執行查詢),所以可以很快取得結果,即使是大型資料集和複雜查詢也是一樣。
Amazon Athena 是一種互動式查詢服務,可在 Amazon S3 中使用標準 SQL 簡單地直接分析資料。Athena 是無伺服器服務,因此無需設定或管理基礎設施,並且您可以選擇根據執行的查詢或查詢所需的運算付費。使用 Athena 處理日誌、執行資料分析及執行互動式查詢。Athena 會自動擴展 (平行執行查詢),所以可以很快取得結果,即使是大型資料集和複雜查詢也是一樣。
Amazon Athena 沒有伺服器,因此不需要管理基礎設施。當資料集和使用者數量不斷增加時,您不用擔心組態、軟體更新、故障或擴展基礎設施等問題。Athena 會自動為您處理好所有事項,讓您可專注於資料,而不是基礎設施。
要開始使用,請登入 Athena 主控台,使用主控台精靈或輸入 DDL 陳述式定義結構描述,然後使用內建查詢編輯器立即開始查詢。您也可以使用 AWS Glue 自動網路爬取資料來源以探索資料,並將新的和修改過的表格及分區定義填入資料型錄。結果會在幾秒內顯示在主控台中,並自動寫入 S3 中您所選的位置。您也可以將結果下載到桌面。有了 Athena,就不需要使用複雜的 ETL 任務來準備資料以進行分析。這樣可讓每個具有 SQL 技術的人都能簡單地分析大規模的資料集。
Amazon Athena 以 Trino 和 Presto 為基礎,這是開放原始碼的分散式 SQL 引擎,專為低延遲、互動式資料分析進行最佳化。這表示您可以使用 ANSI SQL 對 Amazon S3 中的大型資料集執行查詢,它完全支援大型加入、視窗函數和陣列。Athena 支援各式各樣的資料格式,如 CSV、JSON、ORC、Avro 或 Parquet。使用 Athena 的聯合資料來源連接器,您可以查詢其他資料存放區並將資料與存放在 Amazon S3 中的資料連接起來。您可以透過 Athena 的 JDBC 和 ODBC 驅動程式從 Athena 主控台、API、CLI、AWS SDK 以及受支援的商業智慧和 SQL 開發應用程式存取 Athena 並執行查詢。
Amazon Athena 提供兩種彈性定價模式。按預設,根據每個查詢掃描的資料 (TB) 對查詢計費。這可讓您提交查詢,而無需提前計劃運算。如果您偏好根據查詢使用的運算來付費,或想要控制平行處理工作負載並排定工作負載的優先順序,請使用佈建容量提供的可用容量定價。為了提高靈活性,您可以在同一帳戶中同時使用按查詢計費和容量基礎定價。
有了 Amazon Athena,您無須擔心管理或調校叢集以獲得高速效能。Athena 已針對搭配 Amazon S3 的高速效能進行優化。Athena 會自動平行執行查詢,因此可在幾秒內取得查詢結果,即使是查詢大型資料集也是如此。
Amazon Athena 的可用性高而且使用多個設施之間的運算資源執行查詢,若特定設施無法連線,會自動選擇合適的查詢路徑。Athena 使用 Amazon S3 做為基礎資料存放區,讓您資料具有高可用性和耐久性。Amazon S3 提供耐久的基礎設施來存放重要資料,並提供 99.999999999% 的物件耐久性。您的資料會以冗餘方式存放在多個設施以及每個設施的多個裝置。
Amazon Athena 允許您使用 AWS Identity and Access Management (IAM) 政策、存取控制清單 (ACL)、Amazon S3 儲存貯體政策控制資料存取。您可以利用 IAM 政策讓 IAM 使用者透過精細定義的控制功能存取 S3 儲存貯體,藉由控制 S3 的資料存取,您便可以限制使用者透過 Athena 查詢哪些資料。Athena 還能讓您查詢存放在 Amazon S3 的加密資料,並將加密的結果寫回 S3 儲存貯體。同時支援伺服器端加密和用戶端加密。
Amazon Athena 提供立即可用的 AWS Glue 整合。使用 Glue 資料型錄,您可以跨多個服務建立一致的中繼資料儲存庫、網路爬取資料來源以探索資料,並將新的和修改過的表格及分區定義填入資料型錄,以及維護結構描述版本控制。您也可以使用 Glue 的全受管 ETL 功能轉換資料或將資料轉換為單欄格式,以優化查詢效能和降低成本。進一步了解 AWS Glue。
Athena 為 30 個熱門的 AWS、內部部署和其他雲端資料存放區提供內建連接器,包括 Amazon Redshift、Amazon DynamoDB、Google BigQuery、Google Cloud Storage、Azure Synapse、Azure Data Lake Storage、Redis、Snowflake 和 SAP Hana。透過使用 Athena 資料來源連接器,您可以使用 Athena SQL 語法從多個資料來源產生洞見,而無需遷移或轉換資料。資料連接器作為 AWS Lambda 函數執行,並且可以啟用進行跨帳戶存取,從而將 SQL 查詢擴展至數百個最終使用者。如需支援的來源清單,請參閱可用的資料來源連接器。若要了解如何建置自訂資料來源連接器,請參閱 Athena 連接器 SDK。
您可以在 Athena SQL 查詢叫用 SageMaker 機器學習模型來執行推論。在 SQL 查詢使用機器學習,只要撰寫 SQL 查詢就能執行複雜的任務,例如異常偵測、客群分析及銷售預測。Athena 可讓擁有 SQL 經驗的所有人都能簡單地執行 Amazon SageMaker 上部署的 ML 模型。