本指引示範如何設定可方便資料工程師和資料科學家啟動和存取的自助式資料分析環境。整合式開發環境 (IDE) 基於 Jupyter 筆記本並包括所有必要的工具,前者提供了一個互動式介面,以便於資料探索,後者則可偵錯、建置和排程近乎即時的資料管道。該環境藉助工作負載隔離支援安全團隊協作,並允許管理員從單一介面自行佈建、擴展和取消佈建資源,而不會暴露底層基礎設施的複雜性或影響安全性、治理和成本。管理員可獨立管理叢集組態,並持續最佳化成本、安全性、可靠性和效能。

請注意:[免責聲明]

架構圖

[架構圖說明]

下載架構圖 PDF 

Well-Architected 支柱

AWS Well-Architected Framework 可協助您了解在雲端建立系統時所做決策的利弊。該架構的六根支柱讓您能夠學習設計和操作可靠、安全、高效、經濟高效且永續的系統的架構最佳實務。使用 AWS Well-Architected Tool (在 AWS 管理主控台中免費提供),您可以透過回答每根支柱的一組問題來針對這些最佳實務審查您的工作負載。

上方的架構圖是一個考量到 Well-Architected 最佳實務而建立的的解決方案的範例。若要完全實現 Well-Architected,您應該盡可能地多遵循 Well-Architected 的最佳實務。

  • Amazon EMR Studio 提供具有 Jupyter 筆記本的全受管 Web 整合式開發環境 (IDE),讓資料工程或資料科學團隊能夠以互動方式開發、視覺化和偵錯 Spark Streaming 應用程式,而無須管理其他伺服器。團隊可以自行佈建 Amazon EMR 叢集,而這些叢集已在服務型錄中使用基礎設施即程式碼 (IaC) 範本進行預先定義。這可降低對雲端維運團隊的相依性,提高開發敏捷性,並幫助組織以最小的開銷遵循安全性和治理最佳實務。

    閱讀卓越營運白皮書 
  • Amazon EMR Studio 支援使用 AWS Identity and Access Management (IAM) 或 AWS Identity Center 進行驗證和授權,而無需使用 SSH (Secure Shell) 直接連接 Spark 叢集。Lake Formation 允許對資料湖中的資料進行精細的集中化存取控制,集中化使用者存取管理,並增強資料管道上的穩健安全性和治理狀態。

    閱讀安全白皮書 
  • Kinesis Data StreamsAmazon EMR 提供自動擴展功能,以滿足即時資料串流工作流程的輸送量需求。Amazon EMR 使用 Apache Spark 架構,而該架構可在發生應用程式或網路故障時自動分配和重試任務。Kinesis Data Streams 還可自動擴展容量,並在三個可用區域同步複製資料,以提供高可用性和資料耐久性。

    閱讀可靠性白皮書 
  • Kinesis Data Streams 會根據不同的資料流量自動擴展容量,讓您的即時處理工作流程能夠滿足輸送量需求。Amazon EMR 為 Spark 提供多種效能最佳化功能,讓使用者能夠將執行速度提升 3.5 倍,而無需對應用程式進行任何變更。此外,Athena 會自動平行處理查詢,並佈建必要資源。此外,資料也可以 Amazon S3 分區索引鍵和單欄格式進行儲存,以提升查詢效能。

    閱讀效能達成效率白皮書 
  • 本指引提供了範例 Amazon EMR 叢集範本,該範本使用具有 Amazon EC2 Spot 執行個體容量的執行個體機群,並指定 Amazon EC2 Graviton3 執行個體類型。相較於 x86 型 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體,這可以節省高達 20% 的成本。此外,使用閒置逾時和 Amazon S3 儲存方案可以更好地利用運算和儲存資源,並最佳化成本。

    閱讀成本最佳化白皮書 
  • 相較於 Amazon EC2 執行個體,要實現相同的效能,Amazon EC2 Graviton3 執行個體類型使用的能源最多可減少 60%,進而有助於減少碳足跡。使用 Amazon EC2 Spot 執行個體Amazon EMR 閒置逾時設定有助於確保更好地利用資源,並將工作負載對環境的影響降至最低。

    閱讀永續發展白皮書 
[內容類型]

[標題]

這個 [落格文章/電子書/指南/範本程式碼] 演示了如何 [插入簡短描述]。

免責聲明

範例程式碼、軟體庫、命令列工具、概念驗證、範本或其他相關技術 (包括我們的人員提供的任何上述技術) 依據 AWS 客戶協議或您與 AWS 之間的相關書面協議 (以適用者為準) 作為 AWS 內容提供給您。您不得在您的生產帳戶、生產或其他關鍵資料中使用此 AWS 內容。您有責任根據您的特定品質控制實務和標準,依生產級用途來測試、保護和最佳化 AWS 內容 (如範例程式碼)。部署 AWS 內容可能會因建立或使用 AWS 收費資源 (如執行 Amazon EC2 執行個體或使用 Amazon S3 儲存) 而產生 AWS 費用。

本指引中對第三方服務或組織的參考並不意味著 Amazon 或 AWS 與第三方之間的認可、贊助或聯繫。AWS 的指引是技術起點,您可以在部署架構時自訂與第三方服務的整合。

本頁對您是否有幫助?