如何使用 Amazon EMR
- 開發資料處理應用程式。 您可以使用 Java、Hive (類似 SQL 語言)、Pig (資料處理語言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或者 Node.js。Amazon EMR 提供程式碼範例和教學,幫助您快速上手。
- 上傳您的應用程式和資料到 Amazon S3。 如果要上傳大量的資料,您可以考慮使用 AWS Import/Export Snowball,透過實體儲存裝置來上傳資料;或是使用 AWS Direct Connect 來建立從資料中心到 AWS 的專用網路連線。如果您願意,還可以直接將資料寫入正在執行的叢集。
- 設定和啟動您的叢集。 使用 AWS 管理主控台、AWS CLI、軟體開發套件或者 API,指定要在叢集中佈建的 Amazon EC2 執行個體數目、要使用的執行個體類型 (標準、記憶體增強型、CPU 增強型、高 I/O 等等)、要安裝的應用程式 (Apache Spark、Apache Hive、Apache HBase、Presto 等等) 以及應用程式與資料的位置。您可以使用引導操作安裝其他軟體或者變更預設設定。
- 監控叢集。 您可以使用管理主控台、命令列界面、軟體開發套件或者 API 監控叢集的運行狀況和進度。EMR 與 Amazon CloudWatch 整合,可用於監控/發出警示,並支援熱門的監控工具,例如 Ganglia。您可以隨時根據資料的多寡在叢集新增/移除容量。對於疑難排解,您可以使用主控台的簡易偵錯 GUI。
- 擷取輸出。 在叢集上擷取 Amazon S3 或 HDFS 的輸出。使用工具 (如 Amazon QuickSight,Tableau 和 MicroStrategy) 以視覺化方式顯示資料。Amazon EMR 會在處理完成時自動終止叢集。另一種方法是,讓叢集持續執行並給予更多的工作量。
準備好啟動第一個叢集嗎?
按一下這裡,使用 Amazon EMR 管理主控台啟動叢集。如果您想以範例資料執行範例應用程式,請前往 Create Cluster 頁面上的進階叢集組態,按一下右上角的灰色「Configure Sample Application」按鈕。
教學
Spark
使用 AWS 上的 Apache Spark Streaming 和 Apache Kafka 進行即時串流處理
了解如何在 EC2 設定 Apache Kafka、使用 EMR 的 Spark Streaming 處理傳入 Apache Kafka 主題的資料,以及使用 EMR 的 Spark SQL 查詢串流資料。
在 Amazon EMR 上使用 Spark 進行大規模機器學習
了解 Intent Media 如何使用 Spark 和 Amazon EMR 進行建模工作流程。
HBase
使用 Phoenix 和 HBase 進行低延遲 SQL 和次要索引
了解如何使用 JDBC 連接至 Phoenix,透過現有的 HBase 表建立視圖,並建立次要索引以提升讀取效能
針對 NoSQL 和分析工作負載使用 HBase 搭配 Hive
了解如何使用 HBase 啟動 EMR 叢集並在 Amazon S3 中透過快照還原表格
Presto
使用 Presto 和 Airpal 啟動 Amazon EMR 叢集
了解如何設定 Presto 叢集並使用 Airpal 處理 S3 中存放的資料。
Hive
針對 NoSQL 和分析工作負載使用 HBase 搭配 Hive
了解如何使用 HBase 啟動 EMR 叢集並在 Amazon S3 中透過快照還原表格。
在 Amazon EMR 和 MicroStrategy 套件上使用 Hive 處理和分析大數據
了解如何連接至 Amazon Elastic MapReduce 上執行的 Hive 任務流程以為報告和分析建立安全且可擴展的平台。
Flink
在 AWS 上使用 Apache Flink 建立即時串流處理管道
本教學概述一致的、可擴展的且可靠的串流處理管道的參考架構,此管道基於 Apache Flink 且使用 Amazon EMR、Amazon Kinesis 和 Amazon Elasticsearch Service。
使用其他教學按照您自己的步調學習。
培訓和協助
短期支援
您需要建構概念驗證或調校 EMR 應用程式這方面的協助嗎? AWS 有專門的 EMR 全球支援團隊。如果您想要深入了解短期 (2-6 週) 付費支援服務,請聯絡我們。
AWS 大數據培訓
Big Data on AWS 課程旨在透過實作經驗,教導您如何使用 Amazon Web Services 處理大數據工作負載。AWS 將說明如何執行 Amazon EMR 工作,透過 Pig 和 Hive 這類 Hadoop 工具的廣泛生態系統處理資料。同時,AWS 還會教您如何使用 Amazon DynamoDB 和 Amazon Redshift 在雲端建立大數據環境,了解 Amazon Kinesis 的好處,以及利用最佳實務設計出適用於分析、安全且經濟實惠的大數據環境。若要進一步了解大數據課程,按一下這裡。
其他培訓
Scale Unlimited 為需要快速學習如何使用 EMR 和其他大數據技術的公司提供自訂現場培訓。如需進一步了解,請按一下這裡。
其他資源
探索更多 Amazon EMR 資源