Amazon EMR nutzen
- Eine Datenverarbeitungsanwendung entwickeln. Sie können Java, Hive (eine SQL-artige Sprache), Pig (eine Datenverarbeitungssprache), Cascading, Ruby, Perl, Python, R, PHP, C++ oder Node.js verwenden. Amazon EMR bietet Ihnen für einen schnellen Einstieg Codebeispiele und Tutorials.
- Hochladen der Anwendung und Daten auf Amazon S3. Wenn Sie eine große Datenmenge hochladen müssen, ist es überlegenswert, AWS Import/Export Snowball oder AWS Direct Connect zu verwenden (zum Hochladen mittels physischer Speichermedien bzw. zum Herstellen einer dedizierten Netzwerkverbindung zwischen Ihrem Rechenzentrum und AWS). Wenn Sie möchten, können Sie Ihre Daten auch direkt in einen laufenden Cluster schreiben.
- Konfigurieren und Starten des Clusters. Legen Sie über die AWS-Managementkonsole, die AWS-Befehlszeilenschnittstelle, SDKs oder APIs die Anzahl der Amazon EC2-Instances für Ihren Cluster, die Instance-Typen (Standard, hoher Speicherbedarf, hoher CPU-Bedarf, hoher E/A-Bedarf usw.), die zu installierenden Anwendungen (Apache Spark, Apache Hive, Apache HBase, Presto usw.) und den Standort Ihrer Anwendung und Daten fest. Sie können mit Bootstrap-Aktionen zusätzliche Software installieren oder die Standardeinstellungen ändern.
- Überwachen des Clusters. Sie können den Zustand und den Fortschritt des Clusters mit der Managementkonsole, der Befehlszeilenschnittstelle, SDKs oder APIs überwachen. Zur Überwachung/für Alarmsysteme kann EMR mit Amazon CloudWatch kombiniert werden. Es unterstützt auch gängige Überwachungstools wie Ganglia. Sie können jederzeit zum/aus dem Cluster Kapazitäten hinzufügen/entfernen, je nachdem, wie viele Daten zu verarbeiten sind. Zur Problembehebung steht die einfache Debugging-GUI der Konsole zur Verfügung.
- Abrufen der Ausgabe. Die Ausgabe kann von Amazon S3 oder von HDFS am Cluster abgerufen werden. Sie können die Daten mit Tools wie Amazon Quicksight, Tableau und MicroStrategy visualisieren. Amazon EMR beendet den Cluster automatisch, wenn die Verarbeitung fertiggestellt ist. Alternativ können Sie den Cluster laufen lassen und ihm weitere Arbeit geben.
Sind Sie bereit, Ihren ersten Cluster zu starten?
Klicken Sie hier, um einen Cluster über die Amazon EMR-Verwaltungskonsole in Betrieb zu nehmen. Navigieren Sie auf der Seite "Create Cluster" zu "Advanced Cluster Configuration" und klicken Sie rechts oben auf die graue Schaltfläche "Configure Sample Application", wenn Sie eine Beispielanwendung mit Beispieldaten ausführen möchten.
Tutorials
Spark
Datenstromverarbeitung in Echtzeit mit Apache Spark-Streaming und Apache Kafka auf AWS
Erfahren Sie, wie Apache Kafka auf EC2 eingerichtet wird, Spark-Streaming auf EMR zum Verarbeiten von Daten, die in Apache Kafka-Themen eingehen, verwendet wird und Streaming-Daten mit Spark SQL auf EMR abgefragt werden.
Umfangreiches Machine Learning mit Spark auf Amazon EMR
Erfahren Sie, wie Intent Media Spark und Amazon EMR für Modellierungsworkflows verwendet hat.
HBase
SQL-Zugriff mit geringer Latenz und sekundäre Indizes mit Phoenix und HBase
Erfahren Sie, wie Sie eine JDBC-Verbindung zu Phoenix herstellen, für eine bestehende HBase-Tabelle eine Ansicht erstellen und einen sekundären Index anlegen, um die Leseperformance zu verbessern.
Verwenden von HBase mit Hive für NoSQL und Analyse-Arbeitslasten
Erfahren Sie, wie Sie einen EMR-Cluster mit HBase starten und aus einem Snapshot in Amazon S3 eine Tabelle wiederherstellen.
Presto
Starten eines Amazon EMR-Cluster mit Presto und Airpal
Erfahren Sie, wie Sie einen Presto-Cluster einrichten und mit Airpal in S3 gespeicherte Daten verarbeiten.
Hive
Verwenden von HBase mit Hive für NoSQL und Analyse-Arbeitslasten
Erfahren Sie, wie Sie einen EMR-Cluster mit HBase starten und aus einem Snapshot in Amazon S3 eine Tabelle wiederherstellen.
Verarbeitung und Analyse von Big Data mit Hive auf Amazon EMR und der MicroStrategy Suite
Erfahren Sie, wie Sie eine Verbindung zu einem auf Amazon Elastic MapReduce ausgeführten Hive-Job herstellen, um eine sichere und erweiterbare Plattform für die Berichterstellung und Analyse zu erhalten.
Flink
Mit Apache Flink auf AWS eine Echtzeit-Streamverarbeitungspipeline erstellen
In diesem Tutorial wird eine Referenzarchitektur für eine konsistente, skalierbare und zuverlässige Streamverarbeitungspipeline beschrieben, die auf Apache Flink basiert und Amazon EMR, Amazon Kinesis und den Amazon Elasticsearch Service nutzt.
Mit unseren Tutorials lernen Sie unsere Produkte in Ihrem eigenen Tempo kennen.
Schulungen und Hilfe
Zeitlich begrenzte Betreuung
Benötigen Sie Unterstützung beim Erstellen eines Machbarkeitsnachweises oder bei der Feinabstimmung Ihrer EMR-Anwendungen? AWS verfügt über ein weltweites Supportteam speziell für EMR. Wenn Sie mehr über zeitlich begrenzte (2–6 Wochen) kostenpflichtige Supportbetreuungen erfahren möchten, kontaktieren Sie uns bitte.
AWS Big Data-Schulung
Der Kurs "Big Data-Lösungen in AWS" wurde entwickelt, um Ihnen an praktischen Beispielen die Verwendung von Amazon Web Services für Big Data-Arbeitslasten nahezubringen. AWS zeigt Ihnen, wie Sie Amazon EMR-Aufträge ausführen, um Daten unter Verwendung der großen Vielfalt an Hadoop-Tools wie Pig und Hive zu verarbeiten. AWS vermittelt Ihnen zudem, wie Sie mit Amazon DynamoDB und Amazon Redshift Big Data-Umgebungen in der Cloud erstellen, erläutert die Vorteile von Amazon Kinesis und erklärt, wie Sie bewährte Methoden zum Entwerfen von Big Data-Umgebungen für Analyse, Sicherheit und Kosteneffizienz einsetzen. Klicken Sie hier, um weitere Informationen zur Big Data-Schulung zu erhalten.
Zusätzliche Schulung
"Scale Unlimited" bietet angepasste Vor-Ort-Schulungen für Unternehmen an, die schnell lernen müssen, wie sie EMR und andere Technologien für Big Data (große Datenmengen) verwenden. Weitere Informationen finden Sie hier.
Weitere Ressourcen
Erstellen Sie ein Beispiel-Amazon EMR-Cluster in der AWS-Managementkonsole.
Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.
Beginnen Sie die Erstellung mit Amazon EMR in der AWS-Konsole.
Entdecken Sie weitere Amazon EMR-Ressourcen