EMR Studio ist eine integrierte Entwicklungsumgebung (IDE), die es Datenwissenschaftlern und Dateningenieuren erleichtert, in R, Python, Scala und PySpark geschriebene Dateningenieurs- und Datenwissenschafts-Anwendungen zu entwickeln, zu visualisieren und zu debuggen.
EMR Studio bietet vollständig verwaltete Jupyter Notebooks und Tools wie Spark UI und YARN Timeline Service, um das Debugging zu vereinfachen. Datenwissenschaftler und Analysten können benutzerdefinierte Kernels und Bibliotheken installieren, mit Kollegen über Code-Repositories wie GitHub und BitBucket zusammenarbeiten oder parametrisierte Notebooks als Teil geplanter Workflows unter Verwendung von Orchestrierungsdiensten wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen.
EMR Studio-Kernels und -Anwendungen werden auf EMR-Clustern ausgeführt, sodass Sie die Vorteile der verteilten Datenverarbeitung mithilfe der leistungsoptimierten Amazon EMR-Laufzeit für Apache Spark nutzen können. Administratoren können EMR Studio so einrichten, dass Analysten ihre Anwendungen auf bestehenden EMR-Clustern ausführen oder neue Cluster mit vordefinierten AWS CloudFormation-Vorlagen für EMR erstellen können.
Funktionen und Vorteile
Einfache Verwendung
EMR Studio vereinfacht die Interaktion mit Anwendungen auf einem EMR-Cluster. Sie können entweder über die AWS-Konsole mit AWS-IAM-Authentifizierung oder ohne Anmeldung bei der AWS-Konsole auf EMR Studio zugreifen, indem Sie den Verbundzugriff von Ihrem Identitätsanbieter (IdP) über AWS IAM Identity Center (Nachfolger von AWS SSO) aktivieren. Sie können Daten mithilfe von Notebooks interaktiv untersuchen, verarbeiten und visualisieren, Pipelines erstellen und planen und Anwendungen debuggen, ohne sich bei EMR-Clustern anmelden zu müssen.
Vollständig verwaltete Jupyter-Notebooks
Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.
Einfach zu erstellende Anwendungen
EMR Studio erleichtert Ihnen den Übergang vom Prototyping zur Produktion. Sie können Pipelines aus Code-Repositorys auslösen, Notebooks einfach als Pipelines mit Orchestrierungstools wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow ausführen oder Notebooks mit einem einzigen Klick an einen größeren Cluster anfügen.
Vereinfachtes Debugging
Mit EMR Studio können Sie sowohl für aktive als auch für terminierte Cluster Aufträge debuggen und auf Protokolle zugreifen, ohne sich beim Cluster anzumelden. Sie können native Anwendungsschnittstellen wie Spark UI und YARN Timeline Service direkt aus EMR Studio verwenden. Mit EMR Studio können Sie auch den zu debuggenden Cluster oder Auftrag mithilfe von Filtern wie Clusterstatus, Erstellungszeit und Cluster-ID schnell finden.
Kollaborative Notizbücher in Echtzeit
Mit EMR Studio können Datenwissenschaftler, Ingenieure und Analysten teamübergreifend in Echtzeit zusammenarbeiten. Sie können Ihre Kollegen einladen, Notizbücher anzuzeigen und zu bearbeiten. Dies ermöglicht die gemeinsame Dokumenterstellung, das Code-Debugging und die Codeüberprüfung von Jupyter-Notebooks in Echtzeit.
SQL Explorer
EMR Studio wird mit SQL Explorer geliefert, einer Funktion in Ihrem Workspace, mit der Sie den Datenkatalog durchsuchen und SQL-Abfragen auf EMR-Clustern direkt aus EMR Studio ausführen können. In SQL Explorer können Sie eine Verbindung mit Amazon EMR in EC2-Clustern mit Presto herstellen, um den Datenkatalog anzuzeigen und zu durchsuchen. SQL Explorer bietet Ihnen auch einen Editor zum Ausführen von SQL-Abfragen, zum Anzeigen derer in einer Tabelle und zum Herunterladen von Abfrageergebnissen im CSV-Format.
Mehrsprachige Notebooks
Mit EMR Studio können Sie mehrere Sprachen in einem einzigen Jupyter-Notebook verwenden. Sie können jetzt innerhalb desselben Jupyter-Notebooks zwischen Python, Scala, SparkSQL und R wechseln und Daten über temporäre Tabellen zwischen Zellen austauschen. Mit dieser Funktion können Sie Code in Sprachen schreiben, die für verschiedene Komponenten Ihres Workflows am besten geeignet sind.
Anwendungsfälle
Erstellen von Data Science- und Engineering-Anwendungen
Mit EMR Studio können Sie Notebooks in Sekundenschnelle starten, mit Beispielnotebooks integriert werden und Ihre Datenexploration durchführen. Sie können mit Kollegen über die integrierte Zusammenarbeit in Echtzeit zusammenarbeiten und Änderungen über Notebook-Versionen hinweg über Git-Repositories verfolgen. Sie können Ihre Umgebung auch anpassen, indem Sie benutzerdefinierte Kernels und Python-Bibliotheken aus Notebooks laden.
Bereitstellen von Produktionspipelines
In EMR Studio können Sie das Code-Repository verwenden, um Pipelines auszulösen. Sie können auch Notebooks parametrieren und verketten, um Pipelines zu erstellen. Sie können Notebooks mithilfe von Workflow-Orchestrierungsservices wie Apache Airflow oder Amazon Managed Workflows for Apache Airflow in geplante Workflows integrieren. Mit EMR Studio können Sie auch Notebooks erneut an einen größeren Cluster anfügen, um einen Auftrag auszuführen.
Vereinfachen Sie das Debuggen von Anwendungen
In EMR Studio können Sie Notebook-Anwendungen über die Notebook-Benutzeroberfläche debuggen. Sie können Pipelines auch debuggen, indem Sie zunächst Cluster mithilfe von Filtern wie dem Clusterstatus eingrenzen und Aufträge sowohl für aktive als auch für abgeschlossene Cluster mit so wenigen Klicks wie möglich diagnostizieren, um systemeigene Debugbenutzeroberflächen wie Spark UI, Tez UI und Yarn Timeline Service zu öffnen.
Ressourcen
Amazon EMR Studio Management Guide
Weitere Informationen »
Amazon EMR Studio (Vorschau): Eine neue Notebook-First-IDE-Erfahrung mit Amazon EMR
9. Dezember 2020
Weitere Informationen »
Orchestrieren von Analyseaufträgen auf Amazon EMR-Notebooks mit Amazon MWAA
27. Januar 2021
Weitere Informationen »
Erfahren Sie, wie Sie Big Data von lokalen Speicherorten zu AWS migrieren.
Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.
Beginnen Sie die Erstellung mit Amazon EMR in der AWS-Konsole.