EMR Studio est un environnement de développement intégré (IDE) qui permet aux scientifiques et ingénieurs des données de facilement développer, visualiser et déboguer les applications d'ingénierie et de science des données écrites en R, Python, Scala et PySpark.
EMR Studio fournit des Blocs-notes Jupyter entièrement gérés et des outils tels que Spark UI et YARN Timeline Service pour simplifier le débogage. Les scientifiques des données et les analystes peuvent installer des noyaux et des bibliothèques personnalisés, collaborer avec des pairs à l'aide de répertoires de code tels que GitHub et BitBucket, ou exécuter des blocs-notes paramétrés dans le cadre de flux de travail planifiés à l'aide de services d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow.
Les noyaux et applications EMR Studio s'exécutent dans des clusters EMR, de sorte que vous bénéficiiez du traitement de données distribué en utilisant l'environnement d'exécution Amazon EMR pour Apache Spark aux performances optimisées. Les administrateurs peuvent configurer EMR Studio pour que les analystes puissent exécuter leurs applications dans les clusters EMR existants ou créer des clusters à l'aide de modèles AWS Cloud Formation prédéfinis pour EMR.
Fonctions et avantages
Simple à utiliser
EMR Studio facilite l'interaction avec les applications sur un cluster EMR. Vous pouvez accéder à EMR Studio soit à partir de la console AWS en utilisant l'Authentification AWS IAM, soit sans vous connecter à la console AWS en activant l'accès fédéré à partir de votre fournisseur d'identité (IdP) par le biais d'AWS IAM Identity Center (successeur d'AWS SSO). Vous pouvez explorer, traiter et visualiser les données de manière interactive à l'aide de blocs-notes, créer et planifier des pipelines et déboguer des applications sans vous connecter aux clusters EMR.
Blocs-notes Jupyter entièrement gérés
Avec EMR Studio, vous pouvez démarrer des blocs-notes en quelques secondes, vous familiariser avec des blocs-notes types et effectuer votre exploration des données. Vous pouvez collaborer avec vos pairs via la collaboration en temps réel intégrée et suivre les changements sur les versions de bloc-note via les répertoires Git. Vous pouvez également personnaliser votre environnement en chargeant des noyaux et des bibliothèques Python personnalisés à partir des blocs-notes.
Applications faciles à créer
EMR Studio vous permet de passer facilement du prototypage à la production. Vous pouvez déclencher des pipelines à partir de répertoires de code, simplement exécuter des Blocs-notes en tant que pipelines à l'aide d'outils d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow, ou attacher des blocs-notes à un cluster plus grand en un seul clic.
Débogage simplifié
Avec EMR Studio, vous pouvez déboguer des travaux et accéder aux journaux sans vous connecter au cluster pour les clusters actifs et résiliés. Vous pouvez utiliser des interfaces d'application natives telles que Spark UI et YARN Timeline Service directement depuis EMR Studio. EMR Studio vous permet également de localiser rapidement le cluster ou la tâche à déboguer en utilisant des filtres tels que l'état du cluster, le temps de création et l'ID du cluster.
Blocs-notes collaboratifs en temps réel
Avec EMR Studio, les scientifiques des données, les ingénieurs et les analystes peuvent collaborer entre équipes, en temps réel. Vous pouvez inviter vos collègues à consulter et à modifier les blocs-notes. Cela permet la co-création en temps réel, le débogage de code et les revues de code des blocs-notes Jupyter.
SQL Explorer
SQL Explorer est une fonction de votre espace de travail EMR Studio qui vous permet de parcourir le catalogue de données et d’exécuter des requêtes SQL sur les clusters EMR depuis EMR Studio. Dans SQL Explorer, vous pouvez vous connecter à Amazon EMR sur les clusters EC2 avec Presto pour voir et parcourir le catalogue de données. SQL Explorer vous fournit également un éditeur pour exécuter des requêtes SQL, visualiser les résultats de la recherche dans un tableau et les télécharger au format csv.
Blocs-notes multilingues
EMR Studio vous permet d'utiliser plusieurs langues dans un seul bloc-notes Jupyter. Vous pouvez basculer entre Python, Scala, SparkSQL et R dans le même bloc-notes Jupyter et partager des données entre les cellules via des tables temporaires. Avec cette fonction, vous pouvez écrire du code dans les langues les mieux adaptées aux différents composants de votre flux de travail.
Cas d'utilisation
Créer des applications de science et d'ingénierie des données
Avec EMR Studio, vous pouvez démarrer des blocs-notes en quelques secondes, vous familiariser avec des blocs-notes types et effectuer votre exploration des données. Vous pouvez collaborer avec vos pairs via la collaboration en temps réel intégrée et suivre les changements sur les versions de blocs-notes via les référentiels Git. Vous pouvez également personnaliser votre environnement en chargeant des noyaux et des bibliothèques Python personnalisés à partir des blocs-notes.
Déployer les pipelines de production
Dans EMR Studio, vous pouvez utiliser le répertoire de code pour déclencher des pipelines. Vous pouvez également paramétrer et chaîner des blocs-notes pour créer des pipelines. Vous pouvez intégrer des blocs-notes dans des flux de travail planifiés à l'aide de services d'orchestration de flux de travail tels qu'Apache Airflow ou Amazon Managed Workflows for Apache Airflow. EMR Studio vous permet également de rattacher des blocs-notes à un cluster plus grand pour exécuter une tâche.
Simplifier les applications de débogage
Dans EMR Studio, vous pouvez déboguer des applications de bloc-notes à partir de l'interface utilisateur du bloc-notes. Vous pouvez également déboguer des pipelines en réduisant d'abord les clusters à l'aide de filtres tels que l'état des clusters, et diagnostiquer les travaux sur les clusters actifs et résiliés avec le moins de clics possible pour ouvrir les interfaces utilisateur de débogage natives telles que Spark UI, Tez UI et Yarn Timeline Service.
Ressources
Guide de gestion Amazon EMR Studio
En savoir plus »
Amazon EMR Studio (version préliminaire) : une nouvelle expérience IDE mettant en avant les blocs-notes avec Amazon EMR
9 décembre 2020
En savoir plus »
Orchestrer des tâches d’analytique sur Amazon EMR Notebooks à l’aide d'Amazon MWAA
Janvier 27, 2021
En savoir plus »