[SEO-Zwischenüberschrift]
Diese Anleitung zeigt, wie man eine Self-Service-Datenanalytikumgebung konfiguriert, die einfach zu starten ist und auf die Dateningenieure und Datenwissenschaftler zugreifen können. Die integrierte Entwicklungsumgebung (IDE) basiert auf Jupyter Notebooks und bietet eine interaktive Oberfläche für eine einfache Datenerkundung. Sie enthält alle erforderlichen Tools zum Debuggen, Erstellen und Planen von Nahezu-Echzeit-Datenpipelines. Die Umgebung unterstützt eine sichere Teamzusammenarbeit mit Workload-Isolierung und ermöglicht es Administratoren, Ressourcen von einer einzigen Oberfläche aus selbst bereitzustellen, zu skalieren und zu deaktivieren, ohne die Komplexität der zugrunde liegenden Infrastruktur aufzudecken oder Sicherheit, Governance und Kosten zu gefährden. Administratoren können Clusterkonfigurationen unabhängig verwalten und kontinuierlich Kosten, Sicherheit, Zuverlässigkeit und Leistung optimieren.
Bitte beachten: [Haftungsausschluss]
Architekturdiagramm
[Beschreibung des Architekturdiagramms]
Schritt 1
Cloud-Betriebsteams entwickeln Cluster-Vorlagen zu Amazon EMR in AWS CloudFormation gemäß ihren gewünschten Spezifikationen (wie Instance-Typen und Netzwerkkonfigurationen) und veröffentlichen die Vorlagen als Produkte im AWS Service Catalog für die Self-Service-Bereitstellung.
Schritt 2
Gebotsereignisse oder Pixel in Webanzeigen erfassen Nutzereindrücke und senden die Daten an einen Endpunkt von Amazon Kinesis Data Streams.
Schritt 3
Dateningenieurteams melden sich bei ihren Workspaces in Amazon EMR Studio an. Hier stellen sie selbst Amazon-EMR-Cluster bereit. Alternativ fügen sie bestehende Cluster hinzu, um Spark-Streaming-Anwendungen wie Gebotsvalidierung oder Impressionsmessung mithilfe interaktiver Notebooks zu entwickeln.
Schritt 4
Eine Spark-Streaming-Anwendung wird auf einem Amazon-EMR-Cluster ausgeführt. Sie nimmt kontinuierlich unformatierte Gebots- oder Impressionsereignisdaten von Kinesis Data Streams auf. Die Anwendung transformiert die Daten. Anschließend werden die transformierten Daten in einem Data Lake von Amazon Simple Storage Service (Amazon S3) gespeichert.
Dieser Prozess ermöglicht eine Betriebsberichterstattung nahezu in Echtzeit. Sie können bereitgestellte Amazon-EMR-Cluster für die größtmögliche Flexibilität bei der Kostenoptimierung oder Serverless-Amazon-EMR-Cluster wählen, um die Bereitstellung und Cluster-Verwaltung zu vereinfachen.
Schritt 5
Amazon S3 speichert Daten in partitionierten Ordnern. Die Daten können komprimiert und im Spaltenformat oder in anderen offenen Tabellenformaten wie Apache Iceberg vorliegen.
Schritt 6
Alle Datenbank- und Tabellenmetadaten sind in einem AWS-Glue-Datenkatalog registriert, sodass Daten von mehreren AWS-Services wie Amazon Athena oder Amazon SageMaker abgefragt werden können.
Schritt 7
(Optional) Data-Lake-Administratoren können den Datenkatalog bei AWS Lake Formation registrieren, um detailliertere Zugriffskontrollen bereitzustellen und die Benutzerverwaltung zu zentralisieren.
Schritt 8
Benutzer können mit Athena nahezu in Echtzeit SQL-Abfragen für kuratierte Clickstream- oder Impressionsdaten in Amazon S3 ausführen und Dashboards mit Amazon QuickSight visualisieren.
Schritt 9
Zusätzlich zum Data Lake von Amazon S3 können Amazon-EMR-Workloads Daten in NoSQL-Datenbanken wie Amazon DynamoDB oder In-Memory-Datenbanken wie Aerospike schreiben. Dies unterstützt Lese-Workloads, die eine schnelle Leistung in großem Umfang erfordern, wie z. B. Gebotsfilterung oder Betriebsberichte.
Erste Schritte
Diese Anleitung anwenden
Well-Architected-Säulen
Das AWS-Well-Architected-Framework hilft Ihnen, die Vor- und Nachteile der Entscheidungen zu verstehen, die Sie beim Aufbau von Systemen in der Cloud treffen. Die sechs Säulen des Frameworks ermöglichen es Ihnen, architektonische bewärhte Methoden für die Entwicklung und den Betrieb zuverlässiger, sicherer, effizienter, kostengünstiger und nachhaltiger Systeme zu erlernen. Mit dem AWS-Well-Architected-Tool, das kostenlos in der AWS-Managementkonsole verfügbar ist, können Sie Ihre Workloads anhand dieser bewährten Methoden überprüfen, indem Sie eine Reihe von Fragen für jede Säule beantworten.
Das obige Architekturdiagramm ist ein Beispiel für eine Lösung, die unter Berücksichtigung der bewährten Methoden von Well-Architected erstellt wurde. Um eine vollständige Well-Architected-Lösung zu erhalten, sollten Sie so viele bewährte Methoden von Well-Architected wie möglich befolgen.
-
Betriebliche Exzellenz
Amazon EMR Studio bietet eine vollständig verwaltete, webbasierte integrierte Entwicklungsumgebung (IDE) mit Jupyter Notebooks, die es Dateningenieuren- oder Datenwissenschaftler-Teams ermöglicht, Spark-Streaming-Anwendungen interaktiv zu entwickeln, zu visualisieren und zu debuggen, ohne zusätzliche Server verwalten zu müssen. Teams können Amazon-EMR-Cluster, die mithilfe von Infrastructure as Code (IaC)-Vorlagen im Servicekatalog vordefiniert wurden, selbst bereitstellen. Dies reduziert die Abhängigkeit von Cloud-Betriebsteams, verbessert die Agilität der Entwicklung und hilft Unternehmen, bewährte Methoden für Sicherheit und Governance mit minimalem Aufwand zu befolgen.
-
Sicherheit
Amazon EMR Studio unterstützt Authentifizierung und Autorisierung mit AWS Identity and Access Management (IAM) oder AWS Identity Center, sodass keine direkte Verbindung mit SSH (Secure Shell) zu Spark-Clustern hergestellt werden muss. Lake Formation ermöglicht eine granulare und zentrale Zugriffskontrolle auf die Daten in Ihren Data Lakes, zentralisiert die Benutzerzugriffsverwaltung und verbessert die Sicherheit und Verwaltung Ihrer Datenpipelines.
-
Zuverlässigkeit
Kinesis Data Streams und Amazon EMR bieten Autoscaling-Funktionen, um den Durchsatzanforderungen Ihres Echtzeit-Datenstrom-Workflows gerecht zu werden. Amazon EMR verwendet das Apache-Spark-Framework, welches Aufträge bei Anwendungs- oder Netzwerkausfällen automatisch verteilt und erneut zu starten versucht. Kinesis Data Streams skaliert außerdem automatisch die Kapazität und repliziert Daten synchron über drei Availability Zones hinweg, wodurch hohe Verfügbarkeit und Datenbeständigkeit gewährleistet werden.
-
Leistung und Effizienz
Kinesis Data Streams skaliert automatisch die Kapazität als Reaktion auf schwankenden Datenverkehr, sodass Ihr Verarbeitungsworkflow in Echtzeit den Durchsatzanforderungen gerecht wird. Amazon EMR bietet mehrere Features zur Leistungsoptimierung für Spark, sodass Benutzer ohne Änderungen an ihren Anwendungen 3,5-mal schneller arbeiten können. Darüber hinaus verarbeitet Athena Abfragen automatisch parallel und stellt die notwendigen Ressourcen bereit. Außerdem können Daten in Amazon-S3-Partitionsschlüsseln und Spaltenformaten gespeichert werden, um die Abfrageleistung zu erhöhen.
-
Kostenoptimierung
Diese Anleitung enthält ein Beispiel für eine Amazon-EMR-Clustervorlage, die Instance-Flotten mit Amazon-EC2-Spot-Instance-Kapazität verwendet und Graviton3-Instance-Typen von Amazon EC2 spezifiziert. Dies kann im Vergleich zu vergleichbaren x86-basierten Amazon Elastic Compute Cloud (Amazon EC2)-Instances zu Kosteneinsparungen von bis zu 20 Prozent führen. Darüber hinaus ermöglicht die Verwendung von Leerlauf-Timeouts und Amazon-S3-Speicherstufen eine bessere Nutzung der Rechen- und Speicherressourcen bei optimierten Kosten.
-
Nachhaltigkeit
Graviton3-Instance-Typen von Amazon EC2 verbrauchen bis zu 60 Prozent weniger Energie bei gleicher Leistung wie vergleichbare Amazon-EC2-Instances und tragen so zur Reduzierung des CO2-Fußabdrucks bei. Die Verwendung von Amazon-EC2-Spot-Instances und Amazon-EMR-Einstellungen für das Leerlauf-Timeout trägt zu einer besseren Nutzung der Ressourcen bei und minimiert die Umweltauswirkungen des Workloads.
Ähnliche Inhalte
[Titel]
Haftungsausschluss
Der Beispielcode, die Softwarebibliotheken, die Befehlszeilentools, die Machbarkeitsnachweise, die Vorlagen oder andere zugehörige Technologien (einschließlich derjenigen, die von unseren Mitarbeitern bereitgestellt werden) werden Ihnen als AWS-Inhalte im Rahmen der AWS-Kundenvereinbarung oder der entsprechenden schriftlichen Vereinbarung zwischen Ihnen und AWS (je nachdem, was zutrifft) zur Verfügung gestellt. Sie sollten diese AWS-Inhalte nicht in Ihren Produktionskonten oder für Produktions- oder andere kritische Daten verwenden. Sie sind verantwortlich für das Testen, Sichern und Optimieren des AWS-Inhalts, z. B. des Beispielcodes, für die Verwendung in der Produktion auf der Grundlage Ihrer spezifischen Qualitätskontrollverfahren und -standards. Bei der Bereitstellung von AWS-Inhalten können AWS-Gebühren für die Erstellung oder Nutzung von kostenpflichtigen AWS-Ressourcen anfallen, z. B. für den Betrieb von Amazon-EC2-Instances oder die Nutzung von Amazon-S3-Speicher.
Verweise auf Services oder Organisationen von Drittanbietern in diesen Leitlinien bedeuten nicht, dass Amazon oder AWS eine Billigung, Förderung oder Zugehörigkeit zwischen Amazon oder AWS und dem Drittanbieter darstellt. Die Beratung durch AWS ist ein technischer Ausgangspunkt, und Sie können Ihre Integration mit Services von Drittanbietern anpassen, wenn Sie die Architektur bereitstellen.