Diese Anleitung zeigt, wie man eine Self-Service-Datenanalytikumgebung konfiguriert, die einfach zu starten ist und auf die Dateningenieure und Datenwissenschaftler zugreifen können. Die integrierte Entwicklungsumgebung (IDE) basiert auf Jupyter Notebooks und bietet eine interaktive Oberfläche für eine einfache Datenerkundung. Sie enthält alle erforderlichen Tools zum Debuggen, Erstellen und Planen von Nahezu-Echzeit-Datenpipelines. Die Umgebung unterstützt eine sichere Teamzusammenarbeit mit Workload-Isolierung und ermöglicht es Administratoren, Ressourcen von einer einzigen Oberfläche aus selbst bereitzustellen, zu skalieren und zu deaktivieren, ohne die Komplexität der zugrunde liegenden Infrastruktur aufzudecken oder Sicherheit, Governance und Kosten zu gefährden. Administratoren können Clusterkonfigurationen unabhängig verwalten und kontinuierlich Kosten, Sicherheit, Zuverlässigkeit und Leistung optimieren.

Bitte beachten: [Haftungsausschluss]

Architekturdiagramm

[Beschreibung des Architekturdiagramms]

Architekturdiagramm als PDF herunterladen 

Well-Architected-Säulen

Das AWS-Well-Architected-Framework hilft Ihnen, die Vor- und Nachteile der Entscheidungen zu verstehen, die Sie beim Aufbau von Systemen in der Cloud treffen. Die sechs Säulen des Frameworks ermöglichen es Ihnen, architektonische bewärhte Methoden für die Entwicklung und den Betrieb zuverlässiger, sicherer, effizienter, kostengünstiger und nachhaltiger Systeme zu erlernen. Mit dem AWS-Well-Architected-Tool, das kostenlos in der AWS-Managementkonsole verfügbar ist, können Sie Ihre Workloads anhand dieser bewährten Methoden überprüfen, indem Sie eine Reihe von Fragen für jede Säule beantworten.

Das obige Architekturdiagramm ist ein Beispiel für eine Lösung, die unter Berücksichtigung der bewährten Methoden von Well-Architected erstellt wurde. Um eine vollständige Well-Architected-Lösung zu erhalten, sollten Sie so viele bewährte Methoden von Well-Architected wie möglich befolgen.

  • Amazon EMR Studio bietet eine vollständig verwaltete, webbasierte integrierte Entwicklungsumgebung (IDE) mit Jupyter Notebooks, die es Dateningenieuren- oder Datenwissenschaftler-Teams ermöglicht, Spark-Streaming-Anwendungen interaktiv zu entwickeln, zu visualisieren und zu debuggen, ohne zusätzliche Server verwalten zu müssen. Teams können Amazon-EMR-Cluster, die mithilfe von Infrastructure as Code (IaC)-Vorlagen im Servicekatalog vordefiniert wurden, selbst bereitstellen. Dies reduziert die Abhängigkeit von Cloud-Betriebsteams, verbessert die Agilität der Entwicklung und hilft Unternehmen, bewährte Methoden für Sicherheit und Governance mit minimalem Aufwand zu befolgen.

    Whitepaper zur betrieblichen Exzellenz lesen 
  • Amazon EMR Studio unterstützt Authentifizierung und Autorisierung mit AWS Identity and Access Management (IAM) oder AWS Identity Center, sodass keine direkte Verbindung mit SSH (Secure Shell) zu Spark-Clustern hergestellt werden muss. Lake Formation ermöglicht eine granulare und zentrale Zugriffskontrolle auf die Daten in Ihren Data Lakes, zentralisiert die Benutzerzugriffsverwaltung und verbessert die Sicherheit und Verwaltung Ihrer Datenpipelines.

    Whitepaper zur Sicherheit lesen 
  • Kinesis Data Streams und Amazon EMR bieten Autoscaling-Funktionen, um den Durchsatzanforderungen Ihres Echtzeit-Datenstrom-Workflows gerecht zu werden. Amazon EMR verwendet das Apache-Spark-Framework, welches Aufträge bei Anwendungs- oder Netzwerkausfällen automatisch verteilt und erneut zu starten versucht. Kinesis Data Streams skaliert außerdem automatisch die Kapazität und repliziert Daten synchron über drei Availability Zones hinweg, wodurch hohe Verfügbarkeit und Datenbeständigkeit gewährleistet werden.

    Whitepaper zur Zuverlässigkeit lesen 
  • Kinesis Data Streams skaliert automatisch die Kapazität als Reaktion auf schwankenden Datenverkehr, sodass Ihr Verarbeitungsworkflow in Echtzeit den Durchsatzanforderungen gerecht wird. Amazon EMR bietet mehrere Features zur Leistungsoptimierung für Spark, sodass Benutzer ohne Änderungen an ihren Anwendungen 3,5-mal schneller arbeiten können. Darüber hinaus verarbeitet Athena Abfragen automatisch parallel und stellt die notwendigen Ressourcen bereit. Außerdem können Daten in Amazon-S3-Partitionsschlüsseln und Spaltenformaten gespeichert werden, um die Abfrageleistung zu erhöhen.

    Whitepaper zur Leistung und Effizienz lesen 
  • Diese Anleitung enthält ein Beispiel für eine Amazon-EMR-Clustervorlage, die Instance-Flotten mit Amazon-EC2-Spot-Instance-Kapazität verwendet und Graviton3-Instance-Typen von Amazon EC2 spezifiziert. Dies kann im Vergleich zu vergleichbaren x86-basierten Amazon Elastic Compute Cloud (Amazon EC2)-Instances zu Kosteneinsparungen von bis zu 20 Prozent führen. Darüber hinaus ermöglicht die Verwendung von Leerlauf-Timeouts und Amazon-S3-Speicherstufen eine bessere Nutzung der Rechen- und Speicherressourcen bei optimierten Kosten.

    Whitepaper zur Kostenoptimierung lesen 
  • Graviton3-Instance-Typen von Amazon EC2 verbrauchen bis zu 60 Prozent weniger Energie bei gleicher Leistung wie vergleichbare Amazon-EC2-Instances und tragen so zur Reduzierung des CO2-Fußabdrucks bei. Die Verwendung von Amazon-EC2-Spot-Instances und Amazon-EMR-Einstellungen für das Leerlauf-Timeout trägt zu einer besseren Nutzung der Ressourcen bei und minimiert die Umweltauswirkungen des Workloads.

    Whitepaper zur Nachhaltigkeit lesen 
[Inhaltstyp]

[Titel]

Dieser [Blogbeitrag/E-Book/Anleitung/Beispielcode] zeigt, wie [kurze Beschreibung einfügen].

Haftungsausschluss

Der Beispielcode, die Softwarebibliotheken, die Befehlszeilentools, die Machbarkeitsnachweise, die Vorlagen oder andere zugehörige Technologien (einschließlich derjenigen, die von unseren Mitarbeitern bereitgestellt werden) werden Ihnen als AWS-Inhalte im Rahmen der AWS-Kundenvereinbarung oder der entsprechenden schriftlichen Vereinbarung zwischen Ihnen und AWS (je nachdem, was zutrifft) zur Verfügung gestellt. Sie sollten diese AWS-Inhalte nicht in Ihren Produktionskonten oder für Produktions- oder andere kritische Daten verwenden. Sie sind verantwortlich für das Testen, Sichern und Optimieren des AWS-Inhalts, z. B. des Beispielcodes, für die Verwendung in der Produktion auf der Grundlage Ihrer spezifischen Qualitätskontrollverfahren und -standards. Bei der Bereitstellung von AWS-Inhalten können AWS-Gebühren für die Erstellung oder Nutzung von kostenpflichtigen AWS-Ressourcen anfallen, z. B. für den Betrieb von Amazon-EC2-Instances oder die Nutzung von Amazon-S3-Speicher.

Verweise auf Services oder Organisationen von Drittanbietern in diesen Leitlinien bedeuten nicht, dass Amazon oder AWS eine Billigung, Förderung oder Zugehörigkeit zwischen Amazon oder AWS und dem Drittanbieter darstellt. Die Beratung durch AWS ist ein technischer Ausgangspunkt, und Sie können Ihre Integration mit Services von Drittanbietern anpassen, wenn Sie die Architektur bereitstellen.

War diese Seite hilfreich?