Was ist ein Data Warehouse?

Ein Data Warehouse ist ein zentrales Informations-Repository, das analysiert werden kann, um fundiertere Entscheidungen zu treffen. Daten fließen über Transaktionssysteme, relationale Datenbanken und andere Quellen in ein Data Warehouse, in der Regel in einem bestimmten Rhythmus. Geschäftsanalysten, Dateningenieure, Datenwissenschaftler und Entscheidungsträger greifen über Business-Intelligence-Tools (BI), SQL-Clients und andere Analyse-Anwendungen auf diese Daten zu.

Daten und deren Analyse sind heute ein unverzichtbares Werkzeug für die Wettbewerbsfähigkeit von Unternehmen. Geschäftliche Nutzer verlassen sich auf Berichte, Dashboards und Analysetools, um Erkenntnisse aus ihren Daten zu gewinnen, die Geschäftsleistung zu überwachen und Entscheidungen zu treffen. Diese Berichte, Dashboards und Analysetools von Data Warehouses unterstützt, die Daten effizient speichern, um Eingaben und Ausgaben (E/A) von Daten zu minimieren und Abfrageergebnisse gleichzeitig in kürzester Zeit Hunderten und Tausenden von Benutzern bereitzustellen.

Wie ist ein Data Warehouse augbeaut?

Ein Data Warehouse besteht aus verschiedenen Stufen. Die oberste Stufe ist der Front-End-Client, der die Ergebnisse durch Berichte, Analysen und Data-Mining-Tools präsentiert. Die mittlere Stufe besteht aus der Analyse-Engine, die zum Zugriff auf und zur Analyse der Daten verwendet wird. Die unterste Stufe der Architektur ist der Datenbankserver, in dem Daten geladen und gespeichert werden. Daten werden auf zwei unterschiedliche Arten gespeichert: 1) Daten, die oft abgerufen werden, werden in einem schnellen Speicher gespeichert (vergleichbar mit SSD-Festplatten) und 2) Daten, die nicht selten abgerufen werden, werden in einem günstigen Objektspeicher gespeichtert, wie Amazon S3. Das Data Warehouse sorgt automatisch dafür, dass häufig abgerufene Daten im „schnellen“ Speicher gespeichert werden, damit die Abfragegeschwindigkeit hoch bleibt.

Wie funktioniert ein Data Warehouse?

Ein Data Warehouse kann mehrere Datenbanken enthalten. In jeder Datenbank sind Daten in Tabellen und Spalten organisiert. Sie können in jeder Spalte eine Beschreibung der Daten festlegen, z. B. ob es sich um Integer, Daten oder Zeichenfolgen handelt. Tabellen können in Schemata organisiert werden, die so etwas wie Ordner sind. Fließen Daten in das Data Warehouse, werden diese in verschiedenen Tabellen gespeichert, die durch das Schema festgelegt wurden. Abfrage-Tools nutzen das Schema, um zu bestimmen, welche Datentabellen sie aufrufen und analysieren sollen.

Welche Vorteile bietet die Nutzung eines Data Warehouses?

Zu den Vorteilen eines Data Warehouses gehören unter anderem:

  • Informierte Entscheidungsfindung
  • Konsolidierung von Daten aus vielen Quellen
  • Verlaufsdatenanalyse
  • Qualität, Einheitlichkeit und Genauigkeit von Daten
  • Trennung der Analyseverarbeitung von Transaktionsdatenbanken was die Leistung beider Systeme verbessert

Wie arbeiten Data Warehouses, Datenbanken und Data Lakes zusammen?

Unternehmen nutzen in der Regel sowohl Datenbanken, einen Data Lake als auch ein Data Warehouse, um Daten zu speichern und zu analysieren. Die Lake House-Architektur von Amazon Redshift erleichtert diese Integration.

Mit wachsenden Datenmengen und -arten, ist es von Vorteil, einem oder mehreren üblichen Mustern zu folgen, wenn es um die Arbeit mit Daten in Datenbank, Data Lake und Data Warehouse geht.

Bild (oben): Landen Sie Daten in einer Datenbank oder einem Data Lake, bereiten Sie die Daten vor, bewegen Sie ausgewählte Daten in ein Data Warehouse und führen Sie die Bericerstellung durch.
Bild (oben): Landen Sie Daten in einem Data Warehouse, analysieren Sie die Daten und teilen Sie die zu verwendenden Daten mit anderen Analysewerkzeugen und Diensten für Machine Learning.
 
Ein Data Warehouse ist speziell für die Datenanalyse konzipiert. Dabei werden große Datenmengen eingelesen, um die Beziehungen und Trends in den Daten nachzuvollziehen. Eine Datenbank wird zur Erfassung und zum Speichern von Daten verwendet. Sie zeichnet beispielsweise Details zu einer Transaktion auf.

Lesen Sie über Datenbanken »

Anders als ein Data Warehouse ist ein Data Lake ein zentrales Repository für alle Daten, egal, ob strukturiert, halbstrukturiert oder unstrukturiert. In einem Data Warehouse müssen Daten tabellarisch geordnet sein. Hier kommt das Schema ins Spiel. Die tabellarische Form wird benötigt, damit SQL zum Abfragen von Daten verwendet werden kann. Die Daten müssen jedoch nicht für alle Anwendungen in tabellarischer Form sein. Einige Anwendungen, wie etwa Big Data-Analyse, Volltextsuche und Machine Learning können auf Daten zugreifen, auch wenn diese halbstrukturiert oder komplett unstrukturiert sind.

Lesen Sie über Data Lakes »

Einen detaillierten Vergleich zwischen Data Warehouses und Data Lakes finden Sie auf unserer speziellen Vergleichsseite für Datawahouse und Data Lake.

Wie unterscheidet ich der Data Mart vom Data Warehouse?

Ein Data Mart ist ein Data Warehouse, das die Anforderungen eines bestimmten Teams oder einer bestimmten Geschäftseinheit abdeckt, etwa der Finanz-, Marketing- oder Vertriebsabteilung. Data Marts sind kleiner, spezifischer und können Zusammenfassungen von Daten enthalten, die optimal auf ihre Nutzer zugeschnitten sind. Ein Data Mart kann auch ein Teil eines Data Warehouses sein.

Lesen Sie über Data Mart »

Einen detaillierten Vergleich zwischen Data Mart und Data Warehouses finden Sie auf unserer speziellen Vergleichsseite für Data Mart und Data Warehouse.

Wie kann AWS Ihre Data Warehouse-Bemühungen unterstützen?

Mit AWS können Sie die Vorteile aller Kernleistungen des On-Demand-Computing nutzen: Zugriff auf nahezu unbegrenzte Speicher- und Rechenkapazitäten, Systemskalierung parallel zur wachsenden Menge Ihrer erfassten, gespeicherten und abgefragten Daten – und dabei zahlen Sie nur für die bereitgestellten Ressourcen. AWS bietet ein breites Spektrum verwalteter Services, die sich nahtlos ineinander integrieren. Eine durchgehende Analyse- und Data Warehousing-Lösung ist damit schnell bereitgestellt.

Die folgende Illustration zeigt die wichtigen Schritte in einem vollständigen Analyseprozess, auch Stack genannt. AWS bietet eine Vielzahl an verwalteten Services bei jedem Schritt.

Amazon Redshift ist unser schneller, vollständig verwalteter und kostengünstiger Data-Warehouse-Service. Der Service bietet Data-Warehousing auf Petabyte-Ebene und Data-Lake-Analyse auf Exabyte-Ebene in einem Service, in dem Sie nur für das zahlen, was Sie auch tatsächlich nutzen.

Beginnen Sie mit Data Warehouses in AWS, indem Sie noch heute ein Konto erstellen.

Nächste Schritte in AWS

Zusätzliche produktbezogene Ressourcen ansehen
Kostenlose Angebote für Analytics-Services in der Cloud anzeigen 
Ein kostenloses Konto erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden