Was ist ein Data Lake?

AWS-Konto erstellen

Kostenlosen Analytics-Angebote erkunden

Kostenlose Angebote für Analytics-Services in der Cloud anzeigen

Analytics-Services anzeigen

Innovieren Sie schneller mit dem umfassendsten Angebot an Analytics-Services

Analytics-Schulungen durchsuchen

Beginnen Sie mit Analytics-Schulungen mit Inhalten, die von AWS-Experten erstellt wurden

Analytics-Blogs lesen

Informieren Sie sich über die neuesten AWS-Analytics-Produktneuheiten und bewährte Methoden

Was ist ein Data Lake?

Ein Data Lake ist ein zentrales Repository, in dem Sie alle strukturierten und unstrukturierten Daten in beliebigem Umfang speichern können. Sie können Ihre Daten im Ist-Zustand speichern, ohne sie erst strukturieren zu müssen, und können verschiedene Arten von Analytik durchführen – von Dashboards und Visualisierungen bis hin zu Big-Data-Verarbeitung, Echtzeitanalytik und Machine Learning – und damit bessere Entscheidungen treffen.

Warum brauchen Sie einen Data Lake?

Unternehmen, die aus ihren Daten erfolgreich einen Unternehmenswert gewinnen, haben einen deutlichen Vorsprung vor ihren Mitbewerbern. Eine Umfrage von 451 Research ergab, dass mehr als die Hälfte der befragten Unternehmen bereits einen Data Lake implementiert hat. Weitere 22 % gaben an, innerhalb von 36 Monaten einen Data Lake erstellen zu wollen. Unternehmen, die moderne Datenarchitekturen, einschließlich Data Lakes, implementieren, konnten messbare Vorteile in Bezug auf betriebliche Effizienz und Umsatzwachstum nachweisen. Diese führenden Unternehmen verwenden fortschrittliche Analysen, künstliche Intelligenz und umfangreiche Sprachmodelle für verschiedene Datenquellen, darunter Echtzeit-Streams, IoT-Sensoren, soziale Medien und Kundeninteraktionsdaten. Diese umfassende Datenstrategie ermöglicht es ihnen, datengestützte Entscheidungen schneller zu treffen, Kundenerlebnisse zu personalisieren, Betriebsabläufe durch vorausschauende Wartung zu optimieren und neue Umsatzchancen vor Wettbewerbern zu identifizieren.

Was sind die wichtigen Elemente einer Data-Lake- und Analyse-Lösung?

Bei der Entwicklung von Data Lakes und einer Analytikplattform müssen Unternehmen eine Reihe zentraler Funktionen berücksichtigen:

Datenübermittlung

Data Lakes ermöglichen den Import beliebiger Datenmengen, die in Echtzeit anfallen können. Die Daten werden aus verschiedenen Quellen erfasst und in ihrem ursprünglichen Format in den Data Lake übertragen. Dieser Prozess ermöglicht die Skalierung auf Daten beliebiger Größe und spart gleichzeitig Zeit bei der Definition von Datenstrukturen, Schemata und Transformationen.

Sichere Speicherung und Katalogisierung von Daten

In Data Lakes können Sie relationale Daten wie Betriebsdatenbanken und Daten aus Geschäftsanwendungen sowie nicht-relationale Daten aus mobilen Anwendungen, IoT-Geräten und sozialen Medien speichern. Durch Crawling, Katalogisierung und Indexierung von Daten können Sie außerdem nachvollziehen, welche Daten sich im Data Lake befinden. Schließlich müssen die Daten gesichert werden, um zu gewährleisten, dass Ihre Datenbestände geschützt sind.

Analytik

Data Lakes erlauben verschiedenen Rollen in Ihrem Unternehmen wie Datenwissenschaftlern, Datenentwicklern und Geschäftsanalysten den Zugriff auf Daten mit Analyse-Tools und Frameworks ihrer Wahl. Dazu gehören Open-Source-Frameworks wie Apache Hadoop, Presto und Apache Spark sowie kommerzielle Angebote von Data-Warehouse- und Business-Intelligence-Anbietern. Data Lakes ermöglichen Ihnen die Durchführung von Analysen, ohne dass Sie Ihre Daten in ein separates Analyse-System bringen müssen.

Lesen Sie über Datenanalysen »

Machine Learning

Data Lakes ermöglichen Unternehmen, verschiedene Arten von Erkenntnissen zu erzeugen, wie Berichte über historische Daten, und Machine Learning, bei dem Modelle erstellt werden, um wahrscheinliche Ergebnisse vorherzusagen, sowie das Vorschlagen einer Reihe vorgegebener Maßnahmen zum Erzielen des optimalen Ergebnisses.

Lesen Sie über Machine Learning »

Was ist der Unterschied zwischen einem Data Warehouse und einem Data Lake?

Je nach Anforderungen benötigt ein typisches Unternehmen sowohl ein Data Warehouse als auch einen Data Lake, weil diese auf unterschiedliche Bedürfnisse und Anwendungsfälle abzielen.

Ein Data Warehouse ist eine Datenbank, die für die Analyse relationaler Daten aus Transaktionssystemen und Geschäftsanwendungen optimiert ist. Die Datenstruktur und das Schema werden im Voraus definiert und für schnelle SQL-Abfragen optimiert, deren Ergebnisse in der Regel für operative Berichte und Analysen genutzt werden. Die Daten werden bereinigt, angereichert und umgewandelt, so dass sie als „Single Source of Truth“ fungieren können, der die Benutzer vertrauen können.

Lesen Sie über Data Warehouses »

Ein Data Lake ist anders, denn er speichert relationale Daten aus Geschäftsanwendungen und nicht-relationale Daten aus mobilen Apps, IoT-Geräten und sozialen Medien. Die Struktur der Daten oder des Schemas wird bei der Datenerfassung nicht definiert. Das bedeutet, dass Sie alle Ihre Daten speichern können, ohne Sie sorgfältig planen oder wissen zu müssen, auf welche Fragen Sie in Zukunft Antworten benötigen. Anhand verschiedener Arten von Datenanalysen wie SQL-Abfragen, Big-Data-Analysen, Volltextsuche, Echtzeitanalysen und Machine Learning lassen sich Erkenntnisse gewinnen.

Da Unternehmen mit Data Warehouses die Vorteile von Data Lakes erkennen, entwickeln sie ihr Warehouse weiter, um Data Lakes einzubeziehen und verschiedene Abfragemöglichkeiten, Data-Science-Anwendungsfälle und erweiterte Funktionen zum Entdecken neuer Informationsmodelle zu ermöglichen. Gartner bezeichnet diese Entwicklung als „Data Management Solution for Analytics“ oder „DMSA“.

Einen detaillierten Vergleich zwischen Data Lakes und Data Warehouses finden Sie auf unserer speziellen Vergleichsseite für Data Lakes und Data Warehouses.

Was ist der Wert von Data Lakes?

Die Möglichkeit, in kürzerer Zeit mehr Daten aus mehr Quellen zu nutzen und die Benutzer in die Lage zu versetzen, zusammenzuarbeiten und die Daten auf verschiedene Weise zu analysieren, führt zu einer besseren und schnelleren Entscheidungsfindung. Beispiele dafür, wo Data Lakes einen zusätzlichen Nutzen bieten, sind:

Vebesserte Kundeninteraktionen

Ein Data Lake kann Kundendaten aus einer CRM-Plattform mit Social-Media-Analysen, einer Marketingplattform mit Kaufverlauf und Vorfallstickets kombinieren, damit das Unternehmen die profitabelste Kundschaft, die Ursache für Kundenabwanderung und die Werbeaktionen oder Belohnungen, die die Loyalität erhöhen, erkennen kann.

Verbesserung der F&E-Innovationsentscheidungen

Ein Data Lake kann Ihren F&E-Teams das Testen ihrer Hypothesen, Verfeinern von Annahmen und Auswerten von Ergebnissen erleichtern – z. B. bei der Auswahl der richtigen Materialien für Ihr Produktdesign, die eine schnellere Leistung ergeben, bei der Genomforschung, die wirksamere Medikamente hervorbringt, oder beim Verständnis der Bereitschaft von Kunden, für verschiedene Eigenschaften zu zahlen.

Erhöhen der betrieblichen Effizienz

Durch das Internet der Dinge (Internet of Things, IoT) bieten sich mehr Möglichkeiten zur Erfassung von Daten über Prozesse wie die Fertigung, wobei die Daten in Echtzeit von über das Internet verbundenen Geräten kommen. Ein Data Lake erleichtert das Speichern und Ausführen von Analysen auf maschinell erzeugten IoT-Daten, wodurch sich Möglichkeiten zur Senkung der Betriebskosten und zur Steigerung der Qualität ermitteln lassen.

Lesen Sie mehr zum Internet der Dinge (IoT) »

Was sind die Herausforderungen von Data Lakes?

Die größte Herausforderung bei einer Data-Lake-Architektur besteht darin, dass Rohdaten ohne Überblick über den Inhalt gespeichert werden. Damit ein Data Lake Daten nutzbar machen kann, muss er über definierte Mechanismen zur Katalogisierung und Sicherung von Daten verfügen. Ohne diese Elemente kann man keine Daten finden oder ihnen vertrauen, was zu einem „Datensumpf“ führt. Um den Anforderungen eines größeren Personenkreises gerecht zu werden, müssen Data Lakes über Governance, semantische Konsistenz und Zugriffskontrollen verfügen.

Wie stellt man Data Lakes in der Cloud bereit?

Data Lakes sind ein idealer Workload für die Bereitstellung in der Cloud, da die Cloud Leistung, Skalierbarkeit, Zuverlässigkeit, Verfügbarkeit, eine Vielzahl von Analyse-Engines und enorme Größenvorteile bietet. 451 Research ergab, dass 66 % der Befragten angeben, dass die Public Cloud die Objektspeicherumgebung ist, die für ihre primäre Data-Lake-Umgebung verwendet wird oder dass dies in Planung ist. Die wichtigsten Gründe, warum Kunden die Cloud als vorteilhaft für Data Lakes wahrnehmen, sind bessere Sicherheit, kürzere Bereitstellungszeiten, bessere Verfügbarkeit, häufigere Aktualisierungen von Features/Funktionalitäten, größere Elastizität, größere geografische Abdeckung und an die tatsächliche Nutzung gebundene Kosten.

Wie kann AWS Ihre Anforderungen an Data Lakes unterstützen?

AWS stellt das sicherste, skalierbarste, umfassendste und kostengünstigste Service-Portfolio bereit, das Kunden nutzen können, um ihren Data Lake in der Cloud zu erstellen und alle ihre Daten, darunter auch Daten auf IoT-Geräten, mit zahlreichen analytischen Ansätzen, z. B. Machine Learning, zu analysieren. Infolgedessen betreiben mehr Unternehmen ihre Data Lakes und Analysen auf AWS als irgendwo sonst. Kunden wie NETFLIX, Zillow, NASDAQ, Yelp, iRobot und FINRA vertrauen bei der Ausführung ihrer geschäftskritischen Analyse-Workloads auf AWS.

Beginnen Sie mit Data Lakes in AWS, indem Sie noch heute ein Konto erstellen.

Nächste Schritte in AWS

Zusätzliche produktbezogene Ressourcen ansehen

Kostenlose Angebote für Analytics-Services in der Cloud anzeigen

Ein kostenloses Konto erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren

Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden

Wählen Sie Ihre Cookie-Einstellungen aus

Was ist ein Data Lake?

Was ist ein Data Lake?

Warum brauchen Sie einen Data Lake?

Was sind die wichtigen Elemente einer Data-Lake- und Analyse-Lösung?

Datenübermittlung

Sichere Speicherung und Katalogisierung von Daten

Analytik

Machine Learning

Was ist der Unterschied zwischen einem Data Warehouse und einem Data Lake?

Was ist der Wert von Data Lakes?

Vebesserte Kundeninteraktionen

Verbesserung der F&E-Innovationsentscheidungen

Erhöhen der betrieblichen Effizienz

Was sind die Herausforderungen von Data Lakes?

Wie stellt man Data Lakes in der Cloud bereit?

Wie kann AWS Ihre Anforderungen an Data Lakes unterstützen?

Nächste Schritte in AWS

Ende des Supports für Internet Explorer