Was ist ein Data Lake?
Ein Data Lake ist ein zentrales Repository, in dem Sie alle strukturierten und unstrukturierten Daten in beliebigem Umfang speichern können. Sie können Ihre Daten im Ist-Zustand speichern, ohne sie erst strukturieren zu müssen, und können verschiedene Arten von Analytik durchführen – von Dashboards und Visualisierungen bis hin zu Big-Data-Verarbeitung, Echtzeitanalytik und Machine Learning – und damit bessere Entscheidungen treffen.
Warum brauchen Sie einen Data Lake?
Unternehmen, die aus ihren Daten erfolgreich einen Unternehmenswert gewinnen, haben ihren Mitbewerber etwas voraus. Einer Aberdeen-Umfrage zufolge konnten Unternehmen, die Data Lake implementierten, ein um 9 % höheres organisches Umsatzwachstum verzeichnen als ähnliche Unternehmen. Diese führenden Unternehmen konnten neue Arten von Analysen wie Machine Learning über im Data Lake gespeicherte neue Quellen wie Protokolldateien, Daten aus Click-Streams, sozialen Medien und mit dem Internet verbundenen Geräten durchführen. Auf diese Weise konnten sie Chancen für geschäftliches Wachstum schneller erkennen und nutzen – durch Gewinnung und Bindung von Kunden, Steigerung der Produktivität, proaktive Wartung von Geräten und fundierte Entscheidungen.
Was sind die wichtigen Elemente einer Data-Lake- und Analyse-Lösung?
Bei der Entwicklung von Data Lakes und einer Analytikplattform müssen Unternehmen eine Reihe zentraler Funktionen berücksichtigen:
Datenübermittlung
Data Lakes ermöglichen den Import beliebiger Datenmengen, die in Echtzeit anfallen können. Die Daten werden aus verschiedenen Quellen erfasst und in ihrem ursprünglichen Format in den Data Lake übertragen. Dieser Prozess ermöglicht die Skalierung auf Daten beliebiger Größe und spart gleichzeitig Zeit bei der Definition von Datenstrukturen, Schemata und Transformationen.
Sichere Speicherung und Katalogisierung von Daten
In Data Lakes können Sie relationale Daten wie Betriebsdatenbanken und Daten aus Geschäftsanwendungen sowie nicht-relationale Daten aus mobilen Anwendungen, IoT-Geräten und sozialen Medien speichern. Durch Crawling, Katalogisierung und Indexierung von Daten können Sie außerdem nachvollziehen, welche Daten sich im Data Lake befinden. Schließlich müssen die Daten gesichert werden, um zu gewährleisten, dass Ihre Datenbestände geschützt sind.
Analytik
Data Lakes erlauben verschiedenen Rollen in Ihrem Unternehmen wie Datenwissenschaftlern, Datenentwicklern und Geschäftsanalysten den Zugriff auf Daten mit Analyse-Tools und Frameworks ihrer Wahl. Dazu gehören Open-Source-Frameworks wie Apache Hadoop, Presto und Apache Spark sowie kommerzielle Angebote von Data-Warehouse- und Business-Intelligence-Anbietern. Data Lakes ermöglichen Ihnen die Durchführung von Analysen, ohne dass Sie Ihre Daten in ein separates Analyse-System bringen müssen.
Lesen Sie über Datenanalysen »
Machine Learning
Data Lakes ermöglichen Unternehmen, verschiedene Arten von Erkenntnissen zu erzeugen, wie Berichte über historische Daten, und Machine Learning, bei dem Modelle erstellt werden, um wahrscheinliche Ergebnisse vorherzusagen, sowie das Vorschlagen einer Reihe vorgegebener Maßnahmen zum Erzielen des optimalen Ergebnisses.
Was ist der Unterschied zwischen einem Data Warehouse und einem Data Lake?
Je nach Anforderungen benötigt ein typisches Unternehmen sowohl ein Data Warehouse als auch einen Data Lake, weil diese auf unterschiedliche Bedürfnisse und Anwendungsfälle abzielen.
Ein Data Warehouse ist eine Datenbank, die für die Analyse relationaler Daten aus Transaktionssystemen und Geschäftsanwendungen optimiert ist. Die Datenstruktur und das Schema werden im Voraus definiert und für schnelle SQL-Abfragen optimiert, deren Ergebnisse in der Regel für operative Berichte und Analysen genutzt werden. Die Daten werden bereinigt, angereichert und umgewandelt, so dass sie als „Single Source of Truth“ fungieren können, der die Benutzer vertrauen können.
Lesen Sie über Data Warehouses »
Ein Data Lake ist anders, denn er speichert relationale Daten aus Geschäftsanwendungen und nicht-relationale Daten aus mobilen Apps, IoT-Geräten und sozialen Medien. Die Struktur der Daten oder des Schemas wird bei der Datenerfassung nicht definiert. Das bedeutet, dass Sie alle Ihre Daten speichern können, ohne Sie sorgfältig planen oder wissen zu müssen, auf welche Fragen Sie in Zukunft Antworten benötigen. Anhand verschiedener Arten von Datenanalysen wie SQL-Abfragen, Big-Data-Analysen, Volltextsuche, Echtzeitanalysen und Machine Learning lassen sich Erkenntnisse gewinnen.
Da Unternehmen mit Data Warehouses die Vorteile von Data Lakes erkennen, entwickeln sie ihr Warehouse weiter, um Data Lakes einzubeziehen und verschiedene Abfragemöglichkeiten, Data-Science-Anwendungsfälle und erweiterte Funktionen zum Entdecken neuer Informationsmodelle zu ermöglichen. Gartner bezeichnet diese Entwicklung als „Data Management Solution for Analytics“ oder „DMSA“.
Einen detaillierten Vergleich zwischen Data Lakes und Data Warehouses finden Sie auf unserer speziellen Vergleichsseite für Data Lakes und Data Warehouses.
Was ist der Wert von Data Lakes?
Die Möglichkeit, in kürzerer Zeit mehr Daten aus mehr Quellen zu nutzen und die Benutzer in die Lage zu versetzen, zusammenzuarbeiten und die Daten auf verschiedene Weise zu analysieren, führt zu einer besseren und schnelleren Entscheidungsfindung. Beispiele dafür, wo Data Lakes einen zusätzlichen Nutzen bieten, sind:
Vebesserte Kundeninteraktionen
Ein Data Lake kann Kundendaten aus einer CRM-Plattform mit Social-Media-Analysen, einer Marketingplattform mit Kaufverlauf und Vorfallstickets kombinieren, damit das Unternehmen die profitabelste Kundschaft, die Ursache für Kundenabwanderung und die Werbeaktionen oder Belohnungen, die die Loyalität erhöhen, erkennen kann.
Verbesserung der F&E-Innovationsentscheidungen
Ein Data Lake kann Ihren F&E-Teams das Testen ihrer Hypothesen, Verfeinern von Annahmen und Auswerten von Ergebnissen erleichtern – z. B. bei der Auswahl der richtigen Materialien für Ihr Produktdesign, die eine schnellere Leistung ergeben, bei der Genomforschung, die wirksamere Medikamente hervorbringt, oder beim Verständnis der Bereitschaft von Kunden, für verschiedene Eigenschaften zu zahlen.
Erhöhen der betrieblichen Effizienz
Durch das Internet der Dinge (Internet of Things, IoT) bieten sich mehr Möglichkeiten zur Erfassung von Daten über Prozesse wie die Fertigung, wobei die Daten in Echtzeit von über das Internet verbundenen Geräten kommen. Ein Data Lake erleichtert das Speichern und Ausführen von Analysen auf maschinell erzeugten IoT-Daten, wodurch sich Möglichkeiten zur Senkung der Betriebskosten und zur Steigerung der Qualität ermitteln lassen.
Was sind die Herausforderungen von Data Lakes?
Die größte Herausforderung bei einer Data-Lake-Architektur besteht darin, dass Rohdaten ohne Überblick über den Inhalt gespeichert werden. Damit ein Data Lake Daten nutzbar machen kann, muss er über definierte Mechanismen zur Katalogisierung und Sicherung von Daten verfügen. Ohne diese Elemente kann man keine Daten finden oder ihnen vertrauen, was zu einem „Datensumpf“ führt. Um den Anforderungen eines größeren Personenkreises gerecht zu werden, müssen Data Lakes über Governance, semantische Konsistenz und Zugriffskontrollen verfügen.
Wie stellt man Data Lakes in der Cloud bereit?
Data Lakes sind ein idealer Workload für die Bereitstellung in der Cloud, da die Cloud Leistung, Skalierbarkeit, Zuverlässigkeit, Verfügbarkeit, eine Vielzahl von Analyse-Engines und enorme Größenvorteile bietet. Eine ESG-Studie ergab, dass 39 % der Befragten die Cloud als primäre Bereitstellung für Analysen in Betracht ziehen, 41 % für Data Warehouses und 43 % für Spark. Die wichtigsten Gründe, warum Kunden die Cloud als vorteilhaft für Data Lakes wahrnehmen, sind bessere Sicherheit, kürzere Bereitstellungszeiten, bessere Verfügbarkeit, häufigere Aktualisierungen von Features/Funktionalitäten, größere Elastizität, größere geografische Abdeckung und an die tatsächliche Nutzung gebundene Kosten.
Wie kann AWS Ihre Anforderungen an Data Lakes unterstützen?
AWS stellt das sicherste, skalierbarste, umfassendste und kostengünstigste Service-Portfolio bereit, das Kunden nutzen können, um ihren Data Lake in der Cloud zu erstellen und alle ihre Daten, darunter auch Daten auf IoT-Geräten, mit zahlreichen analytischen Ansätzen, z. B. Machine Learning, zu analysieren. Infolgedessen betreiben mehr Unternehmen ihre Data Lakes und Analysen auf AWS als irgendwo sonst. Kunden wie NETFLIX, Zillow, NASDAQ, Yelp, iRobot und FINRA vertrauen bei der Ausführung ihrer geschäftskritischen Analyse-Workloads auf AWS.
Beginnen Sie mit Data Lakes in AWS, indem Sie noch heute ein Konto erstellen.
Nächste Schritte in AWS
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Starten Sie mit der Entwicklung in der AWS-Managementkonsole.