Was ist ein Daten-Mesh?
Ein Daten-Mesh ist ein architektonischer Rahmen, der die Herausforderungen der erweiterten Datensicherheit durch verteilte, dezentralisierte Eigentümerschaft löst. Unternehmen verfügen über mehrere Datenquellen aus verschiedenen Geschäftsbereichen, die für die Analytik integriert werden müssen. Eine Daten-Mesh-Architektur führt die unterschiedlichen Datenquellen effektiv zusammen und verknüpft sie durch zentral verwaltete Richtlinien für die gemeinsame Nutzung von Daten und Governance. Geschäftsfunktionen können die Kontrolle darüber behalten, wie auf gemeinsam genutzte Daten zugegriffen wird, wer darauf zugreift und in welchen Formaten dies geschieht. Ein Daten-Mesh erhöht die Komplexität der Architektur, bringt aber auch Effizienz, indem es den Datenzugriff, die Sicherheit und die Skalierbarkeit verbessert.
Welche Herausforderungen kann ein Daten-Mesh bewältigen?
Unternehmen haben Zugriff auf eine immer größere Menge an Daten. Sie müssen jedoch diese Daten sortieren, filtern, verarbeiten und analysieren, um daraus praktische Nutzen zu erzielen. Unternehmen engagieren oft ein zentralen Team von Ingenieuren und Wissenschaftlern für die Datenverwaltung. Das Team nutzt eine zentralisierte Datenplattform für die folgenden Zwecke:
- Erfassung von Daten aus sämtlichen Geschäftseinheiten (oder Geschäftsbereichen).
- Umwandeln der Daten in ein konsistentes, zuverlässiges und nützliches Format. Zum Beispiel könnte das Team sicherstellen, dass sämtliche Datumsangaben im System in einem einheitlichen Format sind, oder tägliche Berichte zusammenfassen.
- Vorbereiten der Daten für Datenverbraucher, wie z. B. durch Erstellen von Berichten für Menschen oder XML-Dateien für Anwendungen. Lesen Sie über XML »
Mit dem steigenden Datenvolumen erhöhen sich auch die Kosten für Unternehmen, um die gleiche Agilität wie bislang zu bewahren. Das monolithische System ist aus den folgenden Gründen schwierig zu skalieren.
Ein Team wie ein Datensilo
Das zentrale Datenteam verfügt über spezialisierte Datenwissenschaftler und Ingenieure, diese haben jedoch nur begrenztes Wissen über den Geschäftsbereich. Sie müssen dennoch Daten für eine Reihe von betrieblichen und analytischen Anforderungen bereitstellen, ohne ein klares Verständnis der Motivation zu haben.
Langsame Reaktion auf Änderungen
Dateningenieure implementieren typischerweise Pipelines, die Daten erfassen und sie in mehreren Schritten Umwandeln, bevor sie in einem zentralen Data Lake gespeichert werden. Jede angeforderte Änderung benötigt eine Modifizierung der gesamten Pipeline. Das zentrale Team muss diese Änderungen vornehmen, während sie in Konflikt stehende Prioritäten verwalten, ohne dabei über umfangreiches Wissen zum Geschäftsbereich zu verfügen.
Reduzierte Genauigkeit
Geschäftseinheiten stehen nicht in Verbindung mit den Datenverbrauchern und den zentralen Datenteams. Es fehlt ihnen daher die richtige Motivation, sinnvolle, korrekte und nützliche Daten bereitzustellen.
Welche Vorteile bietet ein Daten-Mesh?
Mit der Zeit könnte eine Datenplattform-Architektur zu frustrierten Datenverbrauchern, entkoppelten Datenproduzenten und einem überlasteten Datenverwaltungs-Team führen. Eine Daten-Mesh-Architektur versucht, diese Herausforderungen zu lösen, indem es den Geschäftseinheiten ein hohes Grad an Autonomie und Eigentümerschaft über ihre Datendomäne verleiht. Im Folgenden sind die Vorteile der Daten-Mesh-Architektur aufgelistet.
Demokratische Datenverarbeitung
Ein Daten-Mesh überträgt die Datenkontrolle an Domänenexperten, die innerhalb eines dezentralisierten Governance-Frameworks sinnvolle Datenprodukte erstellen. Datenverbraucher stellen Anforderungen für Zugriff auf die Datenprodukte sowie Genehmigungen und Änderungen auch direkt an die Daten-Eigentümer. Dadurch erhält jeder schneller Zugriff auf relevante Daten, und ein schnellerer Zugriff verbessert die geschäftliche Agilität.
Erhöhte Flexibilität
Eine zentralisierte Dateninfrastruktur ist komplexer und die Wartung und Anpassung erfordert Zusammenarbeit. Das Daten-Mesh hingegen verlagert die technische Implementierung des zentralen Systems an die Geschäftsbereiche. Dies entfernt die zentralen Daten-Pipelines und reduziert betriebliche Engpässe und technische Belastungen im System.
Kosteneffizienz
Die verteilte Datenarchitektur vermeidet die Batch-Verarbeitung und fördert stattdessen die Übernahme von Daten-Streaming in Echtzeit. Dies liefert eine verbesserte Übersicht der Ressourcen-Zuweisung und Speicherkosten, was wiederum die Budgetplanung verbessert und Kosten reduziert.
Verbesserte Datenermittlung
Ein Daten-Mesh-Modell verhindert, dass sich um zentrale Engineering-Teams herum Datensilos bilden. Es reduziert auch das Risiko, das Datenbestände in unterschiedlichen Systemen verschiedener Geschäftsbereiche isoliert werden. Stattdessen werden die verfügbaren Daten im Unternehmen vom zentralen Datenverwaltungs-Framework verwaltet und aufgezeichnet. Zum Beispiel registrieren Teams aus den Geschäftsbereichen ihre Daten automatisch in einer zentralen Registry.
Erhöhte Sicherheit und Compliance
Daten-Mesh-Architekturen erzwingen Datensicherheits-Richtlinien sowohl innerhalb als auch zwischen Domänen. Sie bieten zentralisierte Überwachung und Prüfung des Prozesses der Datenfreigabe. Zum Beispiel können Sie Anforderungen für Protokoll- und Nachverfolgungs-Daten für alle Domänen erzwingen. Ihre Prüfer können die Nutzung und die Häufigkeit des Zugriffs auf Daten beobachten.
Was sind die Anwendungsfälle für ein Daten-Mesh?
Ein Daten-Mesh kann alle Arten von Big-Data-Anwendungsfällen unterstützen. Im Folgenden geben wir einige Beispiele.
Datenanalytik
Mehrfache Geschäftsfunktionen stellen zuverlässige, hochwertige Daten für Ihre Datenanalytik-Workloads bereit. Ihre Teams können die Daten nutzen, um benutzerdefinierte Business-Intelligence-Dashboards zu erstellen, welche die Projektleistung, Marketing-Ergebnisse und Betriebsdaten anzeigen. Datenwissenschaftler können Machine-Learning-Projekte beschleunigen, um die Vorteile der Automatisierung vollständig auszunutzen.
Kundenpflege
Ein Daten-Mesh stellt für Support- und Marketing-Teams eine umfassende Ansicht der Kunden bereit. Zum Beispiel können Support-Teams relevante Daten abrufen und die durchschnittliche Bearbeitungszeit reduzieren, während Marketing-Teams sicherstellen können, dass sie in Ihren Kampagnen die richtige Demografie anvisieren.
Regulatorische Berichterstellung
Der Bedarf an Volumen, Zeitlosigkeit und Genauigkeit bei Daten, die gleichzeitig den regulatorischen Vorgaben entsprechen, stellt sowohl Aufsichtsbehörden als auch die regulierten Unternehmen vor Herausforderungen. Alle Parteien können von der Anwendung von Daten-Mesh-Technologien profitieren. Zum Beispiel können Unternehmen Berichterstellungs-Daten in ein Daten-Mesh übertragen, das von Aufsichtsbehörden zentral verwaltet wird.
Drittanbieterdaten
Sie können Daten-Mesh-Technologie bei Anwendungsfällen einsetzen, die öffentliche und Drittabieter-Datensätze erfordern. Sie können externe Daten als separate Domäne behandeln und sie im Mesh implementieren, um die Übereinstimmung mit internen Datensätzen sicherzustellen.
Was sind die Prinzipien der Daten-Mesh-Architektur?
Ihr Unternehmen muss für den Paradigmenwechsel hin zum Daten-Mesh die folgenden vier Prinzipien übernehmen.
Verteilte, Domänen-angetriebene Architektur
Der Ansatz des Daten-Mesh schlägt vor, dass die Verantwortung für die Datenverwaltung um die Geschäftsfunktionen bzw. Geschäftsbereiche herum organisiert wird. Die Teams aus den jeweiligen Geschäftsbereichen sind für die Erfassung, Umwandlung und Bereitstellung von Daten verantwortlich, die sich auf ihre Geschäftsfunktionen beziehen bzw. von diesen erstellt wurden. Anstatt dass Domänendaten von Datenquellen in eine zentrale Datenplattform fließen, hostet und serviert ein spezifisches Team seine jeweiligen Datensätze in einer einfach verbrauchbaren Weise. Zum Beispiel könnte ein Einzelhändler eine Bekleidungs-Domäne mit Daten zu seinen Bekleidungs-Produkten haben und eine Domäne für Website-Verhalten, die Analytikdaten zum Besucherverhalten enthält.
Daten als Produkt
Um erfolgreich zu sein, erfordert die Implementierung eines Daten-Mesh, dass jedes Geschäftsbereich-Team die Datensätze, die es bereitstellt, als Produkt betrachtet. Sie müssen ihre Datenbestände als ihr Produkt betrachten, und alle anderen Geschäfts- und Datenteams des Unternehmens als ihre Kunden.
Um das beste Benutzererlebnis zu gewährleisten, sollten die Domänen-Datenprodukte die folgenden grundlegenden Eigenschaften haben.
Auffindbar
Jedes Datenprodukt wird zur einfachen Auffindbarkeit in einem zentralisierten Datenkatalog registriert.
Adressierbar
Jedes Datenprodukt sollte eine eindeutige Adresse haben, damit Datenverbraucher programmgesteuert darauf zugreifen können. Diese Adresse entspricht typischerweise den zentral vorgegebenen Benennungs-Standards innerhalb des Unternehmens.
Zuverlässig
Datenprodukte definieren zulässige Service-Level-Ziele hinsichtlich der Genauigkeit, mit der die Daten die Realität der Ereignisse widerspiegeln, die sie dokumentieren. Zum Beispiel könnte die Auftrags-Domäne Daten veröffentlichen, nachdem die Adresse und Telefonnummer eines Kunden verifiziert wurden.
Selbstbeschreibend
Alle Datenprodukte haben eine gut-beschriebene Syntax und Semantik, die den vom Unternehmen vorgegebenen Benennungs-Standards entspricht.
Self-Serve-Dateninfrastruktur
Eine verteilte Datenarchitektur erfordert, dass jede Domäne seine eigene Daten-Pipeline einrichtet, um die eigenen Datenprodukte zu bereinigen, zu filtern und zu laden. Ein Daten-Mesh führt das Konzept einer Self-Serve-Datenplattform ein, um wiederholte Arbeitsschritte zu vermeiden. Dateningenieure richten Technologien ein, damit alle Geschäftseinheiten ihre Datenprodukte verarbeiten und speichern können. Die Self-Serve-Infrastruktur ermöglicht somit eine Aufteilung der Verantwortung. Dateningenieur-Teams verwalten die Technologie, während Geschäftsteams die Daten verwalten.
Daten-Governance im Verbund
Eine Daten-Mesh-Architektur implementiert Sicherheit als eine geteilte Verantwortung innerhalb des Unternehmens. Die Geschäftsleitung bestimmt globale Standards und Richtlinien, die über Domänen hinweg angewendet werden können. Gleichzeitig ermöglicht die dezentralisierte Datenarchitektur ein hohes Maß an Autonomie bezüglich der Implementierung von Standards und Richtlinien innerhalb der Domäne.
Wie können Sie in Ihrem Unternehmen ein Daten-Mesh entwickeln?
Ein Daten-Mesh ist ein aufkommendes Konzept, das erst nach der Pandemie begann, sich durchzusetzen. Unternehmen experimentieren mit verschiedenen Technologien während sie versuchen, ein Daten-Mesh für spezifische Anwendungsfälle zu entwickeln. Die organisationsumfassende Übernahme eines Unternehmens-Daten-Mesh ist jedoch noch sehr selten. Es gibt keinen eindeutigen Weg der Implementierung eines Daten-Mesh, doch hier sind einige Vorschläge.
Ihre vorhandenen Daten analysieren
Bevor Sie ein Daten-Mesh entwickeln, müssen Sie Ihre vorhandenen Daten katalogisieren und relevante Geschäftsbereiche identifizieren. Der Schlüssel zur wirksamen Korrelation von Daten zwischen Domänen liegt darin, bestimmte Harmonisierungs-Regeln zu befolgen. Zum Beispiel werden Sie globale Standards für die Feldtyp-Formatierung, Metadaten-Felder und Adressen-Standards für Datenprodukte definieren müssen.
Globale Richtlinien für Daten-Governance implementieren
Daten-Governance im Verbund erfordert, dass Ihr zentrales IT-Team Standards für Berichterstattung, Authentifizierung und Compliance für das Daten-Mesh identifiziert. Sie können auch fein-abgestufte Zugriffskontrollen definieren, die Produkteigentümer anwenden, wenn sie ihre Datensätze hosten. Während Datenproduzenten die Datenqualität definieren und messen, helfen ihnen zentrale Governance-Richtlinien bei der Entscheidungsfindung.
Ihre Self-Serve-Datenplattform erstellen
Ihre Self-Serve-Datenplattform sollte generisch sein, damit jeder darauf neue Domänen-Datenprodukte entwickeln kann. Sie sollte auch die zugrunde liegende technische Komplexität verbergen und Infrastruktur-Komponenten zur Selbstbedienung bereitstellen. Hier sind einige Funktionen, die enthalten sein sollten:
- Datenverschlüsselung
- Datenprodukt-Schema
- Governance und Zugriffskontrolle
- Auffindung von Datenprodukten, z. B. Registrierung im Katalog oder Veröffentlichung
- Protokollierung und Überwachung von Datenprodukten
- Caching für verbesserte Leistung
Sie können auch Automatisierung entwickeln, z. B. Konfigurationen und Skripts, um die Anlaufzeiten zur Erstellung von Datenprodukten zu beschleunigen.
Die richtigen Technologien auswählen
Ihre bestehenden, herkömmlichen Speichersysteme wie Data Warehouses und Data Lakes können auch Ihr Daten-Mesh antreiben. Sie müssen nur ihren Einsatz von monolithischen Systemen weg zu mehrfach dezentralisierten Daten-Repositorys verlagern. Ein Daten-Mesh ermöglicht auch die Übernahme von Cloud-Plattformen und Cloud-zentrierten Technologien. Eine Cloud-Infrastruktur reduziert die Betriebskosten und den Aufwand der Entwicklung eines Daten-Mesh. Sie sollten einen Cloud-Anbieter mit reichhaltigen Datenverwaltungs-Services auswählen, um Ihre Daten-Mesh-Architektur zu unterstützen. Sie müssen auch Datenintegrations-Anforderungen für Legacy-Systeme berücksichtigen.
Einen unternehmensweiten Kulturwandel starten
Heute verfügen wir über die erforderliche Technologie und Tools, um ganz einfach ein Daten-Mesh mit mehrfachen Datenprodukten zu entwickeln. Der Wandel zur Vereinheitlichung von Batch und Streaming ist nun einfacher denn je mit Tools wie Amazon EMR. Um Ihr Daten-Mesh jedoch über kleine Projekt hinaus zu skalieren bedarf es einen Paradigmenwechsel weg von den zentralisierten Architekturen der Vergangenheit. Es bedarf einer neuen Sprache, die Folgendes betont:
- Datenermittlung und -nutzung über Extrahierung und Laden
- Datenverarbeitung in Echtzeit über großvolumige Batch-Verarbeitung zu einem späteren Zeitpunkt
- Verteilte Eigentümerschaft von Datenprodukten über zentrale Datenplattform-Architektur
Derzeit werden Architektur-Entscheidungen oft von der Datentechnologie angetrieben. Bei einem Daten-Mesh wird dieser Fluß umgekehrt und die Domänen-Datenprodukte werden in den Mittelpunkt gestellt, sodass diese stattdessen Technologie-Entscheidungen antreiben.
Was ist der Unterschied zwischen einem Daten-Mesh und einem Data Lake?
Ein Data Lake ist ein Repository, in dem Sie alle Ihre strukturierten und unstrukturierten Daten in jedem Maßstab und ohne Vorverarbeitung speichern können. In zentralisierten Datenplattformen bildet der Data Lake die Kerntechnologie zum Speichern von Daten aus allen möglichen Quellen.
Ein Daten-Mesh ist ein Paradigma zur Datenverwaltung, das Data Lakes anders einsetzt. Ein Data Lake steht nicht mehr im Mittelpunkt der gesamten Architektur. Stattdessen können Sie den Data Lake verwenden, um Datenprodukte zu implementieren, oder ihn als Teil der Self-Serve-Infrastruktur einsetzen.
Was ist der Unterschied zwischen einem Daten-Mesh und einem Data Fabric?
Ein Data Fabric ist eine weitere moderne Architektur, die Machine Learning und Automatisierung für die End-to-End-Integration von diversen Cloud-Umgebungen und Daten-Pipelines nutzt. Sie können es sich als eine Technologieschicht vorstellen, die über Ihrer zugrunde liegenden Infrastruktur liegt und Daten im Zusammenhang integriert und an nicht-technische Benutzer präsentiert. Zum Beispiel nutzen Entscheidungsträger das Data Fabric zum Anzeigen sämtlicher Daten an einem Ort und zum Erkennen von Zusammenhängen zwischen ungleichen Datensätzen.
Sowohl ein Data Fabric und ein Daten-Mesh haben dasselbe Ziel – einheitliche und effektive Datenverwaltung. Nehmen wir beispielsweise an, Sie haben einen zentralen Data Lake und nutzen AWS-Services zur Datenerfassung. Gleichzeitig haben Sie eine Legacy-Infrastruktur für Datentransformationen. Ihr Data Fabric integriert beide Systeme und präsentiert eine einheitliche Ansicht, ohne die bestehende Pipeline zu ändern.
Ein Data Fabric nutzt somit Technologie, um mit Ihrer bestehenden Infrastruktur zu arbeiten. Bei der Implementierung eines Daten-Mesh hingegen müssen Sie die zugrunde liegende Infrastruktur selbst ändern. Sie müssen über Ihre Geschäftsbereiche hinweg das Push-and-Ingest-Modell Ihrer Datenverwaltung in ein Serve-and-Pull-Modell ändern.
Wie können wir Ihre Daten-Mesh-Architektur unterstützen?
Moderne Datenarchitektur in AWS führt mehrere Services an, die Sie zum Implementieren eines Daten-Mesh sowie anderer modernen Architekturen in Ihrem Unternehmen nutzen können. Sie können Datenprodukte und Daten-Mesh-Infrastruktur zu geringen Kosten entwickeln, ohne dabei die Leistung zu beeinträchtigen.
Hier sind Beispiele von AWS-Services, die Sie verwenden können:
- Mit AWS Lake Formation können Sie Daten-Mesh-Muster in großem Maß mit Tag-basierter Steuerung entwickeln
- Mit AWS Data Exchange können Sie Drittanbieterdaten in Ihr Daten-Mesh integrieren
- Mit AWS Glue können Sie Datenprodukte freigeben, hosten und katalogisieren
Beginnen Sie mit Ihrem Daten-Mesh in AWS, indem Sie noch heute ein kostenloses Konto erstellen.
Data Mesh Die nächsten Schritte
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Starten Sie mit der Entwicklung in der AWS-Managementkonsole.