Was ist Datenaufbereitung?
Bei der Datenaufbereitung werden die Rohdaten so aufbereitet, dass sie für die weitere Verarbeitung und Analyse geeignet sind. Zu den wichtigsten Schritten gehören das Sammeln, Bereinigen und Kennzeichnen von Rohdaten in einer Form, die für Machine Learning (ML)-Algorithmen geeignet ist, sowie das anschließende Erkunden und Visualisieren der Daten. Die Datenaufbereitung kann bis zu 80 % der Zeit in Anspruch nehmen, die für ein ML-Projekt aufgewendet wird. Die Verwendung spezieller Datenaufbereitungstools ist wichtig, um diesen Prozess zu optimieren.
Was ist die Verbindung zwischen ML und Datenaufbereitung?
Daten fließen durch Unternehmen wie nie zuvor, von Smartphones bis hin zu intelligenten Städten, sowohl in Form von strukturierten Daten als auch von unstrukturierten Daten (Bilder, Dokumente, Geodaten und mehr). Unstrukturierte Daten machen heutzutage 80 % der Daten aus. ML kann nicht nur strukturierte Daten analysieren, sondern auch Muster in unstrukturierten Daten entdecken. ML ist der Prozess, bei dem ein Computer lernt, Daten zu interpretieren und auf der Grundlage dieser Daten Entscheidungen zu treffen und Empfehlungen abzugeben. Während des Lernprozesses – und später, wenn sie zur Erstellung von Prognosen verwendet werden – können falsche, verzerrte oder unvollständige Daten zu ungenauen Prognosen führen.
Warum ist die Datenaufbereitung für ML wichtig?
Daten treiben ML an. Es ist zwar schwierig, diese Daten zu nutzen, um Ihr Unternehmen neu zu erfinden, aber es ist unerlässlich, um jetzt und in Zukunft relevant zu bleiben. Nur die am besten Informierten überleben. Diejenigen, die ihre Daten nutzen können, um bessere und fundiertere Entscheidungen zu treffen, reagieren schneller auf Unvorhergesehenes und entdecken neue Möglichkeiten. Dieser langwierige, aber wichtige Prozess ist eine Voraussetzung für die Erstellung präziser ML-Modelle und -Analysen und stellt den zeitaufwändigsten Teil eines ML-Projekts dar. Um diesen Zeitaufwand zu minimieren, können Datenwissenschaftler Tools verwenden, die die Datenaufbereitung auf verschiedene Weise automatisieren.
Wie bereiten Sie Ihre Daten auf?
Die Datenaufbereitung erfolgt in einer Reihe von Schritten, die mit der Erfassung der richtigen Daten beginnen, gefolgt von der Bereinigung, Kennzeichnung und abschließend der Validierung und Visualisierung.
Daten erfassen
Das Erfassen von Daten ist der Prozess des Zusammenstellens aller Daten, die Sie für ML benötigen. Die Datenerfassung kann mühsam sein, da sich die Daten in vielen Datenquellen befinden, unter anderem auf Laptops, in Data Warehouses, in der Cloud, in Anwendungen und auf Geräten. Eine Verbindung zu verschiedenen Datenquellen zu finden, kann eine Herausforderung sein. Auch nimmt das Datenvolumen exponentiell zu, so dass es eine Menge Daten zu durchsuchen gibt. Darüber hinaus haben die Daten je nach Quelle sehr unterschiedliche Formate und Typen. So sind beispielsweise Videodaten und tabellarische Daten nicht einfach gemeinsam zu verwenden.
Daten säubern
Die Datenbereinigung korrigiert Fehler und ergänzt fehlende Daten, um die Datenqualität zu gewährleisten. Nachdem Sie die Daten bereinigt haben, müssen Sie sie in ein einheitliches, lesbares Format umwandeln. Dieser Prozess kann die Änderung von Feldformaten wie Datumsangaben und Währungen, die Anpassung von Namenskonventionen und die Korrektur von Werten und Maßeinheiten umfassen, damit sie konsistent sind.
Daten beschriften
Die Datenbeschriftung ist ein Prozess, bei dem Rohdaten (Bilder, Textdateien, Videos usw.) identifiziert und mit einer oder mehreren aussagekräftigen und informativen Beschriftungen versehen werden, um einen Kontext zu schaffen, aus dem ein ML-Modell lernen kann. Beispielsweise können Beschriftungen anzeigen, ob auf einem Foto ein Vogel oder ein Auto zu sehen ist, welche Wörter in einer Audioaufnahme erwähnt wurden oder ob bei einer Röntgenaufnahme eine Unregelmäßigkeit entdeckt wurde. Die Beschriftung von Daten ist für verschiedene Anwendungsfälle erforderlich, beispielsweise für Computer Vision, natürliche Sprachverarbeitung und Spracherkennung.
Validierung und Visualisierung
Nachdem die Daten bereinigt und beschriftet sind, untersuchen ML-Teams die Daten oft, um sicherzustellen, dass sie korrekt und bereit für ML sind. Visualisierungen wie Histogramme, Streudiagramme, Box- und Whisker-Diagramme, Liniendiagramme und Balkendiagramme sind alles nützliche Tools, um die Korrektheit der Daten zu bestätigen. Darüber hinaus helfen Visualisierungen den Teams der Datenwissenschaft bei der Durchführung explorativer Datenanalysen. Dieser Prozess nutzt Visualisierungen, um Muster zu entdecken, Anomalien zu erkennen, eine Hypothese zu testen oder Annahmen zu überprüfen. Für die explorative Datenanalyse ist keine formale Modellierung erforderlich. Stattdessen können die Teams der Datenwissenschaft Visualisierungen verwenden, um die Daten zu entschlüsseln.
Wie kann AWS helfen?
Die Datenaufbereitungs-Tools von Amazon SageMaker helfen Unternehmen, Erkenntnisse aus strukturierten und unstrukturierten Daten zu gewinnen. Sie können zum Beispiel Amazon SageMaker Data Wrangler verwenden, um die Aufbereitung strukturierter Daten mit integrierten Datenvisualisierungen über eine visuelle Schnittstelle ohne Code zu vereinfachen. SageMaker Data Wrangler enthält über 300 integrierte Datentransformationen, so dass Sie schnell normalisieren, transformieren und Funktionen kombinieren können, ohne Code schreiben zu müssen. Sie können Ihre benutzerdefinierten Transformationen auch in Python oder Apache Spark durchführen, falls Sie dies bevorzugen. Für unstrukturierte Daten benötigen Sie große, qualitativ hochwertige markierte Datensätze. Mit Amazon SageMaker Ground Truth Plus können Sie hochwertige ML-Trainingsdatensätze erstellen und gleichzeitig die Kosten für das Daten-Labeling um bis zu 40 % senken, ohne selbst Labeling-Anwendungen erstellen oder Mitarbeiter für das Daten-Labeling beschäftigen zu müssen.
Für Analysten oder Geschäftsanwender, die die Datenaufbereitung in einem Notebook bevorzugen, können Sie Spark-Datenverarbeitungs-Umgebungen, die auf Amazon EMR ausgeführt werden, mit wenigen Klicks in Ihren Amazon-SageMaker-Studio-Notebooks visuell durchsuchen, entdecken und eine Verbindung zu ihnen herstellen. Wenn die Verbindung hergestellt ist, können Sie Daten interaktiv abfragen, untersuchen und visualisieren und Spark-Jobs mit der Sprache Ihrer Wahl (SQL, Python oder Scala) ausführen, um komplette Datenaufbereitungs- und ML-Workflows zu erstellen.