Was ist eine Ursachenanalyse (Root Cause Analysis, RCA)?


Was ist eine Ursachenanalyse (Root Cause Analysis, RCA)?

Beim Testen von wichtigen neuen Veröffentlichungen kann es manchmal zu überraschenden Fehlern in der Produktionsumgebung kommen. Warum? Was ist schief gelaufen? Testumgebungen sind nicht immer so nah am Produktionsstandard, wie man möchte. Infrastrukturänderungen können an der Umgebung vorgenommen werden, ohne dokumentiert zu werden, was dazu führt, dass die Umgebungen langsam auseinandergehen.

Die Behebung von Mängeln kann sehr viel Zeit in Anspruch nehmen. Wenn Sie lernen, wie Sie Fehler schneller beheben können, ist das eine der besten Investitionen, die Sie als Softwareentwickler tätigen können.

Bei der Fehler-Ursachen-Analyse (RCA) handelt es sich um eine spezielle Technik, die Sie bei der Problembehandlung einsetzen können. Mit dieser Technik analysieren Sie das vorliegende Problem anhand einer bestimmten Reihe von Schritten, um die Hauptursache des Problems zu ermitteln. RCA basiert auf dem Grundsatz, dass es nicht sinnvoll ist, sich um die Symptome eines Problems zu kümmern, während die Ursachen ignoriert werden.

Was sind die Vorteile der Fehler-Ursachen-Analyse?

Bei der Fehler-Ursachen-Analyse (RCA) handelt es sich um eine spezielle Technik, die Sie bei der Problembehandlung einsetzen können. Mit dieser Technik analysieren Sie das vorliegende Problem anhand einer bestimmten Reihe von Schritten, um die Hauptursache des Problems zu ermitteln. RCA basiert auf dem Grundsatz, dass es nicht sinnvoll ist, sich um die Symptome eines Problems zu kümmern, während die Ursachen ignoriert werden.

Wie beginne ich eine Fehler-Ursachen-Analyse?

Erklären Sie das Problem

Benutzen Sie den Quietscheentchen-Ansatz (Rubber-Duck-Debugging), um Ihr Problem auf simple Weise zu erklären. Wenn Sie etwas erklären, müssen Sie zunächst Ihre Gedanken ordnen. Jeff Atwood, der Mitbegründer der beliebten Frage-und-Antwort-Website Stack Overflow, berichtet, wie oft ihm ein Softwareentwickler erzählt hat, dass er auf der Website eine neue Frage verfasst hat, währenddessen selbst auf die Antwort gekommen ist und die Frage dann nie abgeschickt hat.

Probieren Sie die folgenden Ansätze aus, um Ihr Problem simpel zu erklären:

  1. Schreiben Sie eine Frage auf Stack Overflow. Selbst, wenn Sie diese nie abschicken.
  2. Reichen Sie einen detaillierten Fehlerbericht ein.
  3. Erklären Sie Kollegen das Problem.

Sammeln Sie viele Protokolldaten (und durchsuchen Sie sie effizient)

Danach müssen Daten über das Problem gesammelt werden, um daraus Erkenntnisse zu gewinnen. Protokollierung und Überwachung sind hier hilfreich – Absturzprotokolle, Anwendungs- und Serverprotokolle und so weiter. Sie müssen Beweise dafür sammeln, dass das Problem aufgetreten ist, aber nach Möglichkeit auch herausfinden, wie lange es schon besteht und wie häufig es auftritt.

Innerhalb dieser Daten, müssen Sie bestimmte Datenpunkte schnell finden können. Werkzeuge können Ihnen bei der Suche und Analyse der Protokolldaten, die Sie gesammelt haben, helfen, um diese schneller zu bestimmen und Probleme zu lösen.

Wenden Sie die 5-W-Methode an

Identifizieren Sie den Kausalfaktor; die unmittelbare Ursache des vorliegenden Problems. Man sollte nicht den Kausalfaktor identifizieren und dann aufhören. Sie müssen mit der 5-W-Methode fortfahren. Fragen Sie wiederholt „warum?“, bis Sie zur Ursache des Problems gelangen. Zum Beispiel könnte Ihre Website „Fehler 500“ anzeigen.

  1. Warum? Weil die Weiterleitungskomponente des Web-Frameworks eine Fehlfunktion aufweist.
  2. Warum? Weil sie eine andere Komponente benötigt, die ihrerseits eine Fehlfunktion aufweist.
  3. Warum? Weil diese Komponente des Web-Frameworks die intl-Erweiterung benötigt, die nicht funktioniert.
  4. Warum? Weil sie versehentlich deaktiviert wurde, nachdem die Serversoftware aktualisiert wurde.

Natürlich ist es möglich, mit weniger Schritten zum eigentlichen Problem zu gelangen. Oder vielleicht brauchen Sie aber auch noch mehr.

Holen Sie sich ein zweites Paar Augen

Wie bei einer Code-Überprüfung, lassen Sie eine weitere, unvoreingenommene Person über Ihren Code schauen. Mit der Zeit, wird das Erwarten einer Überprüfung Ihren Arbeitsablauf verbessern. Oder noch besser, führen Sie die Problembehandlung zu zweit durch.

Wie kann AWS Ihre Ursachenanalyse unterstützen?

Eine der primären Methoden von AWS zur Fehler-Ursachen-Analyse ist, Ihnen dabei zu helfen, Ihre Protokolldaten zu verstehen und zu analysieren. Hierfür empfehlen wir den Amazon OpenSearch Service. Amazon OpenSearch Service vereinfacht die Durchführung von interaktiven Protokollanalysen, Anwendungsüberwachung in Echtzeit, Website-Suche und mehr. OpenSearch ist eine von Elasticsearch abgeleitete Open-Source-Suite für verteilte Suche und Analyse. Amazon OpenSearch Service ermöglicht die sichere Suche, Überwachung und Analyse von Geschäfts- und Betriebsdaten in Echtzeit für Anwendungsfälle wie Anwendungsüberwachung, Protokollanalyse, Beobachtbarkeit und Website-Suche.

Beginnen Sie mit der Ursachenanalyse in AWS, indem Sie noch heute ein Konto erstellen.

Nächste Schritte in AWS

Zusätzliche produktbezogene Ressourcen ansehen
Kostenlose Angebote für Analytics-Services in der Cloud anzeigen  
Ein kostenloses Konto erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden