Crowdstrike: Ein Rückblick auf den Super-Gau

Doğan Uçar

Am 19. Juli 2024 ereignete sich ein Vorfall, der die IT-Welt und die Medien gleichermaßen in Aufruhr versetzte: Das Ausrollen eines Updates der IT-Sicherheitssoftware CrowdStrike. Was eigentlich eine routinemäßige Aktualisierung sein sollte, entwickelte sich zu einem massiven Problem, das laut Medienberichten bis zu 8,5 Millionen IT-Geräte lahmlegte.

Zunächst schien das Ausmaß des Vorfalls noch unklar. Doch nach und nach wurden immer mehr Auswirkungen bekannt, die sich auf verschiedene Bereiche des öffentlichen Lebens erstreckten. Probleme im Flugverkehr, Störungen an der Börse und sogar Beeinträchtigungen der Notrufnummer 911 wurden gemeldet. Viele betroffene Unternehmen waren anfänglich überfordert, da sie von ihrer IT-Sicherheitssoftware erwarteten, die Sicherheit zu erhöhen und nicht die Betriebssicherheit zu gefährden. Heute, knapp drei Wochen nach dem Vorfall, ist es Zeit den Fehler zu analysieren und einen detaillierten Blick darauf zu werfen.

Crowdstrike veröffentlich Ursachenanalyse

Nach langem Rätselraten über die Ursache des massiven IT-Ausfalls hat das US-Sicherheitsunternehmen CrowdStrike einen „Post-Incident Measurement Report“ veröffentlicht. In einer vorläufigen Analyse beschreibt der Hersteller der Falcon-Software, wie es zu den Bluescreens bei über 8 Millionen Windows-Rechnern kommen konnte.

Speicheradressen und ihre Bedeutung

Speicheradressen sind fundamentale Konzepte in der Informatik und Computertechnik, die die genaue Position von Daten in einem Computerspeicher bestimmen. Jede Speicheradresse stellt einen eindeutigen Identifikator für ein bestimmtes Byte oder eine Gruppe von Bytes im Arbeitsspeicher (RAM) dar. Diese Adressen ermöglichen es Prozessoren und Software, effizient auf Daten zuzugreifen und diese zu verarbeiten. Speicheradressen werden oft in hexadezimaler Darstellung angezeigt, da diese Form die Handhabung und Interpretation großer Zahlen erleichtert. Das Verständnis und die richtige Handhabung von Speicheradressen sind entscheidend für die Programmierung, Fehlerbehebung und Optimierung von Software, da falsche Speicherzugriffe zu Programmabstürzen oder Sicherheitslücken führen können.

Gemäß CrowdStrikes Analyse wurden die massenhaften Bluescreens (BSoDs) durch einen Speicherzugriffsfehler (out of bounds memory read) des Falcon Sensors ausgelöst. Dieser Sensor ist tief im Betriebssystem verankert und dient dem Schutz gegen Malware und Angriffe.

Fehlerursachen laut Hersteller

Wie kam es jedoch zu diesem fatalen Zugriffsfehler, und warum fiel das Problem erst auf, als es Millionen von PCs betraf? CrowdStrike beantwortet diese Fragen in dem Fehlerbericht nur oberflächlich. Auf mehreren Seiten betont das Unternehmen, dass es umfangreiche Test- und Qualitätssicherungsprozeduren für seine Produkte gibt – jedoch nicht für die Dateien, die letztlich zum Absturz führten.

Diese Dateien, intern als „Rapid Response Content“ bezeichnet, enthalten Schlüssel-Wert-Paare in einem Binärformat zur Erkennung verdächtiger Muster in Prozessen oder im Speicher. Analog zu Signatur-Aktualisierungen bei Virenscannern werden diese „Rapid Response“-Daten mehrmals täglich aktualisiert. Im Gegensatz zu Software-Updates können diese Updates jedoch nicht durch eine Konfigurationseinstellung verhindert werden.

CrowdStrike testet seine Software-Updates ausgiebig und setzt sie intern ein, um ihre Zuverlässigkeit zu gewährleisten. Doch für die Rapid-Response-Dateien gibt es lediglich einen Parser, den „Content Validator“, der die Syntax dieser Mini-Updates prüft. Aufgrund eines Programmierfehlers ließ der Validator jedoch eine fehlerhafte Datei durch.

Sobald die Rapid-Response-Signaturen durch den Validator freigegeben sind, gibt es keine weiteren Prüfungen auf Testsystemen, keine gezielte Aktualisierung einer geschlossenen Benutzergruppe und keinen gestaffelten Updateprozess. Warum diese Maßnahmen bei Inhalts-Updates nicht existieren, bleibt unbeantwortet.

Der Falcon Sensor, als Windows-Systemtreiber implementiert, liest die fehlerhaften Dateien ohne eigene Syntaxprüfung ein und greift aufgrund der falschen Daten auf ein ungültiges Speichersegment zu. Dies führt dazu, dass nicht nur der Sensor selbst abstürzt, sondern das gesamte System mit in den Abgrund reißt. Da der Treiber während des Systemstarts geladen wird, verursacht er beim Neustart direkt den nächsten Bluescreen. In vielen Fällen halfen nur noch manuelle Rettungsmaßnahmen.

Konsequenzen des Fehlers

Dadurch, dass nicht nur der Sensor selbst sondern das gesamte System abstürzt bzw. bei einem Neustart versucht wird den Sensortreiber neuzuladen, wird der Bluescreen quasi in der Endlosschleife verursacht. In den meisten Fällen half nur ein manueller Eingriff.

Dies ist der Grund für den berüchtigten „Blue Screen of Death“ (BSOD). Ein Computer kann sich von einem Absturz in nicht-privilegiertem Code erholen, indem er das betreffende Programm einfach beendet. Bei einem Systemtreiber ist dies jedoch nicht möglich.

Eine andere, nicht technische Folge des CrowdStrike-Updates waren Scamming-Versuche: Unternehmen wurden schnell mit einer neuen Herausforderung konfrontiert – telefonische Scam-Attacken. Betrüger nutzten die Verwirrung und Unsicherheit, um sich als CrowdStrike-Mitarbeiter auszugeben und versuchten, sensible Informationen wie Account-Daten von Mitarbeitern zu erlangen – darunter auch Zugangsdaten zu Diensten wie Office 365.

Diese betrügerischen Anrufe verunsicherten die Mitarbeiter erheblich, während die IT-Abteilungen fieberhaft an der Behebung der technischen Probleme arbeiteten. Die erhöhte Verunsicherung führte dazu, dass die Gefahr stieg, dass Mitarbeiter in gutem Glauben vertrauliche Informationen an die falschen Personen weitergaben. Dies verschärfte die ohnehin angespannte Situation weiter und vergrößerte das Ausmaß der Probleme.

Fazit

Dieser Vorfall verdeutlicht die Wichtigkeit sorgfältiger Programmierung, gründlicher Überprüfungen sowie verschiedene Arten von Software-Tests. Insbesondere eine Software relevant für IT-Sicherheit genießt hohes Vertrauen und Ansehen bei Nutzern und Kunden – und kann bei Fehlern fatale (finanzielle) Folgen haben. In sicherheitskritischen Bereichen wie Systemtreibern ist die Bedeutung besonders hoch, da sie die Betriebsgrundlage des gesamten Systems darstellen.

Wir hoffen, dass dieser Artikel Ihnen ein besseres Verständnis zu der Thematik rund um den Ausfall im Zusammenhang mit Crowdstrike vermittelt hat. Sollten Sie weitere Fragen zu diesem Thema oder allgemein zur IT-Sicherheit haben, zögern Sie bitte nicht, mit uns in Kontakt zu treten. Unser Expertenteam steht Ihnen jederzeit zur Verfügung, um Ihre Anliegen zu klären und Sie bei der Sicherstellung Ihrer IT-Infrastruktur zu unterstützen. Ihre Sicherheit und Zufriedenheit sind unsere obersten Prioritäten.