CrowdStrike: 6 neue Details zum größten IT-Ausfall der Geschichte

Als Video ansehen
Bereitgestellt über YouTube

CrowdStrike: 6 neue Details zum größten IT-Ausfall der Geschichte

Das CrowdStrike-Desaster hat zu nichts geringerem als dem größten Ausfall in der IT-Geschichte auf Windows-PCs geführt. Wenige Tage später sind weitere interessante Details dazu bekannt geworden, die ich in diesem Beitrag nachreichen möchte. Zuvor hatte ich im ersten Teil bereits das fehlerhafte Update von CrowdStrike am 19.07.2024 thematisiert, welches weltweit unzählige Computer in Unternehmen und Regierungseinrichtungen lahm legte. Parallel spielte Microsoft in Azure ebenfalls ein kaputtes Update ein und sorgte für Ausfälle diverser Clouddienste – darunter neben Azure selbst auch die Microsoft 365 Cloud. Sie wird ebenfalls von Unternehmen zum Outsourcing von IT-Diensten verwendet.

So viele PCs sind betroffen: Microsoft nennt erste Zahlen

Alle bisherigen Zahlen waren nur sehr grobe Schätzungen und daher lediglich eine Einordnung der ungefähren Dimension – beispielsweise, dass es sich um Millionen an betroffenen Computern handeln muss. Erstmals hat Microsoft nun Zahlen genannt. Sie schätzen 8,5 Millionen Windows-PCs sind von CrowdStrike betroffen.1 Worauf sich diese Zahlen stützen, wird nicht beschrieben. Wahrscheinlich handelt es sich um Telemetriedaten – seit Windows 10 sammelt Microsoft-Software große Massen an Daten über das Nutzungsverhalten. Darüber hinaus stehen sie mit dem Hersteller in Kontakt, der über Support-Anfragen einen Überblick über das Ausmaß haben dürfte.

Interessant ist, dass Microsoft die Zahl versucht durch Einordnung zu relativieren: Die 8,5 Millionen entsprächen „weniger als 1% der Windows-Maschinen“. Das zeigt zwei Dinge. Zum einen, wie stark die Auswirkungen sein können, obwohl relativ gesehen nur ein sehr geringer Anteil betroffen ist. Entscheidend ist, dass es Systeme von Unternehmen sind und einige bei Schnittstellen zu Kunden eingesetzt werden. Die Auswirkungen wären weitaus geringer, wenn 1% der privaten Windows-PCs abends nicht spielen könnten.

Indirekt verrät der Konzern damit allerdings auch, wie viele (aktive) Windows-Systeme es noch gibt. Nämlich weniger als 850 Millionen. Das ist bemerkenswert wenig wenn man bedenkt, was Microsoft 2020 verkündet hat: Damals soll Windows 10 die Marke von einer Milliarde monatlich aktiver Geräte überschritten haben.2 Folglich ist das Windows Ökosystem in den letzten vier Jahren um mindestens 150 Millionen geschrumpft.

Wer Windows in der Cloud nutzt, soll bis zu 15x neu starten

Bei normalen Desktop-PCs und Laptops ist das Umsetzen des Workarounds recht klar: Man startet das System im abgesicherten Modus, weil Windows dort keine Drittanbieter-Software lädt. Dort wird das kaputte CrowdStrike Modul entfernt, damit das Betriebssystem nach dem nächsten Neustart wieder normal startet.

Wer sich einen der virtuellen Microsoft 365 PCs in der Cloud des Konzerns gemietet hat, kann das jedoch nicht machen – die eingeschränkte Cloudumgebung gestattet keinen Zugriff darauf. Betroffen sind diese Systeme ebenfalls.3 Der von Microsoft offiziell empfohlene Workaround für solche Cloud-PCs ist kurios: Das System immer wieder neu starten, bis es vom Bluescreen abgewürgt wird. In der Zeitspanne bis zum Absturz soll irgendwann das zweite Update eingespielt werden können, welches die defekte Version ersetzt. Bis zu 15 händisch auszuführende Neustarts seien dafür notwendig4 – nicht gerade vertrauenerweckend.

Deutlich professionelle wirkt hingegen ein Wiederherstellungswerkzeug, welches Microsoft für normale PCs und Notebooks bereitgestellt hat. Betroffene müssen es wie ein Windows-Installationsabbild auf einen USB-Stick übertragen, um die defekten Systeme davon zu starten. Das Rettungssystem führt automatisch jene Befehle des Workarounds aus, um das defekte CrowdStrike-Modul zu entfernen.5

Durfte CrowdStrike überhaupt eingesetzt werden?

Im ersten Teil hatte ich ja bereits erwähnt, dass Softwarekonzerne ganze Rechtsabteilungen zur Ausarbeitung riesiger Allgemeiner Geschäftsbedingungen beschäftigen. Dort wird üblicherweise die Haftung für alles mögliche ausgeschlossen, damit der Kunde am Ende für möglichst viel (bestenfalls alles) die Verantwortung trägt. Die AGB von CrowdStrike sind dabei keine positive Ausnahme und Umfassen etwa 23 Seiten in der originalen Schriftgröße 12.6 Das entspricht rund 9.800 Wörtern oder 78.600 Zeichen.

Der Haftungsausschluss findet sich etwa in der Mitte bei Punkt 8.5. Folgendes Zitat stammt aus den AGB, inklusive Capslock:

[…]

ES GIBT KEINE GEWÄHRLEISTUNG, DASS DIE ANGEBOTE ODER CROWDSTRIKE-TOOLS FEHLERFREI SIND ODER DASS SIE OHNE UNTERBRECHUNG FUNKTIONIEREN ODER BESTIMMTE ZWECKE ODER BEDÜRFNISSE DES KUNDEN ERFÜLLEN. DIE CROWDSTRIKE-ANGEBOTE UND CROWDSTRIKE-TOOLS SIND NICHT FEHLERTOLERANT UND NICHT FÜR DEN EINSATZ IN GEFÄHRLICHEN UMGEBUNGEN AUSGELEGT ODER VORGESEHEN, DIE EINE AUSFALLSICHERE LEISTUNG ODER EINEN AUSFALLSICHEREN BETRIEB ERFORDERN. WEDER DIE ANGEBOTE NOCH DIE CROWDSTRIKE-TOOLS SIND FÜR DEN BETRIEB VON FLUGZEUGNAVIGATION, NUKLEARANLAGEN, KOMMUNIKATIONSSYSTEMEN, WAFFENSYSTEMEN, DIREKTEN ODER INDIREKTEN LEBENSERHALTENDEN SYSTEMEN, FLUGVERKEHRSKONTROLLE ODER ANWENDUNGEN ODER ANLAGEN BESTIMMT, BEI DENEN EIN AUSFALL ZU TOD, SCHWEREN KÖRPERVERLETZUNGEN ODER SACHSCHÄDEN FÜHREN KÖNNTE. Der Kunde stimmt zu, dass es in der Verantwortung des Kunden liegt, die sichere Nutzung eines CrowdStrike-Angebots und der CrowdStrike-Tools in solchen Anwendungen und Installationen zu gewährleisten.

[…]

Bei manchen ausdrücklich genannten Einschränkungen wie ausfallsicheren Betrieb sowie fehlertolerant, aber auch direkten oder indirekten lebenserhaltenden Systemen sowie Flugverkehrskontrolle könnten manche Betroffene noch Ärger bekommen. Neben Flughäfen waren auch Krankenhäuser darunter, im Ausland in mindestens einem Falle sogar die Notrufnummer. Von außen lässt sich oft nicht beurteilen, wo die konkret Windows mit CrowdStrike genutzt haben. Eine Anzeigentafel vom Flughafen wäre weniger problematisch, als beispielsweise Systeme im Krankenhaus. Zumindest ein Teil der Kunden bewegt sich hier mindestens in einer Grauzone und könnte nicht mal compliant gewesen sein.

Unabhängig davon wird CrowdStrike diese Karte ziehen, falls sie jemand verklagen sollte. Wie bei proprietärer Software üblich, ist das schwammig und weit gefasst. Beispielsweise die Passage, bei der ein Ausfall zu Sachschäden führen könnte. Oder allgemein der ausfallsichere Betrieb. Ist das Check-in System am Flughafen beispielsweise dort schon mit drin? Schließlich ist das System so kritisch, dass der Flughafen ohne nicht funktioniert. Das dürfte nun einige Juristen beschäftigen, die prüfen, ob man sich zumindest einen Teil des Schadens von CrowdStrike zurück holen kann.

Ich bin gespannt, ob es zu Klagen kommt und wenn ja, wie die Gerichte entscheiden. Zwar halte ich es für unwahrscheinlich, dass CrowdStrike großartig haften musste – das wäre ein Novum. Allerdings hätte ich nichts dagegen, wenn insbesondere diese Branche mal dazu gezwungen wird, für ihre Qualität zu haften. Damit haben wir in der (kommerziellen) Softwareentwicklung ein generelles Problem.

CrowdStrike hat schon vor Monaten vergessen zu testen und machte einfach weiter

Insbesondere, weil das bei CrowdStrike ein noch größerer Totalschaden mit Ansage war, als bisher bekannt. Die haben nicht nur vor wenigen Wochen andere Probleme gehabt, sondern im April 2024 auch Debian kaputt gepatcht. Dort scheint etwas ähnliches wie nun bei Windows-Systemen passiert zu sein: Sämtliche Systeme in eine städtischen Technologielabor starteten nicht mehr. Es stellt sich heraus, dass CrowdStrike nicht mit der aktuellsten Version von Debian kompatibel war – obwohl das vom Unternehmen behauptet wurde. Nach dem Entfernen von CrowdStrike funktionierten die Systeme wieder, was den Verdacht erhärtete.

Und das war nur die Spitze des Eisbergs. Der Betroffene meldete das Problem an den Support.7 Doch es dauerte Wochen, bis CrowdStrike die Ursache gefunden hatte. Das Ergebnis: Sie hatten die eingesetzte Debian-Version nicht getestet.8 Weitere Vorfälle folgten. Damals bekam dies keine große Medienaufmerksamkeit, weil nur spezifische Distributionen in bestimmten Versionen (hier das aktuellste Debian) betroffen waren – also nur ein Teil der Nutzer. Darüber hinaus dürfte der Glaube an Antivirenscanner unter GNU/Linux Anwendern geringer sein, als bei Windows.

Der Kern ist: Das Problem ist als normaler Alltagsdefekt untergegangen, wie er bei vielen Antivirenscannern üblich ist. Ein paar Beispiele hatte ich im ersten Teil ja bereits genannt, es gibt noch viel mehr. Das betrifft immer wieder einige Kunden mit bestimmten Konfigurationen/Konstellationen, allerdings wohl bisher nie Millionen von PCs gleichzeitig. Darüber hinaus scheinen sie das vor einem Jahrzehnt von Linux erschienene eBPS nicht zu nutzen, womit sich die negativen Auswirkungen von Antivirensoftware deutlich reduzieren lassen.9 All das lässt den Hersteller kalt – trotz bekannter Probleme von unzureichenden Tests und Kunden die mit kaputten Systemen über Wochen im Regen stehen gelassen werden, unternimmt man nichts, um an diesem katastrophalen Zustand etwas zu verbessern. Diese Einstellung führt zum GAU, als das Update vom 19.07. mit Windows eine ganze Plattform betrifft, statt nur eine einzelne Linux-Distribution.

Starttreiber: Warum Neu starten nicht hilft

Antivirenprogramme greifen tief in das Betriebssystem ein und verwenden dafür Treiber, die auf unterster Ebene des Betriebssystems im Kernel laufen. Das macht sie sehr mächtig, allerdings auch sehr gefährlich. Es gibt verschiedene Arten von Treibern. CrowdStrike hat sich dazu entschieden, ihren Treiber als Starttreiber zu deklarieren. Dadurch verweigert Windows den Start ohne diesen Treiber.1011

Warnung vor angeblichem Fix, der CrowdStrike repariert

Kriminelle beobachten aktuelle Ereignisse und nutzen diese, um überzeugendere Gründe zu finden, damit potenzielle Opfer ihre Schadsoftware am besten selbst installieren. Ein Klassiker sind Meldungen zu einem veralteten Windows, wofür man dringend ein Update installieren solle. In Wahrheit ist das gar nicht der Fall und das Opfer lädt sich selbst Malware auf den PC. Damit das möglichst plausibel klingt, nehmen Angreifer auf aktuelle Themen Bezug: Nach Umweltkatastrophen sammelt man angeblich Spenden für Opfer, bei größeren Umstellungen oder Ausfällen von Banken bittet man um Zugangsdaten, weil diese abhanden gekommen seien und viele weitere Beispiele sind bereits eingetreten.

Das von CrowdStrike verursachte Desaster ist für Kriminelle daher keine Ausnahme, sondern ein gefundenes Fressen: Sie veröffentlichen ein angebliches Update, welches man zur Korrektur installieren soll. Eines heißt crowdstrike-hotfix.zip,12 wobei der Dateiname variieren kann. Andere versuchen es mit Phishing und geben sich als CrowdStrike-Mitarbeiter aus, der Logindaten und andere Zugriffe bräuchte, um vermeintlich zu helfen.13 Weitere werden sicherlich folgen. Für Angreifer ist das Chaos perfekt: Eine ungeplant große Ausfallzeit sorgt für hohen Druck und viele Unternehmen werden unzureichende Ressourcen haben. Da schauen manche sicher weniger genau hin und sind über angebliche Hilfe froh.

Schäden in Milliardenhöhe: Wird CrowdStrike sie zahlen?

Bereits recht früh wurde klar, dass es sich um einen der größten Ausfälle in der Geschichte der IT handelt. CrowdStrike hat in seiner Branche einen Marktanteil von rund 24%.14 Ich hatte im ersten Teil bereits von einem Schaden in Milliardenhöhe gesprochen. Patrick Anderson, CEO der Anderson Economic Group, sagt es sei schnell eine Milliarde US-Dollar überschritten. Er ist auf die Schätzung von Schäden durch Unterbrechungen des Geschäftsablauf von Unternehmen spezialisiert und sieht die größten Kosten bei den Fluggesellschaften.

Finanziell wäre das problematisch, weil CrowdStrike „nur“ etwa vier Milliarden Jahresumsatz erwirtschaftet. Nun ist Umsatz nicht gleich Gewinn und hinzu kommen die Kosten eines Rechtsstreits – das könnte theoretisch schwierig werden. Praktisch stimmt er mir allerdings ebenfalls dabei zu, dass die Verträge den Anbieter schützen. Auch einen größeren Verlust an Stammkunden sieht er nicht – sondern rechnet mit weniger als 5% der Bestandskunden, die den Anbieter wechseln. Bis sich die schlechte Werbung wieder gelegt habe, könnten sie es schwerer haben, neue Kunden zu gewinnen.15

Fazit

Dieser Fall zeigt sehr schön, wie Unternehmen bei Fehlern mit relativen Prozentangaben in die Irre führen. Ich sehe immer wieder, wie versucht wird zu relativieren, weil „nur“ X Prozent betroffen seien. Es kommt aber darauf an, wen es trifft – weniger als 1% können die halbe Welt lahm legen, wie wir live beobachten konnten. Außerdem ist Statistik nur so lange schön, bis es einen selbst betrifft.

Ebenfalls bestätigt er das Niveau, mit dem die Branche von Schutzlösungen arbeitet: Aktualisierungen werden ungetestet verteilt, um Geld zu sparen. Selbst als das zu Problemen führt, lässt man betroffene mit Totalausfall lange im Regen stehen und ändert nichts an den Prozessen. Das kostet schließlich Geld und der Erfolg gibt Ihnen recht: Seit April ist der Aktienkurs deutlich gestiegen16 – obwohl damals die geringe Qualität sowie schlechte Unterstützung bereits bekannt waren.

Daran wird sich nichts großartig verändern, so lange wir Konzerne damit durch kommen lassen. Im Verlauf der letzten 6 Monate sieht der Aktienkurs bedrohlich in den Keller gesunken aus. Aber das Unternehmen ist noch weit vom Bankrott entfernt, wie man bereits bei einem Blick bis 2023 zurück sieht: Am 06.01.2023 beispielsweise lag der Kurs noch bei 89,80€ – und damit fast 3x niedriger, als der bereits am 22.07.2024 auf 248€ gesunkene. Es wird sich also auszahlen, das auszusitzen, bis Gras über die Sache gewachsen ist.

Quellen

  1. https://blogs.microsoft.com/blog/2024/07/20/helping-our-customers-through-the-crowdstrike-outage/ ↩︎
  2. https://news.microsoft.com/apac/2020/03/17/windows-10-powering-the-world-with-one-billion-monthly-active-devices/ ↩︎
  3. https://www.bleepingcomputer.com/news/microsoft/microsoft-windows-365-cloud-pcs-stuck-restarting-after-crowdstrike-update/ ↩︎
  4. https://www.golem.de/news/crowdstrike-und-weltweiter-it-ausfall-wenn-8-5-millionen-windows-geraete-die-welt-im-griff-haben-2407-187273.html ↩︎
  5. https://www.heise.de/news/Crowdstrike-Ausfaelle-Microsoft-veroeffentlicht-Wiederherstellungstool-9808481.html ↩︎
  6. https://www.crowdstrike.com/terms-and-conditions-de/ ↩︎
  7. https://news.ycombinator.com/item?id=41005936 ↩︎
  8. https://www.neowin.net/news/crowdstrike-broke-debian-and-rocky-linux-months-ago-but-no-one-noticed/ ↩︎
  9. https://ebpf.io/what-is-ebpf/ ↩︎
  10. https://learn.microsoft.com/de-de/windows-hardware/drivers/install/installing-a-boot-start-driver ↩︎
  11. https://www.youtube.com/watch?v=wAzEJxOo1ts ↩︎
  12. https://www.bleepingcomputer.com/news/security/fake-crowdstrike-fixes-target-companies-with-malware-data-wipers/ ↩︎
  13. https://winfuture.de/news,144053.html ↩︎
  14. https://www.businessinsider.de/wirtschaft/nur-1-aller-windows-rechner-vom-microsoft-ausfall-betroffen/?tpcc=offsite_rss ↩︎
  15. https://www.businessinsider.de/wirtschaft/darum-koennte-die-globale-it-panne-fuer-crowdstrike-nur-geringe-folgen-haben/?tpcc=offsite_rss ↩︎
  16. https://www.google.com/finance/quote/45C:FRA?sa=X&ved=2ahUKEwiWiO7t8LqHAxXkgP0HHYuaC5kQ3ecFegQILRAX&window=6M ↩︎

Leave a Reply