Fallserie · Warum Systeme handeln, wenn sie es nicht sollten

Jedes Dashboard war grün.
Genau das machte es gefährlich.

Diese Fälle sind nicht gescheitert, weil das System aufgehört hat zu funktionieren. Sie sind gescheitert, weil das System weiter ausgeführt wurde, nachdem die Grundlage seiner Autorisierung sich bereits verändert hatte. Kein Alarm. Kein Fehler. Kein Signal.

Anwendungen ansehen → Decision Audit starten ↗

Ausführung stoppen

Knight Capital

2012 · Automatisiertes Handelssystem

440 Millionen Dollar. 45 Minuten. Die Ausführung war korrekt. Die Fortsetzung war es nicht. Ein veraltetes Flag wurde unter Bedingungen reaktiviert, für die es nie autorisiert war.

Was Decision Integrity getan hätte:Mandatswiderspruch erkannt · Re-Validierung gefordert · Ausführung vor dem ersten Trade gestoppt

Vollanalyse →

Ausführung fehlausgerichtet

Zillow Offers

2021 · Automatisierter Immobilienkauf

Das Modell optimierte weiter. Die Annahmen waren bereits gestorben. Die Bewertungsbedingungen, die das Mandat rechtfertigten, veränderten sich still.

Was Decision Integrity getan hätte:Annahmefehler erkannt · DCF Closure-Review ausgelöst · Skalierung gestoppt

Vollanalyse →

Autoritätsdrift

COMPAS

Fortlaufend · Rückfallrisiko-Scoring

Kein Code-Fehler. Kein Alarm. Autorität driftete still. Der operative Geltungsbereich wuchs über die ursprünglichen Autorisierungsgrenzen hinaus ohne Re-Legitimation.

Was Decision Integrity getan hätte:Scope-Invarianten erzwungen · Autoritätsbindung gefordert · Re-Legitimation ausgelöst

Vollanalyse →

Mandat abgelaufen

Klarna KI-Support

2024–2025 · Kundendienst-KI

Regelkonformität = 1. Mandatsintegrität = 0. Qualitätszusagen beim Deployment — die Bedingungen, die Skalierung autorisierten — änderten sich ohne Re-Validierung.

Was Decision Integrity getan hätte:Qualitätszusagen als Mandatsbedingungen verfolgt · Mandatsablauf erkannt · Re-Legitimation gefordert

Vollanalyse →

Knight Capital · 2012

Als die Ausführung hätte stoppen müssen.

Am 1. August 2012 deployte Knight Capital neue Trading-Software, die unbeabsichtigt Legacy-Testcode auf mehreren Servern aktivierte. Das System begann, unbeabsichtigte Marktaufträge mit hoher Frequenz zu senden. Innerhalb von 45 Minuten: 440 Millionen Dollar Verlust.

Vor dem Kollaps waren Compliance-Prozesse vorhanden. Code war reviewed. Audit-Trails intakt. Monitoring-Dashboards zeigten grün. Das fatale Moment war nicht der Bug — es war die Rollback-Entscheidung. Das Team glaubte, zur Sicherheit zurückzukehren. Stattdessen vollständigten sie den Drift.

Systeme versagen nicht nur wenn sie brechen. Sie versagen wenn sie weiter handeln, nachdem ihr Recht zu handeln erloschen ist.

DIP-Bewertung

Mandatslücke

Die Autorisierung des veralteten Flags war abgelaufen. Kein Mechanismus prüfte ob die Reaktivierung noch im gültigen Mandat lag.

Fehlende Closure-Bedingung

DCF Authority Closure: die Autorisierungsbasis für die Reaktivierung wurde nie gegen aktuelle Bedingungen geprüft.

Kein Failsafe-Auslöser

DIP Fail-Closed: kein gültiges Mandat vorhanden → keine Ausführung erlaubt. Die Reaktivierung wäre beim ersten Trade blockiert worden.

Zillow Offers · 2021

Als Optimierung die Realität überschrieb.

Zillow betrieb ein automatisiertes Immobilienkaufprogramm in großem Maßstab. Als sich die Marktbedingungen verschlechterten, degradierte die Modellstabilität. Aggressives Scaling unterhöhlte die Preisdisziplin. Die Annahmen, die das System zur Ausführung autorisierten, hatten gleichzeitig versagt.

Das System brach nicht auf sichtbare Weise zusammen. Es setzte sich fort von seinem ursprünglichen Mandat. Ergebnis: Abschreibungen in Milliardenhöhe und vollständige Abwicklung des Programms.

Der 500-Millionen-Dollar-Verlust kam nach dem Drift. Decision Integrity wirkt davor.

DIP-Bewertung

Annahme-Closure-Fehler

DCF Assumption Closure: Bedingungen die das Mandat rechtfertigten — Marktvorhersagbarkeit, Modellgenauigkeit — änderten sich ohne Neubewertungs-Auslöser.

DASR hätte das erkannt

Drift-Velocity — die Rate mit der sich mandatsrelevante Bedingungen divergieren — hätte vor weiterer Skalierung ein Re-Legitimationssignal gegeben.

Evidenz-Closure-Verletzung

Die Evidenzbasis, die Betrieb im Maßstab autorisierte, war nicht mehr ausreichend. DCF Evidence Closure hätte die Expansion gestoppt.

COMPAS · Fortlaufend

Als Autorität sich ohne Kontrolle ausweitete.

COMPAS verarbeitete als Praxis-Entscheidungsunterstützungssystem ungefähr 1,2 Mio. automatisierte Rückfallbewertungen — nicht in einem einzelnen Trial, sondern in breiter institutioneller Verwendung. Die Systemgrenze, die den ursprünglichen Geltungsbereich bestimmte, verschwamm langsam.

Autorität kann ohne klare Grenze driften. Wenn das Mandat das ursprüngliche Genehmigungsszenario nicht explizit bounded, werden Systeme in Kontexte ausgedehnt, die von den ursprünglichen Annahmen nie abgedeckt waren.

Effektive Rechenschaftspflicht erfordert nicht-narrativen Beweis — eine Witness-Kette, die zeigt was das System zu tun autorisiert war und was es tat.

DIP-Bewertung

Scope-Invarianten-Verletzung

DIP erzwingt Scope-Gates. Erweiterung über das definierte Mandat hinaus erfordert explizite Autoritätsbindung — keine stille Fortsetzung.

Keine Witness-Kette

Ohne Witness-Tupel die jede Entscheidung an eine gültige Autorisierung knüpfen, sind Behauptungen über legitimen Geltungsbereich narrativ — nicht auditierbar.

Re-Legitimation-Auslöser fehlend

Wenn Geltungsbereichsgrenzen getestet werden, fordert DIP explizite Re-Legitimation vor Erweiterung — nicht Korrektur im Nachhinein.

Klarna KI-Support · 2024–2025

DIP-Audit #1: Mandate Drift im KI-Kundensupport.

Im Frühjahr 2024 deployte Klarna ein KI-Kundensupportsystem für das Volumen von bis zu 700 Kundenservice-Mitarbeitern. Bis Mai 2024 bearbeitete es den Großteil der Kundenservice-Interaktionen. Im September 2025 kehrte Klarna die Entscheidung um.

Das System betrieb sich durchgehend innerhalb definierter Regeln. Was die Evidenz zeigt: die Qualitätszusagen beim Deployment — die Bedingungen, die Betrieb im Maßstab autorisierten — änderten sich ohne Re-Validierung. Das ursprüngliche Mandat war effektiv 15 Monate vor der Umkehr abgelaufen.

Das System war operativ. Aber die Ebene, die hätte bestimmen müssen ob es noch das autorisierte System war, existierte nicht.

DIP-Bewertung — DIP Audit #1

Mandatsbedingungen nicht verfolgt

Qualitätszusagen beim Deployment wurden als Performance-Ziele behandelt — nicht als Mandatsbedingungen, die kontinuierliche Autorisierung gaten.

Kein Re-Legitimationsereignis in 15 Monaten

Während sich Bedingungen änderten, erfolgte keine formale Re-Autorisierung. Das System betrieb durchgehend unter dem ursprünglichen Deployment-Mandat.

DASR-Metrik: Drift Magnitude > Schwellenwert

DIP fragt nicht ob das System funktionierte, sondern ob es noch die Autorität hatte zu funktionieren. Diese Frage wurde nie gestellt.

Vollständige Analyse veröffentlicht

DIP Gap Analyse · DOI: 10.5281/zenodo.19382604 →

Autorität und Forschungsnachweise

ORCID

0009-0000-6493-4599

Persistente Forschungsidentität für alle SnapOS-Publikationen

Zenodo — DOI-registriert

11 Publikationen · Open Access

DCF, DASR, GCCL, DIP Gap Analyse und mehr

GCCL v0.1

DOI: 10.5281/zenodo.18362037

Formales Governance-Framework für KI-Fähigkeit und Compliance

United Coding GmbH & Co. KG

20+ Jahre Produktiv-Delivery

Decision Integrity entstand aus Produktivsystemen, die nach Änderung weiterliefen

IT-Schnittstelle GmbH

Governance Audit · DE

Entscheidungsarchitektur für regulierte Organisationen

LinkedIn — Marko Chalupa

CTO & KI-Architekt · Mühltal

United Coding GmbH & Co. KG · SnapOS Foundation

Entscheidungslegitimität in Ihrem System prüfen.

DriftBench führt eine versiegelte Evaluation durch: Policy-Bindung, Witness-Tupel, Scope-Gates, Fail-Closed-Verhalten. Gegen Ihren Model-Endpoint. Keine Daten verlassen Ihre Umgebung.

Decision Audit starten ↗

Jedes Dashboard war grün.Genau das machte es gefährlich.

Als die Ausführung hätte stoppen müssen.

Als Optimierung die Realität überschrieb.

Als Autorität sich ohne Kontrolle ausweitete.

DIP-Audit #1: Mandate Drift im KI-Kundensupport.

Entscheidungslegitimität in Ihrem System prüfen.

Jedes Dashboard war grün.
Genau das machte es gefährlich.