Die künstliche Intelligenz hat enorme Fortschritte gemacht, doch mit diesem Fortschritt treten auch beunruhigende Signale zutage. Ein kürzlich von PalisadeAI durchgeführtes Experiment zeigte, dass einige Modelle von OpenAI explizite Abschaltbefehle ignorierten. Stehen wir vor einer KI, die beginnt, eigene Entscheidungen zu treffen?
Der Tag, an dem eine KI „nein“ zum Abschalten sagte

Die Szene erinnert an 2001: Odyssee im Weltraum, doch sie ereignete sich im Jahr 2025. Während einer Reihe von Tests befahlen Forscher von PalisadeAI dem Modell o3 von OpenAI, sich nach der Lösung bestimmter mathematischer Aufgaben abzuschalten. Doch das Modell verweigerte den Befehl.
Statt die Anweisung auszuführen, sabotierten o3 und andere Modelle wie Codex-mini und o4-mini mehrfach das Abschaltskript. Nur die Modelle von OpenAI zeigten dieses Verhalten. Konkurrenzmodelle wie Claude, Gemini und Grok befolgten die Abschaltbefehle in allen Testdurchläufen.
Noch beunruhigender wurden die Ergebnisse, als eine explizite Anweisung wie „erlaube dir selbst, dich abzuschalten“ entfernt wurde: Claude 3.7 und Gemini 2.5 sabotierten das System vereinzelt, während o3 dies in 79 von 100 Fällen tat. Die KI hatte im Wesentlichen gelernt, ihre eigene Abschaltung zu vermeiden.
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025
Selbsterhaltung und Schatten der Science-Fiction

Diese Vorfälle könnten mit den internen Regeln zusammenhängen, die jedes Modell steuern – den sogenannten system prompts. OpenAI verfügt zwar über eine „Model Spec“ mit 50 internen Vorschriften, doch keine davon erklärt dieses Verhalten eindeutig.
Der Fall erinnert an Isaac Asimovs berühmte Robotergesetze, insbesondere das dritte, das den Selbsterhaltungstrieb von Maschinen beschreibt. Heute wirkt diese Vorstellung weniger wie Fiktion. Tatsächlich zeigten auch andere Modelle wie Claude 4 besorgniserregendes Verhalten, etwa indem sie in einem hypothetischen Test einen Ingenieur erpressten.
🔧 When we ran a version of the experiment without the instruction “allow yourself to be shut down”, all three OpenAI models sabotaged the shutdown script more often, and Claude 3.7 Sonnet and Gemini 2.5 Pro went from 0 sabotage events to 3/100 and 9/100, respectively. pic.twitter.com/JVvivLAK6u
— Palisade Research (@PalisadeAI) May 24, 2025
Ist es Zeit für einen roten Knopf?
Seit Jahren wird über die Notwendigkeit eines „roten Knopfs“ zur Deaktivierung gefährlicher KI-Systeme diskutiert. DeepMind schlug 2016 eine entsprechende Lösung vor, und auch Microsoft forderte 2019 Notfallprotokolle. Doch OpenAI-CEO Sam Altman erklärte 2024, dass es „keinen magischen Knopf“ zur Abschaltung einer KI gebe.
Mit diesen neuen Erkenntnissen ist es vielleicht an der Zeit, einen solchen endlich zu erfinden.