Die Versprechen der Künstlichen Intelligenz scheinen keine Grenzen zu kennen. Doch in der Praxis mehren sich Zweifel, wie weit diese Systeme wirklich reichen. Eine aktuelle Studie von Apple zieht die Zuverlässigkeit selbst der fortschrittlichsten Modelle in Zweifel – insbesondere, wenn sie mit tiefgreifendem logischen Denken konfrontiert werden. Damit beginnt ein neuer Streit – vielleicht sogar ein technischer Stellvertreterkrieg unter den großen Konzernen.
Eine angebliche Intelligenz, die an Komplexität scheitert
Der Bericht, veröffentlicht von Apple Research, konzentriert sich auf sogenannte Large Reasoning Models (LRM) – KI-Systeme, die dafür entwickelt wurden, mehrstufige logische Aufgaben zu lösen. Beim Testen mit zunehmend komplexeren Rätseln stellten die Forscher ein beunruhigendes Muster fest: Je schwieriger die Aufgabe, desto schlechter das Ergebnis.

Laut der Studie verbessern sich die Modelle nicht einmal mit gezielten Hinweisen – im Gegenteil: In manchen Fällen schnitten sie schlechter ab als weniger „intelligente“ Systeme. Anstatt sich mehr anzustrengen, scheinen sie bei besonders fordernden Herausforderungen regelrecht zu „kapitulieren“. Hinter dieser Kritik sehen viele auch eine strategische Positionierung: Apple will sich von Konkurrenten wie OpenAI oder Google abgrenzen – und eigene Standards setzen.
Die Illusion des Denkens: Antworten sie – oder kopieren sie nur?
Apple argumentiert, dass das vermeintliche Denken dieser Systeme lediglich eine elegante Simulation ist. Sie denken nicht – sie assoziieren. Sie erkennen Muster, können diese aber nicht in echte Logik übertragen, wenn formales Denken gefordert ist. Das bekannte Rätsel der Türme von Hanoi verdeutlicht das Problem: Selbst bei schrittweiser Anleitung wählen die Modelle falsche Wege – bis sie aufgeben.
Solche Fehler erinnern an kognitive Verzerrungen beim Menschen, etwa die sogenannte Validitätsillusion: Entscheidungen werden mit hoher Überzeugung getroffen – nur weil sie „richtig wirken“. Das Problem liegt also nicht nur in den Trainingsdaten, sondern auch in der Art und Weise, wie diese Systeme „lernen“ sollen.
Warum kollabieren sie beim Denken?

Die Studie nennt drei Hauptgründe für das Scheitern der Modelle:
-
Ein übermäßiger Rückgriff auf bereits gelernte Muster.
-
Eine starre Logik, die keine Anpassung erlaubt.
-
Die Neigung, schnelle statt korrekte Antworten zu liefern.
Dies führt zu Systemen, die in vertrauten Kontexten gut funktionieren – aber bei Neuem versagen. Einige Fachleute fordern nun grundlegende Änderungen in der Netzwerkarchitektur oder die Einbindung symbolischer Logik. Andere plädieren dafür, explizite Regeln bereits in der Lernphase zu verankern.
Eine Warnung für die Zukunft der KI?
Abseits der Studie wächst die Sorge: Wenn diese KIs bei komplexen Problemen versagen – was bedeutet das für kritische Anwendungsfelder, in denen Fehler keine Option sind? Die Metapher des „Zusammenbruchs“ ist keineswegs übertrieben: Es geht nicht nur ums Scheitern – sondern ums Aufgeben. Ein unerwartetes Limit in einem Rennen, das bisher grenzenlos erschien.
Vielleicht ist es an der Zeit, das bloße Wiedergeben gelernter Muster nicht mehr zu feiern – und stattdessen wirklich denkende Systeme zu entwickeln. Solche, die mit derselben Strenge und Tiefe argumentieren wie Menschen in Wissenschaft oder Mathematik.
Quelle: Meteored.