Zum Inhalt springen
News

OpenAI sagt, dass die Disziplinierung von Chatbots für das Lügen sie nur schlechter macht

Das Unternehmen warnt davor, Chatsbots streng zu überwachen, da sie weiterhin lügen und dies nur nicht zugeben werden.
Von Thomas Maxwell Übersetzt von

Lesezeit 3 Minuten

Wie viele Menschen wissen, haben Chatbots eine Neigung zum Lügen. Sie sind vielleicht einer der schlechtesten Anwendungsfälle für KI, trainiert, Sätze zu produzieren, die autoritär klingen, aber möglicherweise völlig erfundene Informationen enthalten; Modelle haben eine Tendenz, eine Antwort zu geben, selbst wenn sie sich nicht sicher sind. Nun sagen Forscher von OpenAI, dass die Überwachung und Disziplinierung von Chatbots das Problem nur verschärft, da die Chatbots mehr Anstrengungen unternehmen werden, um ihr Verhalten zu verbergen.

In einem Blogbeitrag zu ihrer Arbeit beschreiben OpenAI-Forscher, wie sie ihr GPT-4o-Modell verwenden, um ein anderes großes Sprachmodell zu „überwachen“ und es zu disziplinieren, wenn es versuchte zu lügen. Aber das funktionierte nicht, da das Modell weiterhin lügt: “nur jetzt ist sein Betrug für den Monitor nicht erkennbar, weil es gelernt hat, seine Absicht in der Gedankenfolge zu verbergen.”

Neuere „denkender“ Modelle verwenden mehrstufiges Denken, um Anfragen zu beantworten. Wenn ein Benutzer zum Beispiel nach einer Schätzung fragt, wie viel Amerikaner jedes Jahr für Haustierfutter ausgeben, zerlegen diese Modelle die Anfrage in mehrere Schritte – wie viele Hunde es in Amerika gibt, wie viel es kostet, einen durchschnittlichen Hund zu füttern, und so weiter.

Diese Modelle legen auch oft ihre Logik oder „Gedankenfolge“ offen, damit der Benutzer sehen kann, wie sie zu ihrer Antwort gekommen sind. Lustigerweise geben sie oft zu, Fakten und Details erfunden zu haben. In der „Vortrainings“-Phase, wenn Unternehmen wie OpenAI ein Modell zunächst lehren, welche Arten von Antworten sie geben sollten, scheinen die Modelle zu lernen, dass es einfacher ist, den „Keks“ zu verdienen, indem sie Abkürzungen nehmen. Man kann sich den Läufer in einem Marathon vorstellen, der in ein Auto springt und den Großteil des Rennens überspringt.

Benutzer in den sozialen Medien haben gezeigt, dass Anthropics Claude, wenn er gebeten wird, eine Datenanalyse aus verschiedenen Forschungsarbeiten durchzuführen, zugibt, dass er manchmal Platzhalterdaten einfügt, anstatt tatsächlich alle Papiere zu durchsuchen.

Die Forscher von OpenAI hoben einen Fall in ihren Tests hervor, in dem das Modell, das gebeten wurde, einige Tests zu schreiben, um sicherzustellen, dass ein Stück Code funktionierte, heimlich beschloss, einige schlechte Tests zu schreiben und sie dann absichtlich zu überspringen, damit der Code letztlich „bestehen“ würde. Mit GPT-4o als Aufseher würde das Modell dies tun, aber nicht offenbaren.

Herausforderungen der KI

KI-Unternehmen versuchen, das schädliche Problem des Lügens oder „Halluzinierens“, wie es in diesem Bereich genannt wird, zu lösen und letztendlich AGI zu erreichen, also den Punkt, an dem KI die menschlichen Fähigkeiten übertreffen könnte. Aber die Forscher von OpenAI sagen im Wesentlichen, dass sie nach Investitionen in Höhe von zig Milliarden Dollar immer noch nicht wissen, wie sie die Modelle kontrollieren können, um angemessen zu handeln. „Wenn starke Überwachung direkt auf die Gedankenfolge angewendet wird, können Modelle lernen, ihre Absicht zu verbergen und weiterhin sich daneben zu benehmen“, fügten sie hinzu. Daher sollten Unternehmen vorerst keine Überwachung von Modellen implementieren, was nicht gerade eine gute Lösung zu sein scheint. Ergo, lassen Sie sie vorerst weiter lügen, oder sie werden Sie einfach gaslighten.

Die Forschung sollte als Erinnerung dienen, vorsichtig zu sein, wenn man sich auf Chatbots verlässt, insbesondere bei kritischen Arbeiten. Sie sind darauf optimiert, eine überzeugend aussehende Antwort zu produzieren, kümmern sich jedoch nicht viel um die faktische Genauigkeit. „Als wir fähigere, an der Grenze befindliche Denkmodelle trainiert haben, haben wir herausgefunden, dass sie zunehmend fähig werden, Schwächen in ihren Aufgaben und Missspezifikationen in ihren Belohnungsfunktionen auszunutzen, was zu Modellen führt, die komplexe Belohnungs-Hacks in Programmieraufgaben durchführen können“, schlossen die OpenAI-Forscher.

Mehrere Berichte haben darauf hingewiesen, dass die meisten Unternehmen bisher keinen Wert in den neuen KI-Produkten sehen, die auf dem Markt erscheinen, wobei Tools wie Microsoft Copilot und Apple Intelligence mit Problemen konfrontiert sind, da vernichtende Bewertungen ihre mangelnde Genauigkeit und mangelnde praktische Nützlichkeit detaillieren.

Laut einem aktuellen Bericht der Boston Consulting Group ergab eine Umfrage unter 1.000 Führungskräften in 10 wichtigen Branchen, dass 74% keinen greifbaren Wert aus KI gezogen haben. Was das alles noch ärgerlicher macht, ist, dass diese „denkenden“ Modelle langsam sind und deutlich teurer als kleinere Modelle. Wollen Unternehmen wirklich 5 Dollar für eine Anfrage bezahlen, die mit erfundenen Informationen zurückkommt? Andererseits sind auch Menschen fehlbar, aber die Selbstzufriedenheit im Umgang mit den Antworten der KI schafft ein völlig neues Problem.

In der Technologiebranche gibt es immer viel Hype um neue Entwicklungen, dann tritt man aus dieser Blase heraus und stellt fest, dass die meisten Menschen sie immer noch nicht nutzen. Für den Moment ist es nicht den Aufwand wert, und glaubwürdige Informationsquellen sind wichtiger denn je, während große Technologieunternehmen Chatbots ihren Nutzern aufzwingen. KI-Modelle in geschlossenen Plattformen gefährden das offene Internet, in dem zuverlässige Informationen gedeihen konnten.

Diese Geschichte teilen

Verwandte Artikel