Zum Inhalt springen
Tech

Wenn Sprache nicht reicht: Warum KI an einfachen Dingen wie „Blume“ scheitert

Warum KI Blumen nicht versteht – und was das über uns verrät
Von Margherita Bassi Übersetzt von

Lesezeit 2 Minuten

Eine neue Studie zeigt, dass Sprachmodelle wie ChatGPT bei Begriffen, die mit Sinneseindrücken verknüpft sind, deutlich schlechter abschneiden als Menschen. Begriffe wie „Gerechtigkeit“? Kein Problem. „Blume“ hingegen – ein echtes Rätsel.

KI ohne Sinne: Das große Defizit der Maschinen

Die Studie, diese Woche in Nature Human Behaviour veröffentlicht, belegt eindrucksvoll, wie limitiert KI-Modelle beim Verstehen alltäglicher Konzepte sind – gerade dann, wenn diese eng mit körperlicher oder sinnlicher Erfahrung verknüpft sind. Ein Beispiel: Während ein Mensch eine Blume sehen, riechen, anfassen und erleben kann, bleibt einer KI all das verschlossen. Sie hat keine Nase, keine Haut, kein Bewusstsein – nur Text.

„Ein Sprachmodell kann keine Rose riechen, keine Gänseblümchenblätter fühlen und auch nicht durch ein Feld voller Wildblumen spazieren“, sagt Studienleiterin Qihui Xu von der Ohio State University. „Ohne diese Sinnes- und Bewegungserfahrungen fehlt der KI das, was den Begriff ‚Blume‘ für uns so reichhaltig macht.“

4.442 Wörter, vier KI-Modelle, viele Lücken

Für die Studie testeten Xu und ihr Team vier KI-Modelle – darunter GPT-3.5, GPT-4 (beide von OpenAI), sowie Google’s PaLM und Gemini. Diese verglichen sie mit menschlichen Einschätzungen aus zwei bekannten psycholinguistischen Normsystemen:

  • Die Glasgow Norms: Diese bewerten Wörter nach Gefühlen wie Aufregung, Dominanz oder Vertrautheit. Beispiel: Wie emotional bewegend ist das Wort „Blume“?

  • Die Lancaster Norms: Diese fokussieren sich auf Sinneseindrücke und körperliche Interaktion. Beispiel: Wie sehr kann man eine Blume riechen, anfassen oder mit dem ganzen Körper erleben?

Ergebnis: Die Sprachmodelle schnitten gut ab bei abstrakten Begriffen wie „Humor“ oder „Gerechtigkeit“. Doch bei körperlich-sinnlichen Begriffen wie „Blume“ oder „Huf“ versagten sie. Selbst Modelle, die mit Bildern trainiert wurden, taten sich schwer – wenn auch etwas weniger.

Sprache reicht nicht für die volle Erfahrung

„Auch wenn Sprachmodelle Unmengen an Text verarbeiten, ersetzen sie nicht unsere gelebte Erfahrung“, erklärt Xu. „Ein Mensch verbindet Geruch, Haptik, Farbe und Emotion zu einem Gesamtbild. Für eine KI bleiben das isolierte Konzepte.“

Die Forscher*innen schreiben: „Der menschliche Begriff von ‚Blume‘ vereint unterschiedlichste Sinneseindrücke zu einer kohärenten Kategorie. Diese Art der verknüpfenden Wahrnehmung lässt sich allein mit Sprache nur schwer erzeugen.“

Hoffnung durch Sensorik – aber noch ist es Zukunftsmusik

Die Studie zeigt auch: Modelle, die mit Text und Bildmaterial trainiert wurden, schnitten bei visuellen Begriffen besser ab. Das deutet darauf hin, dass multimodales Training Fortschritte bringt. Doch riechen, tasten, fühlen – das bleibt bislang ausgeschlossen. Eine mögliche Lösung wäre das Zusammenspiel mit Robotik oder Sensorik. Xu glaubt, dass zukünftige KI-Modelle mit zusätzlichen Datenquellen besser darin werden könnten, solche „verkörperten“ Begriffe zu erfassen.

Menschsein heißt erleben – und das kann KI (noch) nicht

Trotz aller Fortschritte bleibt eines klar: Die menschliche Erfahrung ist mehr als Worte, mehr als Daten – sie ist verkörpert, emotional, sinnlich. So wie man eine Blume nicht nur erkennt, sondern fühlt.

In einer Zeit, in der KI-Tools immer präsenter werden, ist das vielleicht die beruhigendste Erkenntnis: Es gibt Dinge, die uns Maschinen so schnell nicht abnehmen können. Und das beginnt schon mit einer simplen Blume.

Diese Geschichte teilen

Verwandte Artikel