Künstliche Intelligenz kann mittlerweile realistische Bilder generieren, Romane schreiben, Hausaufgaben erledigen und sogar Proteinstrukturen vorhersagen. Doch eine neue Studie zeigt: An einer eigentlich simplen Aufgabe scheitert sie noch immer kläglich – dem Ablesen der Uhrzeit.
Forscher der Universität Edinburgh haben sieben bekannte multimodale KI-Modelle – also solche, die verschiedene Arten von Medien verarbeiten können – darauf getestet, wie gut sie Uhrzeiten und Kalendereinträge verstehen. Ihre Studie, die im April veröffentlicht wird und bereits auf dem Preprint-Server arXiv verfügbar ist, zeigt, dass KI-Modelle erhebliche Probleme mit diesen grundlegenden Aufgaben haben.
Zeit verstehen ist wichtiger, als man denkt
„Die Fähigkeit, Zeit aus visuellen Informationen zu interpretieren und zu verarbeiten, ist entscheidend für viele praktische Anwendungen – von der Terminplanung bis hin zu autonomen Systemen“, schreiben die Wissenschaftler in ihrer Studie. „Trotz der Fortschritte bei multimodalen KI-Modellen liegt der Fokus meist auf Objekterkennung, Bildbeschreibung oder Szenen-Verständnis. Zeitliche Schlussfolgerungen wurden dagegen kaum erforscht.“
So wurde getestet
Untersucht wurden OpenAIs GPT-4o und GPT-o1, Googles DeepMind Gemini 2.0, Anthropics Claude 3.5 Sonnet, Metas Llama 3.2-11B-Vision-Instruct, Alibabas Qwen2-VL7B-Instruct und ModelBests MiniCPM-V-2.6. Die Forscher fütterten die Modelle mit Bildern analoger Uhren – darunter Varianten mit römischen Zahlen, verschiedenen Zifferblatt-Farben und sogar welche ohne Sekundenzeiger. Zusätzlich erhielten die KI-Modelle Bilder von Kalendern aus den letzten zehn Jahren.
Bei den Uhrenbildern lautete die Frage: Welche Uhrzeit zeigt die Uhr im Bild an? Bei den Kalenderbildern mussten die KI-Modelle sowohl einfache Fragen wie „Welcher Wochentag ist Neujahr?“ als auch komplexere Anfragen wie „Welcher Tag ist der 153. Tag des Jahres?“ beantworten.
Das ernüchternde Ergebnis
Das Fazit: Die KI-Modelle schnitten schlecht ab. Beim Ablesen von analogen Uhren lagen sie in mehr als 75 % der Fälle falsch. Dabei machten sie bei Uhren mit römischen Ziffern oder verzierten Zeigern genauso viele Fehler wie bei Modellen ohne Sekundenzeiger. Das Problem liegt laut den Forschern wohl in der korrekten Erkennung der Zeiger und ihrer Winkel auf dem Zifferblatt.
Beim Test der Uhrenbilder erzielte Googles Gemini 2.0 die beste Leistung. Bei den Kalenderfragen lag OpenAIs GPT-o1 mit einer Treffergenauigkeit von 80 % vorne – allerdings bedeutete das immer noch eine Fehlerrate von 20 %.
„Die meisten Menschen lernen schon als Kinder, die Uhr zu lesen und Kalender zu nutzen. Unsere Ergebnisse zeigen eine erhebliche Schwäche von KI-Modellen bei Aufgaben, die für Menschen alltäglich sind“, sagt Rohit Saxena, Mitautor der Studie und Doktorand an der Universität Edinburgh. „Diese Defizite müssen behoben werden, wenn KI-Systeme in zeitkritische Anwendungen wie Terminplanung, Automatisierung oder Assistenz-Technologien integriert werden sollen.“
Kurz gesagt: Deine Hausaufgaben kann die KI zwar erledigen, aber wenn du pünktlich sein willst, solltest du dich lieber auf deine eigene Uhr verlassen!