Zum Inhalt springen
Tech

Scanfehler wird Wissenschaftsbegriff – und KI macht ihn unsterblich

Ein Tippfehler aus den 50ern, ein Scanfehler, und schon war ein neuer wissenschaftlicher Begriff geboren: „vegetative Elektronenmikroskopie“. Klingt beeindruckend – ist aber völliger Quatsch. Das Problem: Künstliche Intelligenz hat den Begriff in ihre Wissensbasis übernommen. Und jetzt wird er sie nicht mehr los.
Von Isaac Schultz Übersetzt von

Lesezeit 2 Minuten

Ein Irrtum wird digital verewigt

Was passiert, wenn eine Künstliche Intelligenz beim Durchstöbern wissenschaftlicher Texte auf einen Fehler stößt – und ihn für bare Münze nimmt? Genau das ist mit dem Begriff „vegetative Elektronenmikroskopie“ passiert. Der Ausdruck klingt technisch, vielleicht sogar plausibel, aber in Wahrheit ergibt er überhaupt keinen Sinn.

Die Spur führt zurück in die 1950er-Jahre, genauer gesagt zu zwei Artikeln in der Zeitschrift Bacteriological Reviews. Damals wurden die Texte in Spalten gesetzt – ganz normal für wissenschaftliche Publikationen jener Zeit. Jahrzehnte später wurden sie digitalisiert. Dabei machte ein Scanprogramm einen folgenschweren Fehler: Es vermischte Text aus zwei nebeneinanderliegenden Spalten und setzte Begriffe wie „vegetative“ und „electron“ zusammen. Das Ergebnis war ein Ausdruck, der nie existieren sollte – und dennoch zu einem „digitalen Fossil“ wurde.

Solche Fossilien sind besonders tückisch: Sie tauchen immer wieder in KI-generierten Inhalten auf, weil sie Teil der Trainingsdaten geworden sind. Selbst neue Modelle wie GPT-4o oder Claude 3.5 spucken den Begriff aus, wenn man sie mit Auszügen aus den Originaltexten füttert. Ältere Modelle wie GPT-2 hingegen erkennen das Problem noch nicht – ein Hinweis darauf, wann der Fehler in den Datensätzen Einzug hielt.

Wenn Wissenschaft und KI sich gegenseitig verstärken

Der Begriff tauchte erstmals wieder in aktuellen Fachartikeln aus dem Iran auf – möglicherweise durch eine sprachliche Verwechslung im Persischen, wo sich die Begriffe für „vegetativ“ und „scanning“ nur durch einen kleinen Punkt unterscheiden. Ursprünglich sollte wohl von „Rasterelektronenmikroskopie“ die Rede sein, einer realen und wichtigen Technik. Doch aus dem Übersetzungsfehler wurde durch KI-Verarbeitung ein vermeintlich legitimer Begriff.

Ein Forscherteam untersuchte den Vorfall und machte den CommonCrawl-Datensatz verantwortlich – ein gigantischer Fundus aus Milliarden Internetseiten, der häufig für das Training von KI-Modellen genutzt wird. Das Problem: Diese Datenmenge ist so gewaltig, dass sich einzelne Fehler kaum herausfiltern lassen. Und selbst wenn sie entdeckt werden, ist es fast unmöglich, sie rückwirkend aus bereits trainierten Modellen zu entfernen.

Besonders problematisch wird das Ganze, wenn wissenschaftliche Verlage ebenfalls nicht genau hinschauen. Der Verlag Elsevier zum Beispiel veröffentlichte einen Artikel, in dem „vegetative electron microscopy“ ernsthaft diskutiert wurde – erst nachträglich wurde der Fehler eingestanden und korrigiert. Die Fachzeitschrift Frontiers musste letztes Jahr sogar einen ganzen Artikel zurückziehen, weil KI-generierte Inhalte darin völlig absurde Abbildungen enthielten – darunter vermeintliche biologische Darstellungen von Rattengenitalien.

Ein Forschungsteam der Harvard Kennedy School warnte kürzlich vor dem wachsenden Problem der sogenannten Junk Science, also Pseudowissenschaft, die über Plattformen wie Google Scholar verbreitet wird. KI spielt dabei eine nicht unwesentliche Rolle, indem sie fehlerhafte Informationen verstärkt und weiterträgt.

Künstliche Intelligenz ist zweifellos ein mächtiges Werkzeug für die Forschung – aber nur so gut wie die Daten, mit denen sie trainiert wurde. Und wenn diese Daten Fehler enthalten, multipliziert die KI sie unermüdlich weiter. Der Fall „vegetative Elektronenmikroskopie“ zeigt, wie leicht sich Fiktion in Fakten verwandeln kann – und wie schwer es ist, diesen Irrtum wieder rückgängig zu machen.

Diese Geschichte teilen

Verwandte Artikel