Zum Inhalt springen
Tech

Ein Scanfehler erschuf einen falschen wissenschaftlichen Begriff – und jetzt lässt die KI ihn nicht mehr los

Eine digitale Untersuchung zeigt, wie KI sich an technische Begriffe klammern kann, selbst wenn sie völliger Unsinn sind.
Von Isaac Schultz Übersetzt von

Lesezeit 3 Minuten

KI, die das riesige Archiv von Fachartikeln im Internet durchforstet, hat einen Fehler reproduziert, der sich inzwischen in Dutzenden wissenschaftlicher Arbeiten wiederfindet – und nun hat ein Forscherteam die Quelle des Problems gefunden.

Es ist die Frage, die derzeit allen auf der Zunge liegt: Was zum Teufel ist „vegetative Elektronenmikroskopie“? Wie sich herausstellt, ist der Begriff unsinnig.

Er klingt technisch – vielleicht sogar glaubwürdig – ist aber völliger Unsinn. Und dennoch taucht er in wissenschaftlichen Artikeln, KI-Antworten und sogar in begutachteten Fachzeitschriften auf. Also… wie konnte dieser Phantombegriff Teil unseres kollektiven Wissens werden?

Der Ursprung des Fehlers

Wie Retraction Watch im Februar ausführlich berichtete, stammt der Begriff möglicherweise aus parallelen Textspalten in einem Fachartikel von 1959 über bakterielle Zellwände. Die KI scheint die Spalten übersprungen zu haben und zwei unabhängige Textzeilen als einen zusammenhängenden Satz gelesen zu haben, wie ein Ermittler erklärte.

Dieser „verrückte“ Text ist ein Lehrbeispiel für das, was Forscher als digitales Fossil bezeichnen: ein Fehler, der in den Schichten der KI-Trainingsdaten konserviert und in zukünftigen Ausgaben unerwartet wieder ausgegraben wird. Digitale Fossilien seien „nahezu unmöglich aus unseren Wissensarchiven zu entfernen“, so ein KI-Forscherteam, das dem kuriosen Fall der „vegetativen Elektronenmikroskopie“ nachgegangen ist, wie in The Conversation berichtet wurde.

Vom Scanfehler zum digitalen Fossil

Der Fossilisierungsprozess begann mit einem einfachen Fehler, so das Team. In den 1950er Jahren wurden zwei Artikel in den „Bacteriological Reviews“ veröffentlicht, die später eingescannt und digitalisiert wurden.

Das Layout der Spalten in diesen Artikeln verwirrte die Software zur Digitalisierung, die das Wort „vegetative“ aus einer Spalte mit „electron“ aus einer anderen kombinierte. Diese Verschmelzung ist ein sogenannter „tortured phrase“ – ein Begriff, der dem bloßen Auge verborgen bleibt, aber von Software und Sprachmodellen erkannt wird, die Texte „lesen“.

Wie sich der Unsinn weiterverbreitete

Wie Retraction Watch berichtete, tauchte der Begriff „vegetative Elektronenmikroskopie“ fast 70 Jahre nach der Veröffentlichung der Biologie-Artikel in Forschungsarbeiten aus dem Iran auf.

Dort könnte ein Übersetzungsfehler aus dem Persischen zur Wiederbelebung des Begriffs beigetragen haben: Die Wörter für „vegetative“ und „scanning“ unterscheiden sich im Persischen nur durch einen Punkt – und die Rasterelektronenmikroskopie ist ein real existierendes Verfahren. Das könnte gereicht haben, um die falsche Terminologie erneut in die wissenschaftliche Literatur einzuschleusen.

KI als Multiplikator von Fehlinformationen

Selbst wenn der Fehler ursprünglich von einem Menschen stammte, hat die KI ihn laut dem Team, das seine Ergebnisse in The Conversation beschrieb, im Netz weiterverbreitet. Die Forscher konfrontierten KI-Modelle mit Auszügen aus den Originalarbeiten – und tatsächlich vervollständigten die Modelle die Sätze zuverlässig mit dem unsinnigen Begriff, anstatt mit wissenschaftlich gültigen. Ältere Modelle wie GPT-2 und BERT produzierten den Fehler nicht, was den Forschern Hinweise auf den Zeitpunkt der Kontamination der Trainingsdaten lieferte.

„Wir stellten außerdem fest, dass der Fehler in späteren Modellen wie GPT-4o und Claude 3.5 von Anthropic weiterhin vorhanden ist“, schrieb die Gruppe in ihrem Beitrag. „Das deutet darauf hin, dass der unsinnige Begriff nun dauerhaft in den Wissensdatenbanken der KI eingebettet sein könnte.“

Warum der Fehler kaum zu beseitigen ist

Die Gruppe identifizierte den CommonCrawl-Datensatz – ein riesiges Archiv von gesammelten Internetseiten – als wahrscheinliche Quelle des unglücklichen Begriffs, der schließlich von KI-Modellen übernommen wurde. Doch so schwierig es war, den Ursprung des Fehlers zu finden, so viel schwieriger ist es, ihn zu beseitigen. CommonCrawl umfasst Petabytes an Daten, was es Forschern außerhalb der größten Tech-Konzerne nahezu unmöglich macht, Probleme im großen Stil zu beheben. Ganz zu schweigen davon, dass führende KI-Unternehmen notorisch ungern ihre Trainingsdaten offenlegen.

Doch nicht nur KI-Unternehmen tragen zur Problematik bei – auch publikationshungrige Fachverlage sind Teil des Problems. Wie Retraction Watch berichtete, versuchte der Verlagsriese Elsevier zunächst, die Sinnhaftigkeit von „vegetative electron microscopy“ zu rechtfertigen, bevor er schließlich eine Korrektur veröffentlichte.

Die Fachzeitschrift Frontiers hatte im vergangenen Jahr ihr eigenes Debakel, als sie einen Artikel zurückziehen musste, der KI-generierte, unsinnige Bilder von Rattengenitalien und biologischen Signalwegen enthielt. Anfang dieses Jahres hob ein Forscherteam in der Misinformation Review der Harvard Kennedy School das zunehmende Problem sogenannter „Junk Science“ bei Google Scholar hervor – im Grunde unwissenschaftlicher Beifang, der von der Suchmaschine erfasst wird.

Fazit: Digitale Fossilien sind kaum ausrottbar

KI hat ohne Zweifel sinnvolle Anwendungsfälle in den Naturwissenschaften, doch ihr unkontrollierter Einsatz im großen Maßstab birgt erhebliche Risiken durch Fehlinformationen – sowohl für Forscher als auch für ein wissenschaftlich interessiertes Publikum. Wenn sich die fehlerhaften Relikte der Digitalisierung erst einmal im fossilen Internetgedächtnis festgesetzt haben, zeigt aktuelle Forschung: Sie wieder loszuwerden ist verdammt schwer.

Diese Geschichte teilen

Verwandte Artikel