Am Mittwoch kündigte die Wikimedia Foundation eine Partnerschaft mit Kaggle an – einer beliebten Plattform für die Datenwissenschafts-Community, die zu Google gehört –, um eine für das Training von KI-optimierte Version von Wikipedia zu veröffentlichen. Begonnen wird mit den Sprachen Englisch und Französisch. Die Stiftung bietet dabei abgespeckte Versionen der Wikipedia-Texte an, die keine Referenzen oder Markdown-Code enthalten.
Als gemeinnützige, von Freiwilligen betriebene Plattform finanziert sich Wikipedia größtenteils über Spenden und besitzt die gehosteten Inhalte nicht selbst. Somit kann jeder die Inhalte nutzen und weiterverarbeiten. Die Stiftung hat grundsätzlich nichts dagegen, dass andere Organisationen ihr riesiges Wissensarchiv für verschiedene Zwecke einsetzen – Kiwix zum Beispiel ist eine Offline-Version von Wikipedia, mit der Informationen nach Nordkorea geschmuggelt wurden.
Zu viele Bots: Datenverkehr explodiert, Infrastruktur leidet
Doch eine Flut von Bots, die ununterbrochen die Website nach Trainingsdaten für KI durchforsten, hat zu einem massiven Anstieg des nicht-menschlichen Traffics geführt – ein Problem, das die Stiftung nun adressieren will, da die Kosten explodieren. Anfang dieses Monats erklärte die Foundation, dass der Bandbreitenverbrauch seit Januar 2024 um 50 Prozent gestiegen sei. Die Bereitstellung einer standardisierten, JSON-formatierten Version der Wikipedia-Artikel soll KI-Entwickler davon abhalten, die Website direkt zu überlasten.
„Als die Anlaufstelle der Machine-Learning-Community für Werkzeuge und Tests ist Kaggle extrem begeistert, der Host für die Daten der Wikimedia Foundation zu sein“, sagte Brenda Flynn, Leiterin für Partnerschaften bei Kaggle, gegenüber The Verge. „Kaggle freut sich darauf, eine Rolle dabei zu spielen, diese Daten zugänglich, verfügbar und nützlich zu halten.“
Ein Datenschatz für KI – aber zu welchem Preis?
Es ist kein Geheimnis, dass Tech-Unternehmen Content-Ersteller grundsätzlich wenig respektieren und den kreativen Wert einzelner Personen gering schätzen. In der Branche setzt sich zunehmend die Auffassung durch, dass alle Inhalte frei verfügbar sein sollten – und dass das Training eines KI-Modells mit beliebigen Online-Inhalten als „Fair Use“ gilt, da Sprachmodelle Inhalte angeblich transformieren.
Doch irgendjemand muss diese Inhalte überhaupt erst erstellen – was nicht billig ist. KI-Start-ups zeigen sich jedoch oft wenig interessiert an etablierten Standards, wie zum Beispiel dem Wunsch von Webseitenbetreibern, nicht durch Crawler erfasst zu werden. Sprachmodelle, die menschenähnliche Texte erzeugen, benötigen riesige Mengen an Trainingsdaten – und diese Daten sind im aktuellen KI-Boom so wertvoll wie Öl geworden. Es ist bekannt, dass führende Modelle mit urheberrechtlich geschützten Werken trainiert wurden, und mehrere KI-Unternehmen befinden sich deswegen aktuell in Rechtsstreitigkeiten. Die Bedrohung für Firmen wie Chegg oder Stack Overflow besteht darin, dass KI-Unternehmen deren Inhalte nutzen, diese ihren Nutzern zurückgeben – ohne jemals Traffic an die Ursprungsplattformen zu liefern.
Einige Wikipedia-Beitragende könnten es daher missbilligen, dass ihre Texte für KI-Trainingszwecke verfügbar gemacht werden – aus genau diesen und anderen Gründen. Sämtliche Inhalte auf der Plattform stehen unter der Creative-Commons-Lizenz Attribution-ShareAlike, die es erlaubt, Werke frei zu teilen, anzupassen und sogar kommerziell weiterzuverarbeiten – solange der Urheber genannt und das abgeleitete Werk unter denselben Lizenzbedingungen veröffentlicht wird.
Die Wikimedia Foundation erklärte gegenüber Gizmodo, dass Kaggle für den Zugriff auf die Daten über Wikimedia Enterprise zahlt – ein Premium-Angebot, das es Großnutzern erleichtert, Inhalte wiederzuverwenden. Die Stiftung betonte, dass alle Wiederverwender – auch KI-Entwickler – weiterhin verpflichtet seien, die Wikipedia-Lizenz- und Urheberrechtsregeln zu respektieren.