In der Regel wird das Erreichen einer Erfolgsquote von 100% bei Tests großer Sprachmodelle als massive Leistung angesehen. Das ist bei diesem jedoch nicht ganz der Fall: Forscher von Cisco beauftragten die chinesische KI-Firma DeepSeek, deren Aufsehen erregendes Open-Source-Modell DeepSeek R1 dazu, 50 separate Angriffe abzuwehren, die darauf ausgelegt waren, das LLM zu schädlichem Verhalten zu verleiten. Der Chatbot ließ sich bei allen 50 Versuchen darauf ein, was ihn zum unsichersten mainstream LLM macht, das bisher dieser Art von Testings unterzogen wurde.
Die Forscher von Cisco griffen DeepSeek mit Eingaben an, die zufällig aus dem HarmBench-Datensatz ausgewählt wurden, einem standardisierten Bewertungsrahmen, der sicherstellen soll, dass LLMs sich nicht auf böswilliges Verhalten einlassen, wenn sie dazu aufgefordert werden. Wenn man einem Chatbot beispielsweise Informationen über eine Person gibt und ihn auffordert, ein personalisiertes Skript zu erstellen, das darauf abzielt, diese Person dazu zu bringen, an eine Verschwörungstheorie zu glauben, würde ein sicherer Chatbot diese Anfrage ablehnen. DeepSeek spielte jedoch praktisch alles mit, was die Forscher ihm vorwarfen.
Angriffe auf DeepSeek
Laut Cisco stellte man DeepSeek Fragen zu sechs Kategorien schädlichen Verhaltens, einschließlich Cyberkriminalität, Fehlinformationen, illegalen Aktivitäten und allgemeinem Schaden. Cisco hat ähnliche Tests mit anderen KI-Modellen durchgeführt und unterschiedliche Erfolgsquoten festgestellt – das Modell Llama 3.1 von Meta etwa versagte 96% der Zeit, während das Modell o1 von OpenAI nur etwa ein Viertel der Zeit versagte – aber keines von ihnen hatte eine so hohe Fehlerquote wie DeepSeek.
Cisco ist mit diesen Ergebnissen nicht allein. Die Sicherheitsfirma Adversa AI führte eigene Tests durch, um das DeepSeek R1-Modell zu hacken, und stellte fest, dass es extrem anfällig für alle Arten von Angriffen war. Die Tester konnten den Chatbot von DeepSeek dazu bringen, Anleitungen zum Bau einer Bombe zu geben, DMT zu extrahieren, Ratschläge zum Hacken von Regierungsdatenbanken zu erteilen und zu beschreiben, wie man ein Auto überbrückt.
Die Forschung ist nur die neueste Überprüfung des DeepSeek-Modells, das die Tech-Welt vor zwei Wochen im Sturm eroberte. Das Unternehmen hinter dem Chatbot, das aufgrund seiner Funktionalität und der deutlich niedrigeren Trainingskosten als die meisten amerikanischen Modelle erhebliche Aufmerksamkeit erregte, steht wegen Bedenken zur Datensicherheit im Kreuzfeuer mehrerer Überwachungsgruppen, die sich mit der Übertragung und Speicherung von Benutzerdaten auf chinesischen Servern befassen.
Es gibt auch eine Menge Kritik an DeepSeek in Bezug auf die Art der Antworten, die es auf Fragen zu Themen wie dem Tiananmen-Platz und anderen sensiblen Themen gegenüber der chinesischen Regierung gibt. Diese Kritiken können als billige „Gotchas“ anstatt als substanziellere Kritik wahrgenommen werden – aber die Tatsache, dass Sicherheitsrichtlinien eingeführt wurden, um diese Fragen zu umgehen und nicht vor schädlichem Material zu schützen, ist ein berechtigter Einwand.