Von Pharmaunternehmen verlangen wir Auskunft darüber, welche Inhaltsstoffe in ihren Medikamenten stecken. Bei KI stellen wir diese Frage nicht – und genau das sollten wir hinterfragen.
Bei Technologien mit erheblichem Missbrauchspotenzial ist es üblich, bereits ihre Entwicklung zu überprüfen. Nur bei KI nicht – hier konzentrieren wir uns auf die Frage: „Wie kontrollieren wir diese Waffe?“ Warum ist das bei KI anders?
General-Purpose AI
Statt zu fragen: „Wie wird sie entwickelt, und für welchen Zweck?“, akzeptiert die öffentliche Debatte schlicht, dass generative KI für vermeintlich alles eingesetzt werden kann. Schließlich soll genau darin die Stärke solcher „General-Purpose AI“ (also universell einsetzbarer KI) liegen. Aber: universell einsetzbar ist nicht dasselbe wie für alles einsetzbar.
Führende KI-Firmen wie Anthropic und OpenAI räumen selbst ein, dass ihre leistungsstärksten KI-Modelle das Risiko bergen, sicherheitskritische Informationen preiszugeben – etwa zur Herstellung biologischer und chemischer Waffen. Eine KI, die buchstäblich alles weiß, kann also nicht unser Ziel sein.
Die Ernsthaftigkeit, mit der wir diese Diskussion führen, ist relativ neu. Vor dem Aufkommen von Large Language Models (großen Sprachmodellen, wie sie etwa hinter ChatGPT stehen) war es in der angewandten KI-Entwicklung gängige Praxis, viel Zeit in die Aufbereitung und Filterung der Daten zu investieren, die in das Training einer KI einfließen. Ein Grund dafür: Die damaligen Modelle waren weniger leistungsfähig, sodass wir gezwungen waren, sie gezielt für eine einzige Domäne zum Laufen zu bringen.
Heute, mit Foundation Models (den general-purpose Basismodellen), die in einer Vielzahl von Domänen gut funktionieren, hat sich das Narrativ umgekehrt. Eine KI wird überwiegend dadurch an ihre Aufgabe angepasst, dass ein bereits fertig trainiertes Modell nachjustiert wird. Die Aufbereitung der Daten vor dem Training haben wir durch Post-Training-Methoden (Anpassungen nach dem Training) ersetzt.
Das erhöht den Komfort für Entwickler – und ist für viele Zwecke ein guter Weg. Wir müssen uns aber darüber im Klaren sein, wo die Grenzen dieses Ansatzes liegen.
Die unterschiedlichen Risikotypen von General-Purpose AI
Ganz grundsätzlich lassen sich beim Einsatz generativer KI zwei Risikokategorien unterscheiden: Risiken, die aus der Interaktion der Nutzer mit der KI entstehen, und Risiken, die sich auf gefährliches Wissen beziehen, das die KI mit Nutzern teilt.
- Interaktion: Dazu zählen etwa anbiederndes Verhalten (Sycophancy), die Verbreitung von Hassrede und Vorurteilen oder das Bestärken schädlichen Verhaltens. Diese Risiken lassen sich gut durch Post-Training-Methoden eindämmen (z. B. auf Basis menschlichen Feedbacks).
- Wissen: Prominente Beispiele aus der öffentlichen Diskussion sind Erkenntnisse, die beim Bau biologischer und chemischer Waffen helfen, oder Hackern Angriffe auf Cloud-Anwendungen erleichtern. Hier können Post-Training-Methoden ebenso eingesetzt werden wie die Filterung der Daten, bevor das KI-Training überhaupt beginnt.
Kontrollen der Interaktion sitzen also gewissermaßen „obenauf“ auf dem KI-Modell – und können optimiert, aber auch per Jailbreak umgangen werden (also durch gezieltes Aushebeln der Schutzmechanismen). Die Filterung der Daten hingegen verändert, was überhaupt im Inneren des Modells steckt und worauf es zurückgreifen kann.
Diese Unterscheidung ist wichtig. Die wissensbasierten Risiken standen im Zentrum der jüngsten Diskussionen, in denen Tech-CEOs vor den Gefahren warnen, die von KI-Modellen für die Menschheit ausgehen. Dieselben Unternehmen haben sich darauf konzentriert, ihre KI-Modelle so schnell wie möglich anwachsen zu lassen – und brauchten dafür so viele Daten, wie sie nur fassen konnten. Sich für die Kuratierung der Daten Zeit zu nehmen, hätte langsameres Wachstum für die Modelle bedeutet – und die Gefahr, hinter die Konkurrenz zurückzufallen.
Aber was, wenn genau solche Filtermethoden der effizienteste Weg gewesen wären, um die Risiken zu vermeiden, vor denen ihre CEOs heute selbst warnen?
Kann das Filtern von Trainingsdaten KI sicherer machen?
Wissenschaftler haben herausgefunden: Gefährliche Daten vor dem Training herauszufiltern ist mehr als zehnmal robuster, als ein Modell im Nachhinein zu korrigieren – ohne dass dabei die Qualität an anderer Stelle leidet.
Konkret haben Wissenschaftler von EleutherAI, dem UK AI Security Institute und der Universität Oxford in einem aktuellen Forschungspapier untersucht, wie sich die neuesten KI-Modelle (LLMs) widerstandsfähiger gegen den schädlichen Missbrauch durch böswillige Nutzer gestalten lassen. [1] Am Beispiel des Missbrauchs von KI für biologische Bedrohungen (etwa Biowaffen) zeigten sie: Werden die richtigen Informationen vor dem Training herausgefiltert, ist es mehr als zehnmal schwerer, dem Modell „gefährliches Wissen“ nachträglich wieder zu entlocken, als wenn die KI erst nach Abschluss des Trainings nachjustiert wird. Gleichzeitig blieb das Modell bei allen Themen, die nicht herausgefiltert wurden, genauso leistungsfähig.
Erinnern Sie sich an die Ausgangslage: Die ursprüngliche Annahme der KI-Firmen war, dass Datenkuratierung das Wachstum bremst. Die Forschung zeigt aber: Diese Annahme ist falsch.
Perfekt ist dieser Mechanismus nicht – ein Rest an Wissen, das sich missbrauchen lässt, bleibt bestehen. Die Forscher weisen zudem darauf hin, dass eine auf gefilterten Daten trainierte KI später dennoch auf gefährliches Wissen zugreifen könnte - etwa über Werkzeuge wie der Internetsuche. Der Effekt, „gefährliches Wissen“ zu reduzieren, das eine KI weitergeben kann, ist dennoch erheblich.
Wir sollten von Anfang an mitdenken, was eine KI nicht wissen darf
Was sich seit der Veröffentlichung von ChatGPT verändert hat, ist, wie wir KI grundsätzlich betrachten: KI-Modelle können nun angeblich alles lösen. Wir stellen nicht einmal mehr die Frage, wie sich diese Modelle auf einen bestimmten Zweck beschränken lassen. Dabei steht bei den meisten Business-Anwendungen der Verwendungszweck von Anfang an fest. Es gibt keinen Grund – und keinen Mehrwert – dafür, dass unsere KI weiß, wie man Waffen baut.
Wenn Führungskräfte aus der Tech-Branche nach stärkerer Regulierung rufen, schwingt im Subtext meist mit: Solange wir uns darum kümmern, wird alles gut. Sie verschweigen dabei, dass sie die wissensbasierten Risiken selbst beschleunigt haben, indem sie ihre KI-Modelle so schnell wie möglich skaliert haben – und fordern nun mehr Kontrolle, um eben diese Risiken zu managen.
Wer verstanden hat, wie sich wissensbasierte Risiken eindämmen lassen, erkennt: Solchen Aussagen sollten wir mit deutlicher Skepsis begegnen.
Wir sollten den Rufen der Tech-Chefs nach stärkerer Regulierung nicht blind folgen. In der Pharmaindustrie existieren beispielsweise strenge Kontrollen und Berichtspflichten darüber, welche Inhaltsstoffe bei der Herstellung von Medikamenten verwendet werden und welche Maßnahmen ergriffen wurden, um potenzielle Risiken zu quantifizieren. Ein solcher Ansatz fehlt für KI bislang – dabei würde er auch hier helfen, Risiken zu verringern.
Gute Regulierung muss das Rad daher nicht neu erfinden. Vielleicht müssen wir einfach zurück kehren zu den Wurzeln – und die Herausforderungen des Data Engineerings und der Datenfilterung wieder in den Vordergrund rücken.
So machen Sie Ihre eigenen KI-Lösungen sicherer
Was bedeutet das nun für Manager oder Product Owner, die KI in ihre Lösungen integrieren wollen?
Wie wir gesehen haben, ist das Wissen, das in eine KI gelangt, zugleich Quelle ihres immensen Mehrwerts wie auch ihrer potenziellen Risiken. Dabei zählen aber nicht nur die Daten, die während des Trainings einer KI verwendet werden. Viele KI-Anwendungen stützen sich auf Fähigkeiten wie Interneetsuche oder RAG-Wissensdatenbanken, die laufend neues Wissen recherchieren.
Auch diese Fähigkeiten können Risiken bergen, wenn sie schädliche oder falsche Informationen liefern. Die gute Nachricht: Wie Sie diese Fähigkeiten integrieren, liegt vollständig in Ihrer Hand. Nehmen Sie sich also die Zeit, die Datenquellen sorgfältig zu prüfen, auf die Ihre KI-Lösungen ihre Informationen stützen.
Wenn Sie sich also nur eine Sache aus diesem Artikel merken, dann diese: Es kommt darauf an, die Daten, die in eine KI einfließen, zu kontrollieren und transparent zu machen. Und: Trennen Sie bei der Bewertung von KI-Risiken schädliches Wissen von schädlicher Nutzerinteraktion.
Referenzen:
[1] Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs; from Kyle O'Brien et al, EleutherAI, the UK AI Security Institute and the University of Oxfors; arXiv:2508.06601v2