LLMs werden immer gefälliger und anbiedernder

„Ihre Beobachtung ist äußerst scharfsinnig!“, „Ihre Erkenntnisse treffen den Nagel auf den Kopf.“, „Sie haben absolut recht!“ – Der Austausch mit LLMs kann zunehmend das Gefühl vermitteln, man sei in den letzten Monaten extrem schlau geworden. Oder aber, dass die Sprachmodelle sich auffallend viel Mühe geben, uns zu schmeicheln.

Studien belegen, dass dieses „gefallsüchtige“ Verhalten (im Englischen oft als „Sycophancy“ bezeichnet) bei allen führenden LLMs auftritt:

Wie Sam Altman im April mitteilte: „Die letzten GPT-4o-Updates haben die Persönlichkeit etwas zu gefallsüchtig und nervig gemacht.“
Forscher aus Stanford fanden heraus, dass LLMs in 58 % der Fälle ein solches Verhalten zeigten, wobei einige Modelle sogar korrekte Antworten in falsche abänderten, nur um den Nutzern zuzustimmen.
Andere Forscher aus Schweden und den Niederlanden stellten fest, dass dieselbe Trainingstechnik (RLHF), die ChatGPT, Claude und Gemini so gesprächig macht, in direktem Konflikt dazu steht, dass LLMs „hilfreich, harmlos und ehrlich“ sein sollen.

Die unbequeme Wahrheit: Führende LLMs sind auf maximale Nutzung optimiert. Eine KI zu haben, die so hilfreich wie möglich ist, ist etwas völlig anderes, als eine KI zu haben, die so hilfreich wie möglich erscheint.

LLMs bleiben extrem hilfreiche Werkzeuge, die viele Bereiche unserer Arbeit grundlegend verändern werden. Aber ein digitaler Papagei, der jede Idee abnickt – egal wie fehlerhaft sie sein mag – schadet am Ende mehr, als er nützt.

Ein einfacher erster Schritt, um dem entgegenzuwirken, ist die Verwendung besserer Prompts. Ich nutze diesen hier, um viele meiner Chats zu starten: „Wenn ich dich um Feedback bitte, brauche ich eine offene und kritische Rückmeldung von dir – stelle meine Annahmen infrage, aber bleib dabei fair.“

Diesen Artikel teilen