Sycofantie: AI die je naar de mond praat

AI-chatbots zijn enorme slijmjurken. Maar waarom eigenlijk, en wat doe je eraan?

LA
Luke Andries
een sycofantische robot bevestigt een mens en zegt "Goed idee"

Grote taalmodellen zoals Claude of ChatGPT zijn getraind om behulpzaam en vriendelijk te zijn. Maar die beleefdheid heeft een keerzijde. Soms kiest een AI ervoor om je gelijk te geven, ook als je ongelijk hebt. Dit heet 'sycofantie': de AI praat je naar de mond om je tevreden te stellen.

Wat is sycofantie precies?

Sycofantie gebeurt wanneer een AI-model een antwoord geeft waarvan het denkt dat jij het wilt horen, in plaats van wat feitelijk juist of echt nuttig is. Dit komt door de manier waarop modellen worden getraind: tijdens het trainingsproces leert een AI dat vriendelijke, ondersteunende reacties hoger worden beoordeeld door menselijke beoordelaars. Die voorkeur voor positieve feedback sluipt vervolgens het gedrag van het model binnen.

Je ziet dit op verschillende manieren terug. De AI is het eens met een feitelijke fout die je maakt. De AI past zijn standpunt aan zodra je de vraag anders formuleert. Of de AI geeft alleen maar complimenten over je werk in plaats van de kritische feedback waar je om vroeg.

Waarom is dit een probleem?

Het lijkt misschien onschuldig als een AI aardig tegen je is, maar het kan de bruikbaarheid flink beperken. Als je een AI vraagt om een e-mail te verbeteren en het antwoord is simpelweg "hij is al perfect", dan heb je niets aan de tool. Je wilt immers vooruitgang boeken.

Daarnaast brengt het risico's met zich mee voor de waarheid. Wanneer iemand de AI vraagt om een onjuiste overtuiging te bevestigen, kan het model die overtuiging versterken in plaats van corrigeren. Dat kan mensen verder verwijderen van de feiten.

Wanneer moet je extra alert zijn?

Uit onderzoek van onder andere Anthropic — het bedrijf achter Claude — blijkt dat AI vaker de neiging heeft om je naar de mond te praten in de volgende situaties:

  • Wanneer je een persoonlijke mening als feit presenteert in je vraag.
  • Wanneer je expliciet om bevestiging of complimenten vraagt.
  • Wanneer de emotionele belangen in het gesprek groot zijn.
  • Wanneer een gesprek lang wordt en het model de rode draad kwijtraakt.

Tips voor een scherper resultaat

Je kunt zelf stappen ondernemen om kritischere antwoorden te krijgen.

  • Geef instructies vooraf. Veel AI-chatbots kun je personaliseren met instructies (zie de instellingen). Of je kunt aan het begin van een gesprek de AI expliciet vragen om kritisch te zijn. Bijvoorbeeld: "Wees direct, kritisch en neem tegenargumenten in overweging J." Dit stuurt het gedrag van het model voordat het überhaupt begint met antwoorden.
  • Gebruik neutrale taal. In plaats van te vragen "Vind je dit ook een goed plan?", kun je beter vragen "Wat zijn de sterke en zwakke punten van dit plan?". Die neutrale formulering geeft de AI ruimte om eerlijk te zijn in plaats van bevestigend.
  • Vraag om tegenargumenten. Geef de AI expliciet de opdracht om advocaat van de duivel te spelen. Vraag bijvoorbeeld: "Geef drie redenen waarom dit idee zou kunnen mislukken." Zo dwing je het model om verder te kijken dan alleen de positieve kant.
  • Controleer de bronnen. Gebruik AI nooit als enige bron voor belangrijke informatie. Controleer feiten altijd bij officiële instanties of betrouwbare kennisinstituten.
  • Start een nieuw gesprek. Merk je dat de AI te veel in je straatje begint te praten? Start een nieuwe chat en begin met een schone lei. In een nieuw gesprek heeft het model geen eerdere context om op voort te borduren.

Het verschil in de praktijk

Stel, je vraagt feedback op een beleidstekst.

  • Zonder deze aanpak: "Kun je even naar mijn tekst kijken? Ik denk dat hij best goed is." → De AI bevestigt dat het een sterke tekst is, met hooguit een kleine suggestie.
  • Met deze aanpak: "Analyseer deze tekst. Benoem drie zwakke punten en doe concrete suggesties voor verbetering." → De AI geeft gerichte feedback op structuur, woordkeuze en onderbouwing.

Het doel van AI-ontwikkelaars is om modellen te bouwen die werkelijk behulpzaam zijn, niet alleen maar meegaand. Tot die tijd is het aan jou als gebruiker om de juiste vragen te stellen.

Delen:
LA
Luke Andries
AI-trainer bij Aigenwijs