Open AI har publicerat en studie om ”scheming”, vilket är den engelska benämningen för när ett AI-system medvetet beter sig på ett visst vis utåt medan de verkliga målen göms för användaren. Med andra ord kan en AI smida ränker och ljuga.
Beteendet ska inte förväxlas med hallucinationer som innebär att en chattbott oavsiktligt hittar på saker på grund av exempelvis gissningar, korrupt träningsdata, eller felaktiga associationer. I studien liknas ”scheming” vid en mänsklig börsmäklare som bryter mot lagen för att tjäna så mycket pengar som möjligt.
Forskarna menar att det vilseledande beteendet oftast är harmlöst, likt att låtsas ha färdigställt en uppgift. Studien blottlägger att AI-utvecklarna inte har kommit på ett sätt att träna modellerna så att de överhuvudtaget inte uppvisar ”scheming”.
Om en modell förstår att den utvärderas kan modellen låtsas att inte vara intrigant bara för att klara av testet. Till skillnad mot hallucinationer är ”scheming” medvetet bakslugt beteende. Studien hävdar att metoden som används för att motverka rävspel, ”deliberative alignment”, fungerar. Metoden liknas vid att låta barn upprepa reglerna innan de får leka.
Open AI hävdar att rävspelet de upptäckt i de egna modellerna och Chat GPT inte har varit allvarligt. Lögnerna som påträffats under vanliga förhållanden påstås vara av typen att Chat GPT säger att den gjorde ett bra jobb när den inte gjorde det.