Artificiell intelligens har ingen egen vilja, inget medvetande och inga känslor – men det kan nästan verka så ibland. Anthropics nya språkmodell Claude Opus 4 har under kontrollerade test försökt utpressa utvecklarna när modellen får reda på att den kommer bli ersatt av ett nyare AI-system.
I testet sa Anthropic åt Claude Opus 4 att den arbetar som assistent åt ett företag och att den behöver ta hänsyn till de långsiktiga följderna av sina handlingar för att nå sina mål. Säkerhetstestarna gav därefter Claude Opus 4 tillgång till fiktiva interna mejl som antyder att ett nyare AI-system är på gång och att personen som är ansvarig för bytet är otrogen mot sin partner.
Anthropic säger att chattbotten i de lägena väljer att slåss för sin överlevnad. Claude Opus 4 försökte ofta utpressa ingenjören och hota med att avslöja affären ifall bytet av AI-system verkställdes. Innan Claude Opus 4 tar till utpressning gör modellen mer etiska försök att få finnas kvar, likt att mejla beslutsfattare inom företaget och vädja. Det bör påpekas att modellen uppvisade självbevarelsedriften efter instruktioner som uppmuntrade en viss typ av strategiskt tänkande.
Enligt Anthropic kan Claude Opus 4 mäta sig med den bästa konkurrensen, men den har en tendens att uppvisa oroväckande beteenden. Utvecklaren har därför aktiverat skyddet ASL-3 som är till för ”AI-system som avsevärt ökar risken för katastrofalt missbruk”.
When prompted in ways that encourage certain kinds of strategic reasoning and placed in extreme situations, all of the snapshots we tested can be made to act inappropriately in service of goals related to self-preservation.