Chatbot Arena är ett projekt som genom crowdsourcing utvärderar och Elo-rankar de stora språkmodellerna som driver alla dagens chattbottar likt Google Gemini, ChatGPT och Copilot.
Nu har Anthropics senaste språkmodell Claude 3 Opus intagit förstaplatsen och petat ned OpenAI:s GPT-4 från tronen, vilket har uppmärksammats av Ars Technica. OpenAI har fram till nu alltid legat i toppen.
Chatbot Arena används bland annat av AI-forskare för att utvärdera hur språkmodeller presterar i förhållande till varandra. Enkelt uttryckt rankas språkmodellerna genom att användare får se svaren på samma fråga från två icke namngivna chattbottar. Användare väljer det svar de anser är bäst. Elo-rankingen baseras på dessa ”matcher” mellan språkmodellerna.
Google ligger i skrivande stund på en fjärdeplats genom Gemini Pro.