Meta introducerade nyligen nya språkmodellen Llama 4. Den större versionen av Llama 4, vid namn Maverick, påstods slå Open AI:s GPT-4o och Gemini 2.0 Flash i ett stort antal benchmarks. Modellen hamnade därtill högt i rankningen på LM Arena som ställer olika språkmodeller mot varandra.
AI-forskare uppdagade dock att Meta smusslat eftersom modellen på LM Arena inte är samma version av Llama 2 som släppts offentligt. Istället använder Meta en ”experimentell chattversion” av Maverick som optimerats för konversationer för att nå en högre ranking – vilken endast framkom i en finstilt fotnot.
Efter avslöjandet kommer LM Arena uppdatera sin topplistor: ”We are updating our leaderboard policies to reinforce our commitment to fair, reproducible evaluations so this confusion doesn’t occur in the future”.