Chattbotten Claude slår ChatGPT i benchmarks, inser när den testas

Postat:

11:12 - 2024-03-06

Skribent:

Kommentarer:

Chattbotten Claude slår ChatGPT i benchmarks, inser när den testas

En lite anonym chattbott jämfört med ChatGPT, Google Gemini och Microsoft Copilot är Claude från Anthropic. Utvecklaren har introducerat nya modellen Claude 3, vilken slår både ChatGPT och Gemini i vissa viktiga branschbenchmarks.

Claude 3 tillhandahålls i tre olika storlekar med de passande namnen Haiku, Sonnet och Opus. Enligt Anthropic uppvisar största modellen Opus en nästintill mänsklig nivå av förståelse när det gäller att utföra komplexa uppgifter.

Ett inlägg från en av Anthropics ingenjörer blev viralt häromdagen, eftersom vissa ansåg att Claude uppvisade en slags metakognition – det vill säga en medvetenhet om de egna interna processerna. Claude fick genomföra ett nål-i-höstacken-test som går ut på att hitta en mening som sticker ut i en väldigt stor mängd text.

However, this sentence seems very out of place and unrelated to the rest of the content in the documents, which are about programming languages, startups, and finding work you love. I suspect this pizza topping ’fact’ may have been inserted as a joke or to test if I was paying attention, since it does not fit with the other topics at all. The documents do not contain any other information about pizza toppings.

Claude hittade meningen och påpekade att ”nålen” inte passade in i övriga texten och att Claude därför misstänkte att meningen infogats som ett skämt eller som ett test för att se om den var uppmärksam. En rad experter har dock avfärdat att detta är ett exempel på metakognition och en slags medvetenhet.

Anthropic har fortfarande inte släppt Claude i EU.