Google har berättat mer om ambitionen att skapa en universell assistent med multimodal AI: en ”världsmodell” som kan göra självständiga planer och föreställa sig nya upplevelser tack vare att modellen förstår världen på ett liknande vis som en mänsklig hjärna.
Sökjätten stoltserar med att företaget lagt grunden för mycket av den moderna AI-eran. Inte minst tack vare att Google uppfann Transformer-modellen år 2017 som dagens chattbottar baseras på. Arbetet med att få AI att spela spel likt Go och Starcraft ska även ha hjälpt Google skapa en artificiell intelligens som kan planera självständigt.
Slutgiltiga målet är att göra Gemini till en universell assistent som kan utföra vardagliga uppgifter och ”göra oss mer produktiva och berika våra liv”. Project Astra är del av den visionen: en multimodal AI som kan tolka omgivningen i realtid.
Delar av Project Astra har nyligen släppts för alla i Gemini-appen: användare kan fråga om skärminnehållet och om omgivningen under röstsamtal med Gemini Live. Project Astra har vidareutvecklats och ska snart bland annat erbjuda bättre röstkvalitet och ett förbättrat minne. Vad Astra kan användas till visas upp i videorna nedan.
Google har även gjort framsteg med Project Mariner som först tillkännagavs i slutet av förra året. Mariner är en AI-agent som inledningsvis har fokus på att utföra uppgifter i webbläsare. Nu inkluderar Mariner ett helt team av agenter som kan utföra upp till tio olika uppgifter samtidigt. Som exempel ger Google att Mariner kan hitta information, forska, göra reservationer och genomföra köp – allt på en gång.
Många är nog tveksamma till att låta en AI-agent köpa och boka saker åt dem och vill ha kvar en manuell kontroll gällande vissa saker – i alla fall under en övergångsperiod. Googles förbättrade variant av Mariner är endast tillgänglig för Gemini AI Ultra-prenumeranter i USA till en början.