Vi testar Gemini Live: mänskliga röstsamtal med en AI

Har börjat släppas för alla

Postat:
19:02 - 2024-09-12
Skribent:
| Lars A
Kommentarer:
26

I samband med lanseringen av Pixel 9-serien introducerade Google en ny finess kallad Gemini Live som erbjuder naturliga röstsamtal med assistenten. Funktionen krävde tidigare en Gemini Advanced-prenumeration men har nu även börjat släppas för gratisanvändare.

Vi har kört Gemini Live med Gemini Advanced (vilket ger tillgång till bättre modeller) på en Pixel 8 och har pratat engelska med assistenten. Eftersom Gemini Live är en så personlig funktion är även testet personligt och rent subjektivt. Kort uttryckt: Få saker har spontant känts mer sci-fi senaste tio åren. Upplevelsen påminde på ett vis om att testa Oculus första devkit. Ett citat från brittiska författaren Arthur C. Clarke passar in: ”Any sufficiently advanced technology is indistinguishable from magic”.

Vi har blivit så luttrade att det är svårt att längre bli imponerad av ny teknik. Många tar allt för givet och reagerar på framsteg med en axelryckning, utan att reflektera över vilka otroligt komplexa och avancerade system som är aktiva i bakgrunden. Gemini Live är ett undantag: det är svårt att inte bli imponerad inledningsvis. Och detta trots att OpenAI:s kommande variant verkar ännu mer övertygande.

Så här startas Gemini Live: Öppna assistenten som vanligt genom långtryck på strömknappen. Tryck därefter på en ny knapp nere i högra hörnet av rutan. Då startas Gemini Live i ett futuristiskt helskärmsgränssnitt. Därefter är det bara att prata på som om du pratade med en annan människa. Funktionen kan användas även med aktivitetshistoriken avstängd. Så vitt vi vet stödjer Live i skrivande stund endast amerikansk engelska.

Gemini Live

Hur låter då Gemini Live? Det finns tio olika manliga och kvinnliga röster att välja mellan. Text-till-tal-motorn är imponerande mänsklig och den bästa Google levererat med råge; väldigt långt från de tidiga robotliknande och entoniga rösterna. OpenAI:s kommande talmotor verkar dock ännu mer mänsklig. ChatGPT har av demovideor att döma en fördel gentemot Google gällande exempelvis intonation, utfyllnadsord, sarkasm, pauser, skratt och sång.

Google har inte bara lyckats skapa en människoliknande röst rent ljudmässigt. Gemini Live försöker även efterlikna hur en människa uttrycker sig i en muntlig konversation. Ett exempel på detta är att svaren ibland är korta och bara en mening eller två, så att det inte blir en lång monolog eller högläsning – för så pratar sällan människor.

Gemini försöker dessutom hålla samtalet vid liv genom att ställa följdfrågor. Den beter sig som en intresserad människa. Chattbotten kan avbrytas på ungefär samma vis som när vi avbryter en annan person under samtal: genom att börja prata själva, eller genom att inflika kommentarer. Detta fungerade inte alltid helt optimalt och ett par gånger pratade vi i munnen på varandra, vilket kan ha berott på latensen. Gemini kan även avbrytas genom att trycka på skärmen medan den pratar.

Största ”mind blown”-samtalet kom tidigt: en lång och förvånansvärt givande konversation som började med en fråga om en gammal jazzmusiker med två skadade fingrar. Gemini identifierade korrekt musikern som Django Reinhardt, vilket ledde till diskussioner om hans liv och inflytande, till rekommendationer av hans musik, sedan vidare till en diskurs kring flamenco, flamencons ursprung, samt om reconquista och spanska musiktraditioner. Vid ett tillfälle beskrevs ett torg i en stad och Gemini identifierade omedelbart namnet på torget – korrekt, bör tilläggas – endast utifrån beskrivningen. Vi glömde nästan bort att vi inte pratade med en människa utan med en dator.

Vad ska du då ha det här till? Om du gillar att prata med andra människor kan du mycket väl gilla att prata med Gemini Live. Tala med Gemini som om du hade pratat med en annan människa, om saker som intresserar dig och som du vill veta mer om eller som social underhållning.

Ja, språkmodeller kan ha fel och de kan hallucinera. Men detta är i vår mening ett exempel på ett bra användningsområde för artificiell intelligens, till skillnad mot vissa andra finesser vi blivit påprackade av teknikjättarna. Vill du träna på din engelska, spanska eller franska men får sällan tillfälle i vardagen? Ha ett samtal med Gemini.

Vill du diskutera filmer, serier och musik och få lite rekommendationer? Vill du ha förslag på vad du ska laga till middag, eller få tips om vad du ska odla i trädgården? Vill du bolla idéer fram och tillbaka och brainstorma? Fantasin sätter gränsen. För människor som känner sig ensamma skulle den här typen av AI även kunna utgöra ett slags substitut för sällskap: en digital samtalspartner (huruvida det vore dystopiskt eller inte är en annan fråga).

Kanske är Gemini Live mest ett partytrick och vi vet inte hur ofta vi kommer använda röstsamtalen efter att den initiala förtjusningen lagt sig. Men det är häftig teknik som alla borde testa någon gång; om inte annat för den surrealistiska känslan av att ha en mänsklig konversation med en dator.

Skriv fritt men var god följ vår kommentarspolicy. Tack!