Vi testar röstsamtalen i Chat GPT: svajigt men underhållande

Postat:
18:32 - 2024-12-01
Skribent:
| Lars A
Kommentarer:
3

I maj visade Open AI upp nya röstsamtal i Chat GPT med en kusligt mänsklig artificiell röst. Open AI har tagit tid på sig att släppa finessen, som heter advanced voice mode. Här i Europa dröjde det till slutet av oktober innan nya röstsamtalen blev tillgängliga.

Vi har nu testat röstsamtalen i Chat GPT. Efter de imponerande exemplen från Open AI var röstsamtalen en besvikelse som inte levde upp till förväntningarna på rösten. Chat GPT har ofta haft ett burkigt, tunt och komprimerat ljud – som ett telefonsamtal med dålig mottagning på 90-talet. Ljudet har låtit så sönderkomprimerat att frekvenserna som ger fyllnad åt ljudet försvunnit.

Samtalen startas genom knappen längst till höger

Ibland dök meddelandet ”poor connection quality” upp. Ganska snabbt blev Chat GPT helt tyst. Efter cirka tio sekunder sa den: ”I’m sorry, but I’m having trouble responding right now”. En snabb koll av internethastigheten visade att uppkopplingen inte var orsaken. Gemini Live pratade därtill med fyllig röst vid samma tillfälle; felet låg hos Open AI.

Den dåliga ljudkvaliteten kvarstod både över wifi och 5G, men ljudet var inte alltid fullt lika uselt följande dagarna. Andra kanske har bättre erfarenheter gällande ljudet. Att leverera människoliknande röstsamtal är mycket mer resurskrävande än textbaserad kommunikation. När vi chattar med en annan människa är vi vana vid att svaren kan ta flera sekunder, så små fördröjningar när vi skriver till en chattbott är lättare att acceptera.

Chat GPT erbjuder flera olika röster

Vid muntlig kommunikation kommer svaren dock i regel omedelbart. För att samtal med en AI ska kännas naturliga behöver därför inte bara själva svaret genereras direkt; den syntetiska rösten som läser upp texten måste skickas till användaren utan påtaglig latens. Kanske prioriterar Open AI hastighet framför ljudkvalitet, eller så är det en bugg.

Om vi bortser från svajig ljudkvalitet pratar Chat GPT snabbare än Gemini. Googles chattbott talar mer lugnt och släpigt. Det går att be Chat GPT att prata fortare eller långsammare, eller på ett visst sätt och den rättar sig då efter önskemålen. Open AI har tidigare visat hur Chat GPT kan sjunga, vilket dock inte fungerade. Syntetiska rösten insisterade att sång inte är möjligt.

Det går att neka att samtalen används för att träna modellen

Precis som Gemini Live kan Chat GPT avbrytas mitt i en mening, för att inflika en kommentar eller ställa en följdfråga. Både Gemini och Chat GPT försöker hålla igång samtalet genom att ställa frågor och kommentera vad användaren säger. Eftersom målet är att efterlikna ett mänskligt samtal är beteendet logiskt, men språkmodellen kan ibland prata på ett vis som känns inställsamt, oärligt eller överdrivet positivt – om de egenskaperna nu kan tilldelas en AI. Människor pratar sällan på det viset.

Hur intressanta samtalen blir beror till viss del på vad du själv säger. Chat GPT:s röstfunktion stödjer svenska och här blev vi faktiskt en smula imponerade, då svenska rösten var mer inlevelsefull än annan svensk text-till-tal vi hört – inklusive Geminis. Svenska rösten varierar intonationen och låter ganska övertygande, om än med lite galna betoningar då och då. Det går att prata svenska även med Gemini Live men i skrivande stund blir då samtalen helt annorlunda än på engelska och betydligt sämre. Även Chat GPT ger sämre svar på svenska, så vi rekommenderar engelska.

Några enkla exempel; svaren är bättre på engelska

Chat GPT är i vår erfarenhet bättre än Gemini på nästan allt: programmering, på att svara korrekt, utförligt och pedagogiskt och rent generellt. Vi ger dock fördel till Gemini gällande röstsamtalen på engelska just nu; inte minst på grund av den bristande ljudkvaliteten under samtalen med Chat GPT. Google erbjuder dessutom samtalen gratis, medan advanced voice mode kräver Chat GPT Plus som kostar hela 269 kronor i månaden. Eventuellt har dock gratisanvändare begränsad tillgång till det nya samtalsläget.

Röstsamtal med AI har potential och gör att vi kan kommunicera med en dator på ett naturligt vis som inte ens var möjligt för bara några år sedan. En dator kan förstås inte mäta sig med eller ersätta stimulerande samtal med andra människor, men det kan vara ett komplement för att snabbt få information eller bolla idéer.

Vidare läsning: Vi testar Gemini Live: mänskliga röstsamtal med AI

Skriv fritt men var god följ vår kommentarspolicy. Tack!