OpenAI närmar sig Samantha i Her genom mänskligt tal [Opinion]

Postat:
23:10 - 2024-05-13
Skribent:
| Lars A
Kommentarer:
6

I Spike Jonzes Oscarsbelönade sci-fi-drama Her från 2013 blir Joaquin Phoenix karaktär förälskad i en digital personlig assistent, vars röst gestaltas av Scarlett Johansson. Assistenten, som döpts till Samantha, kan se och höra omvärlden genom en telefons kamera och mikrofon. Bortsett från de orealistiska inslagen likt den artificiella intelligensens självmedvetenhet är vi redan påfallande nära denna framtidsvision.

Tidigare ikväll visade nämligen OpenAI upp sin nya språkmodell GPT-4o med multimodala förmågor och en syntetisk röst som rentav låter som Scarlett Johansson. Modellen kan hantera och tyda ljud, bild, rörliga bilder och text i realtid. Vad som imponerade mest är dock kanske utvecklarens kusligt mänskliga text-till-tal-motor som imiterar alla de olika nyanserna, tonfallen, andetagen, pauserna, utfyllnadsorden, hastighetsförändringarna och spontana skratten i mänskligt tal.

Detta är imponerande i sig då det inte var alltför länge sedan syntetiska röster var monotona med en robotliknande klang. Att dessutom få in rätt intonation på rätt ställe och återskapa den mänskliga språkmelodin beroende på vad som sägs är extra imponerande. En av videorna visar att modellen även förstår sarkasm och kan låta sarkastisk. Tack vare snabbare svarstider går det att ha röstsamtal med ChatGPT på ungefär samma vis som med en människa, även om det kanske inte fungerar lika bra i praktiken som i OpenAI:s exempel.

Utvecklingen har gått fort framåt inom stora språkmodeller och artificiell intelligens. Vi närmar oss en fullfjädrad personlig digital assistent med stormsteg. Google kommer introducera sina egna nyheter inom området under I/O som inleds i morgon – och kanske kommer Gemini för Android till sist släppas i Europa.