OpenAI introducerar GPT-4o som kan tolka ljud, bild och text i realtid

Kusligt mänskliga röster

Postat:
19:43 - 2024-05-13
Skribent:
| Lars A
Kommentarer:
3

OpenAI har nyss presenterat sin senaste och mest avancerade språkmodell GPT-4o som kan tolka ljud, bild och text i realtid (något Google nyss visade att Gemini klarar). Tillägget av bokstaven ”o” i namnet på språkmodellen står för ”omni”.

Enligt utvecklaren kan modellen svara på ljudinput på bara 232 millisekunder med ett snitt på 320 millisekunder, vilket ska likna mänsklig svarstid under samtal. Tack vare den snabbare responsen kommer det gå att ha mer naturliga röstsamtal med ChatGPT. Modellen matchar prestandan för GPT-4 Turbo för engelska och programkod och sägs prestera betydligt bättre än Turbo för andra språk än engelska.





GPT-4o ska vara mycket bättre på att tolka och förstå visuell input än tidigare modeller. OpenAI skriver att modellen inte bara accepterar kombinationer av text, ljud och bild som input – den kan även generera kombinationer av text, ljud och bild.

OpenAI har börjat skicka ut GPT-4o i ChatGPT stegvis. Nya språkmodellen kommer vara tillgänglig för gratisanvändare. De nya snabbare och förbättrade röstsamtalen dröjer lite längre och kommer alfatestas för betalande kunder under de kommande veckorna.

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time in a conversation.