Chat GPT får betydligt bättre bildskapare som kan hantera text

Postat:

16:45 - 2025-03-26

Skribent:

Kommentarer:

Chat GPT får betydligt bättre bildskapare som kan hantera text

Bildgenereringen i Chat GPT har tagit ett stort kliv framåt tack vare modellen GPT‑4o. Hittills har de AI-baserade bildskaparna ofta haft stora problem med text; även text beståendes av ett enda ord på exempelvis en skylt. Open AI har lyckats lösa problemet.

Flera av utvecklarens exempel visar att bildskaparen kan skapa trovärdig och fullt läsbar text, utan rappakalja. Open AI tränade modellen på en kombination av bilder och text för att nå resultatet.

GPT‑4o image generation excels at accurately rendering text, precisely following prompts, and leveraging 4o’s inherent knowledge base and chat context—including transforming uploaded images or using them as visual inspiration.

Eftersom bildskaparen nu är inbyggd i GPT-4o går det att förfina bilderna vartefter genom vardagligt tal. Enligt Open AI kan modellen hantera upp till 20 olika objekt i bilderna samtidigt, vilket sägs vara långt över vad de flesta konkurrerande system klarar av. Att bildskaparen nu begriper text och siffror öppnar upp nya möjligheter, likt att skapa bilder som visar rena ekvationer.

GPT-4o kan lära sig av bilder användare laddar upp och på så vis bli bättre av sig själv med tiden. Nya bildskaparen skickas ut med start idag och är även tillgänglig för gratisanvändare. Modellen utnyttjas som standard när användare ber Chat GPT att skapa en bild.