Stora nyheter för Gemini: röstsamtal och världens största kontextfönster

Postat:
20:27 - 2024-05-14
Skribent:
| Lars A
Kommentarer:
9

Google har tillkännagivit förbättringar av företagets olika stora språkmodeller under I/O. En nyhet är att Gemini 1.5 Pro kommer till chattbotten Gemini men endast till de som betalar för Advanced. Gemini 1.5 Pro erbjuder enligt Google världens största kontextfönster för konsumentchattbottar med en miljon tokens och uppåt.

Det större kontextfönstret innebär att Gemini kan hantera mer information samtidigt. Som exempel anger Google dokument med upp till 1500 sidor, sammanfattning av 100 mejl simultant, tolkning av upp till en timmes video, eller av kod med över 30 000 rader.

A context window this long means Gemini Advanced can make sense of multiple large documents, up to 1,500-pages total, or summarize 100 emails. Soon it will be able to handle an hour of video content or codebases with more than 30,000 lines.

För att dra fördel av det utökade kontextfönstret kan användare ladda upp filer direkt från Google Drive eller från enheten, till Gemini. Gemini Pro 1.5 förstår enligt Google bilder mycket bättre, så att användaren exempelvis kan ta en bild av måltid på restaurang och be om receptet, eller fotografera en matematikberäkning och be om lösningen.

Now you can quickly get answers and insights about dense documents, like figuring out the details of the pet policy in your rental agreement or comparing key arguments of multiple long research papers. And soon, Gemini Advanced will act as a data analyst, uncovering insights and building custom visualizations and charts on the fly from uploaded data files like spreadsheets.

Under de följande månaderna kommer prenumeranter dessutom få tillgång till röstsamtal i Gemini. Enligt Google används spjutspetsteknik inom text-till-tal för att leverera en mänsklig och trovärdig röst (även om det blir svårt för Google att slå OpenAI på den punkten). Användare kommer kunna prata i sin egen takt, samt avbryta Gemini för att inflika frågor precis som vid samtal med människor.

En annan stor Gemini-nyhet är vad Google kallar ”Gems”: anpassade versioner av chattbotten. Google förslår att användare kan skapa en gymkompis, en kock, en programmeringspartner, eller en samarbetspartner för kreativt skrivande. Användare kan exempelvis säga: ”Du är min löpningscoach, ge mig ett dagligt schema och var positiv, uppmuntrande och inspirerande”.

Gemini kommer slutligen få fler insticksprogram och integreringar med övriga Google-tjänster. En förlängning för Youtube Music är på väg ut just nu och fler tjänster kommer anslutas framöver, likt kalendern, Tasks och Keep.

Senaste artiklarna om GOOGLE IO 2024

→ Se fler artiklar om ämnet