Google ger imponerande glimt av multimodal AI innan I/O

Postat:
19:20 - 2024-05-13
Skribent:
| Lars A
Kommentarer:
1

Kanske för att kontra vad OpenAI just nu presenterar har Google givit en imponerande glimt av hur Gemini till synes tolkar video i realtid. Personen i klippet pratar med Gemini och frågar vad chattbotten tror pågår, medan kameran riktas mot en I/O-scen.

Google visar därmed upp hur Gemini analyserar video via ett röstsamtal, till skillnad mot de traditionella rent textbaserade konversationerna. Gemini säger att det ser ut som en konferens eller en slags presentation och undrar om det är något specifikt användaren vill veta mer om.

Personen frågar om bokstäverna ”IO”, vilket Gemini inser är Google I/O. Vi lär få höra betydligt mer om Googles AI-satsningar under utvecklarkonferensen.