Många har hunnit bli bekanta med generativ AI som kan skapa realistiska bilder utifrån textbeskrivningar. Att generera videosnuttar på samma vis är dock inte alls lika vanligt än. Google har nyligen visat upp text-till-video genom något kallat Lumiere som skapar femsekundersklipp.
En mängd exempel finns på Lumieres Github-sida och i videon nedan. Användare kan ange beskrivningar likt ”a young couple walking in heavy rain” och få emellanåt påfallande realistiska videoresultat.
Koden kan därtill få bilder att vakna till liv och generera videomaterial baserat på ett fotografi. Lumiere kan exempelvis ta en bild på en sköldpadda i havet och få sköldpaddan att börja simma, med svallande vågor ovanför.
Google kallar Lumiere för en ”diffusionsmodell för text-till-video” och menar att Lumiere innebär en väsentlig förändring för ”videosyntes”. Lumiere använder en arkitektur kallad ”Space-Time U-Net” som sätter ihop hela videon på en gång istället för bildruta för bildruta likt tidigare modeller.
De som vill ha tekniska detaljer kan besöka Github-sidan för projektet.