OpenAI kan klona röster utifrån bara 15 sekunders tal

Postat:
15:45 - 2024-03-30
Skribent:
| Lars A
Kommentarer:
24

En del av framtidsvisionerna i sci-fi-serien Black Mirror är redan tekniskt möjliga, mer eller mindre. I avsnittet ”Be Right Back” från 2013 med Hayley Atwell och Domhnall Gleeson i huvudrollerna återskapar en sörjande flickvän sin pojkvän digitalt efter att han dog i en bilolycka.

Genom att skanna alla pojkvännens textmeddelanden, skickade mejl och inlägg på sociala nätverk kan hans personliga sätt att uttrycka sig imiteras av en chattbott. Pojkvännens röst klonas utifrån befintliga ljudinspelningar, likt videor. Tekniken som krävs för detta är idag tillgänglig genom generativ AI och språkmodeller.

För snart ett år sedan tillkännagav Apple en IOS-funktion som gör att systemet kan prata med användarens egna röst, efter att personen högläst en samling fraser. OpenAI har tagit röstkloning ett steg längre genom ”Voice Engine” som på ett trovärdigt vis kan efterlikna någons röst syntetiskt utifrån bara 15 sekunders tal, oavsett språk. Enligt tillkännagivandet stödjer tekniken brytningar och dialekter: en engelsk text som läses upp baserat på franskt referensljud blir exempelvis engelska med fransk brytning.

Today we are sharing preliminary insights and results from a small-scale preview of a model called Voice Engine, which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. It is notable that a small model with a single 15-second sample can create emotive and realistic voices.

Tekniken har både legitima användningsområden och faror och fallgropar. En av de uppenbara riskerna är ökad spridning av desinformation där folk i mörka syften får det att verka som politiker, journalister och andra kända människor sagt saker de aldrig yttrat.

Exempel på giltiga användningsområden OpenAI tar upp är läsarassistens och berättarröster för barn och för andra som inte kan läsa. OpenAI tänker sig att företag och kreatörer kan nå fler människor genom att tal i poddar och videor översätts automatiskt och läses upp med den ursprungliga talarens röst, fast på ett annat språk. Ett annat användningsområde är att klona en persons röst innan personen blir av med rösten, på grund av plötsliga eller degenerativa åkommor.

I sin slutkläm påpekar OpenAI att företaget inser att det finns allvarliga risker med att enkelt kunna klona folks röster, särskilt under ett valår. Tekniken har hittills bara testats i samarbete med ett fåtal partners. OpenAI säger att de även vidtagit säkerhetsåtgärder, likt en slags vattenstämpel i de syntetiska rösterna, samt att företaget proaktivt övervakar hur tekniken utnyttjas.

Utvecklaren anser att ett verifieringssystem behövs innan tekniken släpps allmänt, för att minska risken att en persons röst klonas i smyg. Det bör även finnas ett filter som upptäcker och blockerar röster som är för lika framträdande personers, enligt OpenAI.