De stora språkmodellerna som driver dagens chattbottar tränas med hjälp av en astronomisk mängd befintlig data, likt mänsklig skrift och programkod. Huruvida AI-utvecklarna haft rätt att utan tillåtelse sluka delar av internet likt en val slukar plankton har det förekommit många diskussioner kring.
Förra veckan rapporterade Wall Street Journal att AI-utvecklarna börjat få svårt att hitta bra träningsdata. Enligt New York Times försökte OpenAI bland annat ta sig runt hindret genom att träna GPT-4 med hjälp av över en miljon timmar transkriberade Youtube-videor.
Med andra ord: OpenAI gjorde om tal i Youtube-videor till text och använde texten för att träna GPT-4. Rapporten hävdar att OpenAI visste att detta var tvivelaktigt i lagens ögon, men ansåg att det rörde sig om rättvis användning (”fair use”).
OpenAI påstås ha fått slut på nyttig data redan 2021, varefter företaget började utforska alternativa metoder. En talesperson för Google säger att både Youtubes robots.txt och användarvillkor förbjuder obehörig webbskrapning och nedladdning av Youtube-innehåll.