I början av året påstods Meta ha laddat hem en gigantisk 82 TB torrent med böcker för att träna språkmodeller. Metas försvar var att de seedade filen så lite som möjligt och därmed inte spred det upphovsrättsskyddade materialet vidare.
Konkurrenten Anthropic har enligt domstolsdokument haft en annan approach. Utvecklaren köpte miljontals fysiska böcker, skannade texterna till digitala filer och förstörde originalen under proceduren. Böckerna behövs för att träna artificiell intelligens som kräver astronomiska mängder träningsdata.
Upplägget ger en viss ersättning till bokbranschen och står på stadigare lagliga grunder, men det kan framstå som slöseri att köpa och förstöra miljoner pappersböcker. Förhoppningsvis återvanns all pappersmassa. Enligt rapporten fick Tom Turvey tidigt 2024 uppgiften att införskaffa ”alla världens böcker” åt Anthropic. Turvey arbetade tidigare med Googles bok-skanningsprojekt (Google Books).
Skanning är ibland destruktiv men Anthropic sticker ut på grund av den enorma mängden förstörda böcker. Google utnyttjade dessutom en icke-destruktiv metod för att skanna böcker, vilka lånades från bibliotek för att sedan lämnas tillbaka.
En domare ansåg att Anthropics metod var skäligt bruk (fair use) eftersom böckerna köptes lagligt innan och skannades till filer som aldrig spreds vidare.