Ordbok: Vi går igenom vad alla AI-begreppen egentligen betyder

En liten guide

Postat:
11:59 - 2024-08-10
Skribent:
| Lars A
Kommentarer:
13

Ingen har kunnat undvika att det skrivits mycket mer om artificiell intelligens sedan ChatGPT gjorde dundersuccé senhösten 2022. Nu är ”AI” i ropet och nästan varenda smartphonetillverkare stoltserar med sin egen uppsättning AI-baserade finesser.

Google har talat om artificiell intelligens i över tio år i samband med presentationer, men sökjätten använde förut mer specifika och tekniska begrepp likt maskininlärning och neuronnät. Idag missar Google sällan chansen att nämna ”AI”.

Eftersom det skrivs alltmer om artificiell intelligens på teknikbloggar, i dagstidningar och andra sammanhang går vi nu igenom vad de vanligaste begreppen egentligen betyder. Förklaringarna är ytliga och förhoppningsvis pedagogiska.

Artificiell intelligens
Ett samlingsnamn och numera modebegrepp som i grunden handlar om att få mjukvara att efterlikna människans intelligens och kognitiva förmågor på olika vis.

Artificiell generell intelligens
Målet för många av dagens stora AI-företag likt OpenAI är att skapa artificiell generell intelligens (AGI), vilket är en hypotetisk AI som uppvisar mänsklig intelligens och kan utföra alla intellektuella uppgifter en människa klarar av.

Maskininlärning
Maskininlärning handlar om program som tränats att lära sig från data på egen hand. På så vis blir programmen förutseende och kan lösa uppgifter som systemet inte specifikt har programmerats för att hantera. Hösten 2015 använde exempelvis Swiftkey maskininlärning för att förbättra ordförslagen i tangentbordet. Genom maskininlärning kunde Swiftkey lära sig hur ord förhåller sig till varandra och hur användaren skriver – och på så vis bli mer förutseende och hjälpsamt.

Samma år använde Google maskininlärning för att erbjuda ett bättre spamfilter i Gmail.

Djupinlärning
Djupinlärning är en del av maskininlärning som baseras på neuronnät (se nedan). Att inlärningen beskrivs som ”djup” betyder att neuronnätet har flera lager.

Neuronnät
Ett neuronnät är självlärande algoritmer vars struktur är tänkt att efterlikna en biologisk hjärna. Neuronnäten utgörs av artificiella neuroner – matematiska funktioner – som accepterar input och ger output som svar. De artificiella neuronerna är löst baserade på hjärnans neuroner. Neuronnäten tränas för att ge önskat resultat.

Stora språkmodeller
En stor språkmodell kan tolka och generera mänsklig skrift, konversera och uttrycka sig som en människa. Dagens stora språkmodeller är neuronnät som baseras på den revolutionerande Transformer-arkitekturen Google uppfann 2017. Språkmodellerna tränas utifrån astronomiska mängder mänsklig text. På ett vis kan språkmodellerna beskrivas som en extremt avancerad variant av autocomplete som vi länge haft i digitala tangentbord.

Inte ens AI-utvecklarna vet exakt hur modellerna fungerar. Några populära stora språkmodeller är GPT-4 (ChatGPT), Google Gemini, Llama och Claude. Så här förklarade ChatGPT stora språkmodeller när vi bad den göra det på ett kortfattat vis:

Generativ AI
Generativ AI är en modell som kan skapa och vara kreativ: likt att skriva dikter och berättelser, rita bilder utifrån användarens beskrivningar, skriva musik, generera videor eller skriva programkod.

Multimodal AI
En multimodal AI kan tolka och generera flera olika typer av input – likt bilder, ljud och videor – och inte bara text. Ett exempel är att fråga Google Gemini om en bild. Både Google och OpenAI har visat upp multimodal AI som tar stora kliv framåt och kan svara på frågor i realtid om videoflödet från mobilens kamera.

Hallucinationer
När en stor språkmodell på ett självsäkert vis bara hittar på saker kallas det för en hallucination. Teknikjättarna försöker minimera mängden hallucinationer men anser att det nästan är omöjligt att undvika hallucinationerna helt. Det är anledningen till att företagen varnar om att språkmodellerna kan ha fel.

Hallucinationerna beror delvis på att språkmodellen inte är bättre än den data modellen tränats på. Om en språkmodell föreslår något galet kan det helt enkelt bero på att modellen råkat matas med något galet (som när Googles nya sökmotor föreslog att ha lim på pizza).

Vissa som motsätter sig att AI-företagen suger upp internet som en dammsugare – inklusive copyrightskyddat innehåll – eller ogillar AI i allmänhet har medvetet publicerat felaktigheter på forum likt Reddit med målet att förvirra språkmodellerna.

Tokens och kontextfönster
En token avser en enhet data chattbottar tar emot som input. Stora språkmodeller bryter upp texten den får av användaren i delar – tokens – och dessa tokens kan bestå av tecken, ord eller bara delar av ord. Delarna analyseras därefter. Ju fler tokens en chattbott kan hantera på en gång, desto större kontextfönster har chattbotten.

Kontextfönstren har utökats gradvis så att en chattbott kan hantera mer data på en gång, vilket öppnar upp nya möjligheter. Gemini 1.5 Pro har exempelvis ett kontextfönster på hela två miljoner tokens. Det motsvarar cirka 1,4 miljoner ord, över 60 000 rader kod eller två timmars video.

Prompter
En prompt är en fråga, ett kommando eller en uppmaning till en AI-modell. Eftersom prompten kan vara avgörande för att få önskat resultat och för att utvärdera en modell har det dykt upp så kallade ”promptingenjörer” som är experter på att skriva uppmaningar till chattbottar och bildskapare.

De största chattbottarna

Skriv fritt men var god följ vår kommentarspolicy. Tack!