Regression

På denne side vil vi gennemgå, hvad det vil sige at lave regression med udgangspunkt i lineær regression. Vi vil desuden gennemgå et eksempel på, hvordan man kan anvende lineær regression på data fra virkeligheden. 

Hvad er regression?

Tidligere, når vi har bestemt funktionsforskrifter for lineære, eksponentielle eller potensfunktioner, har vi kendt to punkter, som skulle ligge på funktionen. Der kunne vi bruge to-punktsformlerne til at bestemme forskrifterne. Når vi har mere end to punkter, kan vi ikke nødvendigvis finde en forskrift, hvor alle punkterne ligger på grafen for funktionen. I det tilfælde kan vi i stedet lave regression, som er en metode til at finde forskriften for den funktion, der beskriver alle punkterne bedst muligt.

I det følgende tager vi udgangspunkt i lineær regression, men princippet for at lave regression er det sammen for andre funktionstyper. 

Den bedste rette linje

På figuren nedenfor er indtegnet fem forskellige punkter. 

Hvis vi tegner en ret linje, der går gennem to af punkterne, kan vi se, at vi får nogen meget forskellige rette linjer alt afhængig af hvilke to punkter, vi vælger. På figuren nedenfor er der tegnet tre forskellige rette linjer, der hver især går gennem to af punkterne. 

Det er tydeligt, at de tre funktioner er forskellige og at ingen af dem er super gode til at beskrive alle punkterne på én gang. Hvis vi skal vælge én af de tre, er den blå funktion nok bedst, men vi kan gøre det bedre ved at lave regression. Vi bruger typisk et digitalt værktøj (f.eks. GeoGebra, Maple, TI-Nspire, Excel) til at lave selve regressionen. Nedenfor har vi brugt GeoGebra til at finde den rette linje, som beskriver alle fem punkter bedst på samme tid. Vi kalder det at finde den bedste rette linje, når vi laver lineær regression. 

Hvad afgør om en ret linje er den bedste rette linje? 

Når man skal afgøre hvilken ret linje, der er bedst til at beskrive en række punkter, bruger vi den samlede lodrette afstand fra hvert punkt til linjen. På figuren nedenfor er disse afstande indtegnet med rød. 

I praksis bruger vi altid et digitalt værktøj til at foretage regression, og vi behøver derfor ikke bekymre os meget om, hvordan man finder den linje, hvor afstandene er mindst. Når det digitale værktøj afgør det, er det summen af de kvadrerede afstande (altså afstandene i anden hver for sig og så lagt sammen), som det digitale værktøj forsøger at gøre så lille som muligt. Det kaldes mindste kvadraters metode

Eksempel: Lineær regression

Lad os se på, hvordan man kan lave lineær regression på noget data fra virkeligheden.

I tabellen nedenfor ses en opgørelse over, hvor mange milliarder kroner Danmark har brugt på at importere økologiske varer i en given årrække. Det ses f.eks., at Danmark i 2018 importerede økologiske varer for 4,43 milliarder kroner. 

Årstal 2014 2015 2016 2017 2018 2019
Import (i mia. kr.) 1,94 2,40 3,22 3,86 4,43 4,82

(Kilde: Danmarks Statistik, https://www.statistikbanken.dk/oeko4

Når vi skal lave lineær regression, skal vi finde den bedste rette linje til at beskrive datasættet. Det betyder altså, at vi skal finde den bedste lineære funktion til at beskrive, hvordan importen afhænger af årstallet. Forskriften for en lineær funktion er 

$$f(x) = ax + b,$$

hvor vi i dette tilfælde vil lade $f(x)$ være importen i mia. kr. (afhængig variabel) og $x$ være antal år efter 2014 (uafhængig variabel). Det gør vi, fordi importen afhænger af årstallet. 

Vi vælger at lade $x$ være antal år efter 2014 i stedet for selve årstallet. Når vi ændrer det, ser tabellen således ud: 

År efter 2014 0 1 2 3 4 5
Import (i mia. kr.) 1,94 2,40 3,22 3,86 4,43 4,82

Vi plotter tabellens værdier som punkter i et koordinatsystem. Det kaldes et punktplot, og det kan ses nedenfor. 

Vi kan se, at punkterne tilnærmelses ligger på en ret linje og ved at lave regression, kan vi finde den lineære funktion, der bedst beskriver punkterne. 

 

På figuren ovenfor er regressionslinjen tilføjet, og forskriften for den lineære funktion er givet ved 

$$f(x)=0\text{,}6x+1\text{,}93,$$

hvor $x$ er antal år efter 2014 og $f(x)$ er importen af økologiske varer i mia. kr. 

Hvad fortæller konstanterne?

Når vi laver regression ved hjælp af virkelig data, opstiller vi faktisk en matematisk model, som beskriver vores data. Derfor kan det være godt at overveje, hvad konstanterne i modellen fortæller os. 

I eksemplet her, har vi en lineær model, der beskriver sammenhængen mellem importen af økologiske varer i mia. kr. ($f(x)$) og antallet af år efter 2014 ($x$). Funktionsforskriften for modellen er

$$f(x)=0\text{,}6x+1\text{,}93,$$

så vi ved, at $a=0\text{,}6$ og $b=1\text{,}93$.

Konstanten b fortæller os, at importen af økologiske varer var 1,93 milliarder kroner i år 2014 ifølge modellen, og konstanten a fortæller os, at importen af økologiske varer vokser med 0,6 milliarder kroner om året ifølge modellen. 

Har du et spørgsmål, du vil stille om Regression? Skriv det i Webmatematiks forum!
Har du en kommentar til indholdet på denne side? Send os en mail!