Mindste kvadraters metode
Når man arbejder med en mængde data, ønsker man nogle gange at lave en regression, for at undersøge om der kan findes en tendens. En meget almindelig type regression er den lineære regression. Lineær regression går ud på, at man ønsker at finde den rette linje, med forskriften \(y=a\cdot x + b\), som beskriver datasættets tendens bedst.
Hvad er det nu tendens er? Tendens er datasættets tilbøjelighed til at følge en bestemt udvikling. Den rette linje kan vi også kalde for tendenslinjen. Det betyder kort sagt, at vi har en idé om, at fremtidig data vil lægge sig i nærheden af tendenslinjen.
Et eksempel: Vi har et datasæt, som indeholder 3 træers vægt og tykkelse på stammen. Vi indtegner datapunkterne i et koordinatsystem.
Datapunkter indtegnet i et koordinatsystem.
Her har vi vægten på y-aksen og tykkelsen på x-aksen. Vi vil gerne tegne den rette linje, som bedst beskriver datasættets udvikling. På den måde kan man give et kvalificeret bud på den fremtidige udvikling. Men hvordan tegner vi den bedste rette linje, altså den rette linje, som beskriver vores datasæt bedst?
Tre eksempler på tendenslinjer, der alle beskriver datasættets udvikling. Hvilken er bedst?
Som vi kan se på figuren, kan man tegne mange rette linjer, som alle beskriver data, men vi ønsker at finde den ene rette linje, som beskriver data bedst.
Typisk får man sit regneprogram (Maple, TI-nSpire, Excel, GeoGebra,...) til at udføre regressionen for en. Vi vil nu se på, hvordan lineær regression kan udføres, ved mindste kvadraters metode.
Vi tegner nu kun én linje, som vi på øjemål synes beskriver data bedst.
Den rette linje, vi har valgt at bruge til mindste kvadraters metode.
Nu kigger vi på det punkt, der ligger i (5,4). Vi vil gerne finde afstanden fra punktet og op til den rette linje. Den afstand kalder vi for d1. Vi zoomer ind på punktet og tegner afstanden d1:
Afstanden fra punktet (5,4) til den rette linje kalder vi d1, er vist som den stiplede linje.
Vi kan gøre det samme for de to andre punkter, hvor afstandene vil være d2 og d3. Punktet (4,2) tilhører nu d2 og punktet (1,3) tilhører d3. Vi koncentrerer os om d1 for nu, da fremgangsmåden er ens for alle punkterne og deres tilhørende afstande. Vi ønsker nu et udtryk, som beskriver afstanden, d1.
Vi husker, at den røde linje kan beskrives med den generelle forskrift: \(y = a\cdot x + b\), som vi benytter, da vi ikke kender konstanterne \(a\) og \(b\) endnu.
Afstanden mellem punktet og linjen er udelukkende en forskel i y-værdier, da vi ikke har bevæget os hen ad x-aksen. Fra forskriften for den røde linje ved vi, at y-værdien som ligger præcis over punktet (5,4) er lig med \(a\cdot x+b\). Derfor kan forskellen beskrives ved følgende,
$$ d_1 = a\cdot x_1 +b - y_1$$
Hvor \(x_1\) og \(y_1\) er koordinaterne i punktet (5,4). Vi indsætter x- og y-værdierne i udtrykket og får,
$$ d_1 = a\cdot 5 +b -4 = 5a+b-4$$
Vi vil nu gerne opløfte d1 i anden. Det smarte ved at opløfte afstanden i anden er, at kvadratet altid vil være positivt. Hvis et af punkterne ligger oven linjen, så er afstanden fra punktet til linjen negativt, og det duer ikke. Når man opløfter en linje i anden, får man kvadratet af linjen. Et kvadrat er netop en firkant med ens sidelængder. I vores tilfælde er sidelængden d1. Arealet af et kvadrat er defineret som \( A_{kvadrat} = d_1 \cdot d_1 = d_1^2\). Dette kan illustreres som:
Det grønne areal, som er kvadratet af d1.
Det grønne areal er lig d1 opløftet i anden. Vi ser nu på vores udtryk,
$$ d_1^2 = ( 5a+b-4)^2 = ( 5a+b-4)\cdot ( 5a+b-4) \\ = 25a^2+10ab-40a+b^2-8b+16$$
Hvis man er i tvivl om, hvordan ovenstående blev udregnet, så tag et kig på kvadratsætningerne. Vi husker på en ting: vi brugte den generelle forskrift for rette linjer, til at beskrive den røde linje. Det betyder, at havde vi tegnet den grønne eller blå eller en hvilken som helst anden ret linje, ville afstanden d1 kunne beskrives ved ovenstående udtryk, da tallene a og b, netop er ukendte variable.
Afstanden fra de to andre punkter, d2 og d3, kan man bestemme på præcis samme måde, som vi gjorde det med d1. Vi har nu,
$$d_2^2 = 16a^2+8ab-16a+b^2-4b+4 \\ d_3^2 = a^2+2ab-6a+b^2-6b+9$$
Når vi sætter afstandene i anden, får vi dannet kvadrater. Det vi nu ønsker, det er at minimere det samlede areal af de tre kvadrater, således at den rette linje kommer til at ligge så tæt på punkterne som muligt, heraf navnet mindste kvadraters metode!
Vi lægger de tre arealer sammen, hvilket giver os det samlede areal, T:
$$ T= d_1^2+d_2^2+d_3^2 = 42a^2+20ab-62a+3b^2-18b+29$$
Nu ønsker vi, at gøre det dette udtryk mindst muligt. Det betyder, at vi får lagt den rette linje, sådan at de tre kvadraters areal bliver mindst muligt.
Opfatter man udtrykket for det totale areal, som en funktion af a, sådan at b er en konstant, kan vi se, at vi kan opfatte T som et andengradspolynomium. Vi har netop tre led, et led med a2, et led med a og et konstantled (alle led hvor b indgår alene). Det samme gælder for b. Der hvor andengradspolynomiet er mindst er dets minimum, altså der hvor parablen vender. Vi kan finde minimum ved at differentere T, og sætte den afledte lig med 0, og løse for a og b. Vi prøver nu at differentiere, først med hensyn til a og derefter med hensyn til b:
$$ \frac{\mathrm{d}T}{\mathrm{d}a} = 84a + 20b-62$$
$$ \frac{\mathrm{d}T}{\mathrm{d}b} = 6b+20a-18$$
Husk på, at når \(3b^2-18b+29\) differentieres med hensyn til a, vil alle tre led ses som konstanter og derfor vil deres afledte være lig 0. Det samme gælder for \(42a^2-62a+29\) differentieret med hensyn til b.
Vi har nu to afledte, som vi sætter lig 0:
$$ 84a + 20b-62=0 \\ 6b+20a-18=0$$
To ligninger med to ubekendte, a og b, er noget vi har set før og som vi nemt kan løse. Hvis du har brug for at få det genopfrisket, så kig på siden om emnet.
Vi løser de to ligninger, og får værdierne for a og b:
$$ a = \frac{3}{26} \\ b = \frac{34}{13}$$
Vi har nu bestemt konstanterne a og b til vores lineære funktion, som beskriver den bedste rette linje til de tre punkter, som derfor har forsriften:
$$ y = \frac{3}{26}\cdot x + \frac{34}{13}$$
Vi har tegnet det her:
Den bedste rette linje for vores datasæt.
Vi kan nu tydeligt se, hvordan vores oprindelige forsøg på at tegne den bedste rette linje ramte ved siden af. Faktisk var den blå linje, den som kom tættest på den bedste rette linje.
Det hele kan sammenfattes således:
Vi har n observationer, (1, 2, 3, ..., n), som har afstanden fra en vilkårlig ret linje (\(y =a\cdot x + b\)
$$ d_i = a\cdot x_i +b - y_i $$
Vi ønsker at finde summen af de kvadrerede afstande, T,
$$ T = \sum_{i=1}^n ( a \cdot x_i +b -y_i)^2$$
Denne sum ønskes minimeret så meget som muligt, hvilket gøres ved at differentiere T med hensyn til a og b, og sætte differentialkvotienterne lig med 0, således,
$$ \frac{\mathrm{d}T}{\mathrm{d}a} = \sum_{i=1}^n 2\cdot (a \cdot x_i +b -y_i)\cdot x_i =0$$
$$ \frac{\mathrm{d}T}{\mathrm{d}b} = \sum_{i=1}^n 2\cdot (a \cdot x_i +b -y_i)=0$$
Vi har nu de to ovenstående ligninger, som vi løser som to ligninger med to ubekendte. På den måde bestemmes koefficienterne, a og b, til de rette linjer, og problemet er løst.