Korrelationskoefficienten

Det er med Excel altid muligt at bestemme regressionskoefficienterne \(b_0,b_1,b_2,\ldots,b_p\), så spørgsmålet er mere, om det giver mening at forsøge at modellere en lineær sammenhæng mellem en afhængig variable og en eller flere forklarende variable. Det kan korrelationskoefficienten hjælpe os med at afklare. I Excel betegnes korrelationskoefficienten med "Multiple R''. Men typisk bruger man blot betegnelsen R for korrelationskoefficienten.

Fortolkning af korrelationskoefficienten


Korrelation mellem to variable betyder, at hvis den ene variabel ændre sig, så giver det en forudsigelig ændring i den anden variabel. Korrelationskoefficienten ligger altid mellem 0 og 1. Hvis den er 1, er der en deterministisk korrelation mellem variablene, altså en ændring i den ene variabel vil helt sikkert medføre en ændring i den anden variabel. Hvis værdien derimod er 0, så er der absolut ingen lineær sammenhæng mellem de to variable. 

R værdi Fortolkning
\(1{,}0\) Perfekt lineær sammenhæng
\(0{,}0\) Absolut ingen sammenhæng
\(0{,}9\) Stærk lineær sammenhæng
\(0{,}5\) Moderat lineær sammenhæng
\(0{,}2\) Svag lineær sammenhæng


Bemærk at en høj grad af korrelation på ingen måder kan bruges til at postulere en årsagssammenhæng (kausalitet) mellem variable. 

Hvis multipel lineær regression skal give mening, så skal der være en lineær sammenhæng mellem den afhængige variable og de forklarende variable. Hvis vi kigger på eksemplet fra tidligere, så ser vi, at der her er en korrelationskoefficient på ca. 0,9553 og at der dermed i dette tilfælde er en korrelation mellem variable pris, byggeomkostninger og rente.

Formel for korrelationskoefficienten for to uafhængige variable


Den generelle formel for korrelationskoefficienten er kompliceret og involveret matrix beregninger. I tilfældet hvor vi kun har to uafhængige variable er det lidt nemmere at skrive formlen ned.
\(\label{eq:correlation}
R = \frac{\sqrt{r^2_{yx_1} + r^2_{yx_2} - 2r_{yx_1} r_{yx_2} r_{{x_1}x_2}}}{\sqrt{1 - r^2_{{x_1}x_2}}}
\)

hvor fx

\(
r_{yx_1} = (\frac{1}{n-1}) \sum \frac{(y-\bar{y})(x_1 - \bar{x}_1)}{s_{yx_1}}
\)

og
\(
\bar{y} = \frac{y_{i}}{n}, \quad \bar{x}_1 = \frac{x_{1}}{n}, \quad s_{y} = \sqrt{\frac{\sum{(y_{i} - \bar{y})^2}}{n-1}}, \quad s_{x_1} = \sqrt{\frac{\sum{(x_{1} - \bar{x}_1)^2}}{n-1}}
\)
Størrelsen \(r_{{y}{x_1}}\) er dybest set korrelationskoefficienten mellem variablene \(y\) og \(x_1\). Når formlen er mere kompleks skyldes det, at vi også er nødt til at betragte korrelationen mellem \(y\) og \(x_2\) og mellem \(x_1\) og \(x_2\).

Pointen med at opskrive formlen er ikke, at du skal kunne regne korrelationskoefficienten i hånden. Pointen er derimod at kunne sammenligne med simpel regressionsanalyse. Hvis vi nu kun har en enkelt forklarende variable \(x_1\) og \(x_2=0\), så forsvinder de fleste led i formlen. Tilbage bliver kun de led, hvor \(x_2\) ikke indgår, 
\(
R = \frac{\sqrt{r^2_{yx_1}}}{\sqrt{1}} = r_{yx_1}
\)
hvilket præcis er korrelationskoefficienten for simpel lineær regression mellem den afhængige variabel \(y\) og den forklarende variabel \(x_1\).

Har du et spørgsmål, du vil stille om Korrelationskoefficienten? Skriv det i Webmatematiks forum!
Har du en kommentar til indholdet på denne side? Send os en mail!