Lineær regresjon

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Innenfor matematikken betyr lineær regresjon at man ønsker å finne den lineære funksjonen hvis kurve/graf passer best med innsamlede data, som inneholder en eller annen statistisk feilkilde også kalt residual. Lineær regresjon brukes ofte for å lage prognoser.


Gitte opplysninger og antagelser[rediger | rediger kilde]

Man har gitt en mengde datapunkter på formen (x_1,y_1),(x_2,y_2),...,(x_n,y_n) hvor minst 2 xi er forskjellige og man ønsker å finne en funksjon y=f(x) som på best mulig måte passer med de gitte datapunktene. For denne oppgaven formulerer man Gauss' minste kvadraters metode som følger:

Minste kvadraters prinsipp. [...] linjen skal trekkes gjennom de gitte punktene slik at summen av kvadratene av avstandene fra disse punktene til linjen minimeres, hvor avstanden måles i vertikalretningen (y-retningen).[1]

Funksjonen man søker antas å være lineær, hvilket betyr at den uttrykkes matematisk som

f(x)=\sum_{i=0}^{n} a_ix^i=a_0+a_1x+\dots+a_nx^n

og det er koeffisientene ai som man ønsker å bestemme. Hvis man ønsker en rett linje betyr at alle koeffisientene unntatt a0 og a1 er 0.


Minste kvadraters metode for rett linje[rediger | rediger kilde]

For n gitte datapunkter ønsker man å finne en linje på formen

y = a_0 + a_1x

Som angitt i minste kvadraters prinsipp ovenfor ønsker man å beregne

|y_j-(a_0+a_1x_j)|

for alle j, og deretter bestemnme a0 og a1 slik at man minimaliserer summen av kvadratene av disse, dvs

\min_{a_0,a_1} q = \left ( \sum_{j=1}^{n}(y_j - a_0 - a_1x_j)^2 \right )

Fra elementær analyse er det kjent at de nødvendige kravene for at dette er et bunnpunkt er

\frac{\partial q}{\partial a_0} = 0 \quad og \quad \frac{\partial q}{\partial a_1} = 0

Ved å derivere uttrykket for q med hensyn på a0 og a1 (se detaljer i underavsnittet) kommer man til slutt frem til at regresjonslinjen har formelen

y - \bar{y} = k_1(x - \bar{x})

hvor

\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i, \quad \bar{y} = \frac{1}{n}\sum_{i=1}^{n}y_i, \quad og \quad k_1=\frac{s_{xy}}{s_{x^2}}

Teller og nevner i regresjonskoeffisienten til linjen kalles utvalgets kovarians

s_{xy} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})
=\frac{1}{n-1}\left[\sum_{i=1}^{n}x_iy_i-\frac{1}{n}\left(\sum_{i=1}^{n}x_i\right)\left(\sum_{j=1}^{n}y_j\right)\right]

og variansen til x verdiene (merk at dette ikke er helt riktig da x er å betrakte som en ordinær og ikke tilfeldig variabel)

s_{x}^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
=\frac{1}{n-1}\left[\sum_{i=1}^{n}x_i^2-\frac{1}{n}\left(\sum_{i=1}^{n}x_i\right)^2\right]


Utledning av formelen for regresjonslinjen[rediger | rediger kilde]

Ved å utføre de to derivasjonene får man

\frac{\partial q}{\partial a_0} = -2\sum_{i=1}^{n}(y_i - a_0 - a_1x_i) \quad og \quad 
\frac{\partial q}{\partial a_1} = -2\sum_{i=1}^{n}x_i(y_i - a_0 - a_1x_i)

Ved å dividere på 2 skrive ut hver sum for seg og stokke om på uttrykkene får man de såkalte normalligningene


\begin{array}{c}
a_0n + a_1\sum x_i = \sum y_i \\
a_0\sum x_i + a_1\sum x_i^2 = \sum x_iy_i
\end{array}

Dette systemet av to ukjente har en determinant


\left|\begin{array}{cc}
n & \sum x_i \\
\sum x_i & \sum x_i^2
\end{array}\right |
 = n\sum x_i^2 - \left(\sum x_i \right)^2 = n(n-1)s_x^2 = n\sum(x_i-\bar{x})^2

som er ulik 0 på grunn av antakelsen om minst to forskjellige xi og garanterer derfor at løsningen eksisterer og er unik. Ved å dividere den første ligningen med n og omskriving ved hjelp av gjennomsnittsformlene får man a_0 = \bar{y} - a_1\bar{x} som sammen med y=a_0+a_1x gir den ønskede regresjonskurven

y-\bar{y}=a_1(x-\bar{x})

Eliminasjonsmetoden gir uttrykket

a_1 = k_1 = \frac{n\sum x_iy_i - \sum x_i\sum y_j}{n(n-1)s_x^2}


Referanser[rediger | rediger kilde]

  1. ^ E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999