Lineær regresjon
Innenfor matematikken betyr lineær regresjon at man ønsker å finne den lineære funksjonen hvis kurve/graf passer best med innsamlede data, som inneholder en eller annen statistisk feilkilde også kalt residual. Lineær regresjon brukes ofte for å lage prognoser.
Innhold |
Gitte opplysninger og antagelser [rediger]
Man har gitt en mengde datapunkter på formen
hvor minst 2 xi er forskjellige og man ønsker å finne en funksjon
som på best mulig måte passer med de gitte datapunktene. For denne oppgaven formulerer man Gauss' minste kvadraters metode som følger:
Minste kvadraters prinsipp. [...] linjen skal trekkes gjennom de gitte punktene slik at summen av kvadratene av avstandene fra disse punktene til linjen minimeres, hvor avstanden måles i vertikalretningen (y-retningen).[1]
Funksjonen man søker antas å være lineær, hvilket betyr at den uttrykkes matematisk som
og det er koeffisientene ai som man ønsker å bestemme. Hvis man ønsker en rett linje betyr at alle koeffisientene unntatt a0 og a1 er 0.
Minste kvadraters metode for rett linje [rediger]
For n gitte datapunkter ønsker man å finne en linje på formen

Som angitt i minste kvadraters prinsipp ovenfor ønsker man å beregne

for alle j, og deretter bestemnme a0 og a1 slik at man minimaliserer summen av kvadratene av disse, dvs

Fra elementær analyse er det kjent at de nødvendige kravene for at dette er et bunnpunkt er

Ved å derivere uttrykket for q med hensyn på a0 og a1 (se detaljer i underavsnittet) kommer man til slutt frem til at regresjonslinjen har formelen

hvor

Teller og nevner i regresjonskoeffisienten til linjen kalles utvalgets kovarians
![s_{xy} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})
=\frac{1}{n-1}\left[\sum_{i=1}^{n}x_iy_i-\frac{1}{n}\left(\sum_{i=1}^{n}x_i\right)\left(\sum_{j=1}^{n}y_j\right)\right]](http://upload.wikimedia.org/math/0/c/f/0cf6bf6f83ff8f6057058115006fe26e.png)
og variansen til x verdiene (merk at dette ikke er helt riktig da x er å betrakte som en ordinær og ikke tilfeldig variabel)
![s_{x}^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
=\frac{1}{n-1}\left[\sum_{i=1}^{n}x_i^2-\frac{1}{n}\left(\sum_{i=1}^{n}x_i\right)^2\right]](http://upload.wikimedia.org/math/5/b/7/5b75b4189f3e3b2dc5e1d72072799e56.png)
Utledning av formelen for regresjonslinjen [rediger]
Ved å utføre de to derivasjonene får man

Ved å dividere på 2 skrive ut hver sum for seg og stokke om på uttrykkene får man de såkalte normalligningene

Dette systemet av to ukjente har en determinant

som er ulik 0 på grunn av antakelsen om minst to forskjellige xi og garanterer derfor at løsningen eksisterer og er unik. Ved å dividere den første ligningen med n og omskriving ved hjelp av gjennomsnittsformlene får man
som sammen med
gir den ønskede regresjonskurven

Eliminasjonsmetoden gir uttrykket

Referanser [rediger]
- ^ E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999
