Variansanalyse

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Variansanalyse (ANOVA, fra det engelske «analysis of variance») er en fellesbetegnelse for en rekke statistiske metoder for å for å teste likhet mellom to eller flere utvalg, der én eller flere faktorer gjør seg gjeldende. Variansanalyse er i de enkle tilfellene et alternativ til Z/t-testene for å sammenligne gjennomsnitt i populasjoner.

De to grunnleggende formene for variansanalyse beskrives gjerne som 'enveis' og 'toveis' variansanalyse. I enveis tilfellet undersøker man kun én egenskap som varierer mellom gruppene, i toveistilfellet undersøker man også variasjoner innad i gruppene.

Variansanalyse med én faktor[rediger | rediger kilde]

Det enkleste tilfellet for variansanalyse er tilfellet der man har I grupper med like størrelser J, og ønsker å sammenligne gjennomsnittene til gruppene. Den brukes gjerne der man ønsker å sammenligne forskjeller i respons på forskjellige behandlinger (treatments) i forskjellige grupper.

Hypotesen man tester er for et antall populasjoner[1] I

  1.  H_0: \ \mu_1 = \mu_2 = \dots = \mu_I
  2.  H_A: minst to av gruppene er forskjellige.

Forutsetningene for testen er at alle observasjonene er uavhengige normalfordelte tilfeldige variable med lik varians.

Kvadratavvik og varians[rediger | rediger kilde]

De fundamentale størrelsene i variansanalysen er kvadratavvik totalt (SST), mellom individ og gruppe (SSE) og mellom gruppe og totalt gjennomsnitt (SSTr). Disse er definert ved[2]
 SST = \sum_i\sum_j (x_{ij} - \overline{x}_{..})^2 = \sum_i\sum_j x_{ij}^2 - \frac{x_{..}^2}{IJ}
 SSTr = \sum_i\sum_j (\overline{x}_{i.} - \overline{x}_{..})^2 = \frac{\sum_i X_{i.}^2}{J} - \frac{x_{..}^2}{IJ}
 SSE = \sum_i\sum_j (x_{ij} - \overline{x}_{i.})^2

Sammenhengen mellom disse gir opphav til den fundamentale ANOVA-identiteten SST = SSTr + SSE.[3] Videre har vi at[4]
MSTr = \frac{SSTr}{I - 1}
MSE  = \frac{SSE}{I(J-1)}

Dette gir opphavet til det man kaller en ANOVA-tabell:[5]

Variasjonskilde Frihetsgrader Kvadratavvik Varians f-verdi
Grupper I - 1 SSTr MSTr = SSTr/(I - 1) MSTr/MSE
Error I(J - 1) SSE MSE = SSE/[I(J - 1)]
Total IJ - 1 SST

Test av nullhypotesen[rediger | rediger kilde]

For å teste nullhypotesen, bruker man ofte en f-test. Testobservatoren er gitt ved[4]
f = \frac{MSTr}{MSE}

som er tilnærmet F_{I - 1, I(J - 1)}-fordelt. Forkastningsområdet for H_0 er f \geq F_{\alpha, I-1, I(J-1)} for ønsket signifikansnivå \alpha

Tukeys prosedyre[rediger | rediger kilde]


F-testen er ment for å sammenligne gjennomsnittene i flere populasjoner, men den gir ikke svar på hvilke av populasjonene som er signifikant ulike hverandre. Tukeys prosedyre bruker en Q-fordeling til å beregne hvilke intervaller gjennomsnittene i populasjonen kan ligge i for å være signifikant like hverandre. For et signifikansnivå \alpha definerer vi w som

w =  Q_{\alpha, I, I(J - 1)}\sqrt{MSE / J}

De gjennomsnittene som har større differanse enn w er være signifikant ulike, med signifikansnivå \alpha[6]

Relasjon til t-testen[rediger | rediger kilde]

For tilfellet med to populasjoner, vil variansanalyse og en alminnelig t-test gi samme resultat for hypotesen H_0: \ \mu_1 = \mu_2 mot H_A: \ \mu_1 \neq \mu_2. T-testen er mer fleksibel, da man og kan teste hvorvidt et gjennomsnitt er større enn, eller mindre enn et annet.

For I > 2 kan man i prinsippet også utføre t-tester for alle kombinasjoner av grupper, men dette vil gi større sannsynlighet for type 1-feil.[7]

Kilder[rediger | rediger kilde]

  • Jay L. Devore and Kenneth N. Berk: Modern Mathematical Statistics with Applications. Thomson 2007.

Referanser[rediger | rediger kilde]

  1. ^ Devore/Berk 2007, side 540.
  2. ^ Devore/Berk 2007, side 544.
  3. ^ Devore/Berk 2007, side 547.
  4. ^ a b Devore/Berk 2007, side 545.
  5. ^ Devore/Berk 2007, side 548.
  6. ^ Devore/Berk 2007, side 552.
  7. ^ Devore/Berk 2007, side 557, 563.