Konfidensintervall

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Et konfidensintervall er i statistikken en måte å angi feilmarginen av en måling eller en beregning på. Et konfidensintervall angir intervallet som med en spesifisert sannsynlighet inneholder den sanne (men vanligvis ukjente) verdien av variabelen man har målt. Sannsynligheten angis i prosent. Således inneholder et 95 %-konfidensintervall den sanne verdien med en sannsynlighet på 0,95.

I de empiriske vitenskapene er ingen verdier kjente med uendelig presisjon eller absolutt sikkerhet. Derfor er det viktig at man ikke bare angir verdien som er målt (eller beregnet), men også hvor mye tillit man har til målingen. Begrepet konfidensintervall kommer fra det latinske ordet for «tillit» (confidentia). Slikt «tillit» angis som ytterpunktene for et intervall. Når man f.eks. skriver «12,34 ± 0,98 (95 % CI)», så betyr dette at målingen var 12,34, og at konfidensintervallet strekker seg fra 11,36 til 13,32.

Jo sikrere man vil være på at konfidensintervallet inneholder den sanne verdien, desto bredere konfidensintervaller velger man, men desto mindre informativt er intervallet. Vil man være helt sikker og velger et 100 %-konfidensintervall, vil dette vanligvis (f.eks. for normalfordelte verdier) strekke seg fra minus uendelig til pluss uendelig. Velger man smale konfidensintervaller, øker derimot sannsynligheten for at de ikke inneholder den sanne verdien.

Grunnen til at man oftest bruker 95 %-konfidensintervaller, er at man i mange statistiske tester opererer med et såkalt signifikansnivå på 5 %. En verdi som ligger utenfor 95 %-konfidensintervallet kan altså sies å avvike signifikant fra forventningen. Ved normalfordelte variabler kan 95 %-konfidensintervallene nokså nøyaktig regnes om fra variablens gjennomsnitt (m) og standardavvik (s) som:

CI = [m − 1,96 · s; m + 1,96 · s]

I 90 %- og 99 %-konfidensintervall bytter vi ut 1,96 med henholdsvis 1,64 og 2,58.

Ved andre fordelinger kan konfidensintervallene være asymmetriske. F.eks. er den øvre grensen lenger fra gjennomsnittet enn den nedre grensen hvis variabelen kommer fra en lognormal fordeling. I så fall angis hele intervallet, f.eks. «12,34 [11,36; 13,40] (95 % CI)».

75 %-konfidensintervaller er identiske med variablenes kvartilavstand.

Måten å komme frem til konfidensintervallene på, er vanligvis ved å avlede dem fra variabelens antatte eller kjente statistiske fordeling. Er denne ukjent, kan man bruke statiske metoder som bootstrap for å estimere konfidensintervallene.

Se også[rediger | rediger kilde]