Konfidensintervall

Et konfidensintervall er et intervall over mulige verdier for en parameter i en statistisk modell. For et gitt konfidensnivå, α, vil et $100(1-\alpha )$ %-konfidensintervall med sannsynlighet (1-α) inneholde den sanne parameterverdien.

Innenfor statistikk er tolkningen av konfidensintervall omstridt. Det hersker enighet om at utsagn av typen $P(X<\theta <Y)=1-\alpha$ gir mening når $X{\text{ og }}Y$ har gitte sannsynlighetsfordelinger. Den klassiske forståelsen er derimot at realiserte konfidensintervall av typen $P(2.34<\theta <5.69)=1-\alpha$ ikke gir mening så lenge parameteren $\theta$ ikke har en spesifisert apriorifordeling (hvis parameteren har en apriorifordeling kaller man det ikke lenger konfidensinterval, men et kredibilitetsintervall).

Den fidusiale forståelsen, som lenge ble sett på som utdatert, men har fått mer oppmerksomhet de siste årene, er derimot at utsagn av typen $P(2.34<\theta <5.69)=1-\alpha$ gir mening, selv om parameteren ikke har en apriorifordeling, fordi den sanne verdien av parameteren er heftet ved epistemisk usikkerhet. Se Usikkerhet i SNL ^[1]for definisjon av epistemisk usikkerhet. Se Confidence, Likelihood, Probability (Schweder og Hjort, 2016)^[2] for en grundig innføring i den fidusiale forståelsen av konfidensintervall eller anmeldelsen av boken^[3] for en kortere gjennomgang.

Definisjon[rediger | rediger kilde]

La en datagenererende prosess ha sannsynlighetstetthet $f(x|\theta )$ .

$(a,b)$ er et $100(1-\alpha )\%$ -konfidensintervall for $\theta$ hvis $P(a<\theta <b)=1-\alpha$ .

Vi går gjennom noen kjente eksempler for å demonstrere hvordan man finner konfidensintervall i praksis.

Eksempel for snitt til en normalfordeling med kjent varians[rediger | rediger kilde]

La oss tenke at vi skal samle inn n uavhengige og identisk fordelte observasjoner fra en normalfordelt populasjon med kjent varians. Da er $X_{1},X_{2},\dots ,X_{n}\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ . Vi vet at ${\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\sim {\mathcal {N}}(0,1)$ , der ${\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$ . Ved å se på tabeller for kumulativ sannsynlighet for standardnormalfordelt variabel finner vi at

$P(-1.96<{\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}<1.96)=0.95$

Da kan vi få et uttrykk for $\mu$ alene

$P({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}<\mu <{\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}})=0.95$

og $({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}},{\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}})$ er da et 95% konfidensintervall for $\mu$ .

I 90 %- og 99 %-konfidensintervall bytter vi ut 1,96 med henholdsvis 1,64 og 2,58.

Eksempel for snitt til en normalfordeling med ukjent varians[rediger | rediger kilde]

Vi ser på situasjonen der vi skal samle inn n uavhengige og identisk fordelt fra en normalfordelt observasjon. Da er $X_{1},X_{2},\dots ,X_{n}\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ . Vi vet at ${\frac {{\bar {X}}-\mu }{S/{\sqrt {n}}}}\sim t_{n-1}$ der $S$ er standardfeilen. For et gitt konfidensnivå $\alpha$ kan vi finne de kritiske verdiene for students t-fordeling slik at