Normalfordeling

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk
Normalfordelingen

Normalfordelingen, eller gausskurven, er i matematikken (hovedsakelig i sannsynlighetsteori og statistikk) den desidert viktigste fordelingen. En normalfordelt variabel antar ofte verdien som ligger nær middelverdien, og sjelden verdien som har stor avvikelse. Derfor ser normalfordelingen ut som en klokke (bjelle), og internasjonalt brukes ofte betegnelsen bell curve.

Normalfordelingen er statistikkens desidert viktigste fordeling. Dette henger sammen med et matematisk resultat som kalles for sentralgrenseteoremet. Resultatet innebærer at summen av et stort antall uavhengige tilfeldige variabler er tilnærmet normalfordelt under visse allmenne forutsetninger, uavhengig av hvilken fordeling disse variablene hadde i utgangspunktet. Dette resulterer i at normalfordelingen dukker opp flere steder i naturen og samfunnet, og flere hendelser kan med stor nøyaktighet beskrives av normalfordelingen.

Forekomst[rediger | rediger kilde]

Årsaken til at normalfordelingen anvendes så mye er sentralgrenseteoremet. I bl.a. naturvitenskap, sosiologi og økonomi er det normalt at man ikke forstår hvordan en viss mekanisme fungerer, men man kan teoretisk sett motivere til bruk av normalfordelinger ettersom det ofte er slik at fenomener oppstår gjennom mange små, uavhengige, tilfeldige variasjoner.

IQ-tester lages ofte med antagelser om at intelligensen er normalfordelt. En IQ-test vil gi resultater som er normalfordelte med en forventningsverdi på 100, ved å omskalere testresultatene til en normalfordeling. Hvorvidt intelligens virkelig er normalfordelt er uvisst.

Eksempel – kaste mynt[rediger | rediger kilde]

Dersom man kaster en mynt 100 ganger og kaller summen for X, så vil X være binomisk fordelt. Men ettersom hvert myntkast er uavhengig av alle de øvrige kastene, vil X være tilnærmet normalfordelt med en forventningsverdi på 50. Ofte er det mye enklere å anta en tilnærmet verdi på en tilfeldig variabel med en normalfordeling enn å beregne eksakte sannsynligheter, og ettersom mange tilfeldige fenomener er summer av veldig mange små, tilfeldige forskyvninger, fungerer det utmerket. Historisk sett var muligheten til å anta tilnærmede verdier på store binomiske fordelinger det første anvendelsesområdet for normalfordelingen.

Definisjon[rediger | rediger kilde]

Normalfordelingen har tetthetsfunksjonen:

Normalfordelingen for ulike verdier av μ og σ²
f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{-{(x-\mu )^2 \over 2\sigma^2}},

der μ og σ er normalfordelingens karakteristiske konstanter: μ er forventningsverdien, og σ er fordelingens standardavvik. Denne normalfordelingen betegnes med N(\mu,\sigma)\,.

Normalfordelingens tetthetsfunksjon kan ikke integreres med vanlige endimensjonale metoder, ettersom den ikke har noen antiderivert funksjon som kan uttrykkes analytisk. Området under kurven kan derimot ha en verdi på 1 ved bruk av andre metoder, noe den må være for å være en ordentlig sannsynlighetsfordeling.

En standardisert normalfordeling har μ = 0 og σ = 1.

Fordelingsfunksjon for normalfordeling

Fordelingsfunksjonen for en standardisert normalfordeling betegnes vanligvis med \Phi\, og sammenhengen mellom fordelingsfunksjonen og tetthetsfunksjonen sier at:

\Phi(x) = \int_{-\infty}^x f(x) dx.

Fordelingsfunksjonen angir sannsynligheten for at en normalfordelt variabel Y er mindre eller lik et gitt tall x:

P(Y < x) = \Phi(x)\,.

Sannsynligheten for at en normalfordelt variabel havner i et intervall [a,b] er:

P(a < X < b) = \Phi(b) - \Phi(a)\,.

Egenskaper[rediger | rediger kilde]

Følgende egenskaper gjelder for normalfordelinger:

Fordelingsfunksjon[rediger | rediger kilde]

Fordelingsfunksjonen for en vilkårlig normalfordelt variabel X\in N(\mu,\sigma) kan lett utledes fra fordelingsfunksjonen for en standard-normalfordelt variabel:

P(X<a)=\Phi\left(\frac{a-\mu}{\sigma}\right).

Denne egenskapen gjør at tabeller for normalfordelinger bare gir oss fordelingsfunksjonen \Phi\,, ettersom alle andre normalfordelinger på denne måten kan gjøres om til en med forventningsverdi på 0 og standardavvik på 1.

Symmetri[rediger | rediger kilde]

\Phi(x) = 1 - \Phi(-x)\,.

Denne symmetrien gjør at alle tabeller bare gir oss \Phi(x)\, for positive tall x.

Lineær forandring[rediger | rediger kilde]

Dersom X\in N(\mu,\sigma) og a,b\, er konstanter, er den lineære formen

aX + b \in N(a\mu+b,a\sigma),

det vil si at forventningsverdien forandres på samme lineære måte, og standardavviket øker med faktoren a.

Summen av to normalfordelte variabler[rediger | rediger kilde]

Dersom X \in N(\mu_X, \sigma_X) og Y \in N(\mu_Y, \sigma_Y) så vil summen være

X+Y \in N\left(\mu_X+\mu_Y, \sqrt{\sigma^2_X + \sigma^2_Y}\right).

Differanser av normalfordelte variabler fungerer analogt.

Sentralgrenseteoremet[rediger | rediger kilde]

Hovedartikkel: Sentralgrenseteoremet

Sentralgrenseteoremet sier at summen av mange uavhengige, likt fordelte, stokastiske variabler med endelig varians er tilnærmet normalfordelt. Med matematisk notasjon: Dersom X_1\ldots X_n \, er uavhengige stokastiske variabler med samme forventningsverdi og varians, og Y = \sum X_k så er Y\, normalfordelt med forventningsverdi n\cdot E(X) og varians n\cdot V(X)

Se også[rediger | rediger kilde]