Gjennomsnitt

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk
Det menneskelige hankjønn gjengitt på en plakat i romsondene Pioneer 10 og Pioneer 11 ble sendt ut i verdensrommet av NASA. Bildet er manipulert og illustrerer problemstillingen med å finne en sentraltendens for høyden av flere mennesker. Gjennomsnittet kan bli en verdi (høyde) som representerer alle personer i utvalget (nederst), selv om ingen eller bare noen få personer i virkeligheten har denne høyden (øverst). I dagligtale forstås gjennomsnitt vanligvis som det aritmetisk gjennomsnitt, men det finnes mange andre metoder for å finne en sentraltendens.

Gjennomsnitt eller middelverdi er et matematikkisk begrep om sentraltendens i en populasjon, en tallrekke eller en funksjon. Begrepet har flere forskjellige meninger alt etter konteksten.

I sannsynlighetsteori og statistikk blir gjennomsnitt og forventet verdi bruket synonymt for å referere til ett mål for sentraltendens enten av en sannsynlighetsfordeling eller for en stokastisk variabel[1] I tilfelle av en diskret sannsynlighetsfordeling av en stokastisk variabel X, er gjennomsnittet lik summen over hver mulig verdi vektet for den gjennomsnittlige sannsynligheten for denne verdien. Det vil si at den er beregnet ved å ta produktet av hver mulig verdi x i X, dens sannsynlighet P (x), og deretter adderes alle disse produkter sammen, noe som gir \mu = \sum x P(x).[2] En analog formel gjelder for tilfelle av en kontinuerlig sannsynlighetsfordeling. Ikke alle sannsynlighetsfordeling har et definert gjennomsnitt. Se for eksempel Cauchy fordeling. For noen distribusjoner er middelverdien uendelig, for eksempel når sannsynligheten for verdien 2^n is \tfrac{1}{2^n} for n = 1, 2, 3, ....

For et utvalg eller datasett er termene aritmetisk gjennomsnitt, forventet verdi, og noen ganger er gjennomsnitt brukt synonymt for å vise til en sentral verdi av et diskret sett av tall, nemlig summen av verdiene dividert med antall verdier. Det aritmetiske gjennomsnittet av et sett med tall x1, x2, ..., xn er vanligvis merket med \bar{x} (uttales «x strek»). Hvis datasettet var basert på en serie av observasjoner innhentet ved prøvetaking fra en statistisk populasjon, vil det aritmetisk gjennomsnittet kales utvalgsgjennomsnitt (angitt \bar{x}) for å skille det fra populasjonsgjennomsnittet (angitt som \mu eller \mu_x).[3]

For en gitt populasjon er populasjonsgjennomsnittet av en egenskap lik det aritmetiske gjennomsnittet av den gitte egenskapen vurderer for hvert medlem av populasjonen. For eksempel er en populasjonens gjennomsitteligge høyden lik summen av alle høydene for hver enkelt individ dividert med det totale antall medlemmer. Utvalgsgjennomsnittet kan avvike fra populasjonsgjennomsnittet, spesielt for små utvalg. De store talls lov tilsier at jo større utvalget er jo mer sannsynlig er det at utvalgsgjennomsnittet vil være nær populasjonsgjennomsnittet.[4]

Utenfor sannsynlighetsregning og statistikk finnes et bredt spekter av andre definisjoner for hva «gjennomsnitt» betyr. Innenfor geometri og matematisk analyse er det mange forskjellige definisjoner og eksempler blir gitt her.

Typer av middel[rediger | rediger kilde]

Pytagoreisk gjennomsnitt[rediger | rediger kilde]

Aritmetisk gjennomsnitt (A)[rediger | rediger kilde]

Det aritmetisk gjennomsnitt (eller bare "gjennomsnitt") av et utvalg x_1,x_2,\ldots,x_n, vanligvis merket med \bar{x}, er summen av de de utvalgte verdier delt på antall elementer, n, i utvalget:

 \bar{x} = \frac{x_1+x_2+\cdots +x_n}{n}

For eksempel er den aritmetiske middelverdien av fem verdiene 4, 36, 45, 50 og 75

\frac{4 + 36 + 45 + 50 + 75}{5} = \frac{210}{5} = 42.

Geometrisk gjennomsnitt (G)[rediger | rediger kilde]

Det geometrisk gjennomsnitt er et gjennomsnitt som er nyttig for sett med positive tall som blir tolket i henhold til deres produkt og ikke deres sum (som er tilfellet med aritmetisk gjennomsnitt) for eksempel vekstrater.

 \bar{x} = \left ( \prod_{i=1}^n{x_i} \right ) ^\tfrac1n

For eksempel, det geometriske gjennomsnitt av fem verdier: 4, 36, 45, 50 og 75

(4 \times 36 \times 45 \times 50 \times 75)^{^1/_5} = \sqrt[5]{24\;300\;000} = 30.

Harmonisk gjennomsnitt (H)[rediger | rediger kilde]

Det harmonisk gjennomsnitt er et gjennomsnitt som er nyttig for sett med tall som er definert i forhold til en viss enhet, for eksempel hastighet (avstand per tidsenhet). Definisjonen er gitt ved:

 \bar{x} = n \cdot \left ( \sum_{i=1}^n \frac{1}{x_i} \right ) ^{-1}

For eksempel er det harmoniske gjennomsnitt av de fem verdiene: 4, 36, 45, 50 og 75

\frac{5}{\tfrac{1}{4}+\tfrac{1}{36}+\tfrac{1}{45} + \tfrac{1}{50} + \tfrac{1}{75}} = \frac{5}{\;\tfrac{1}{3}\;} = 15.

Kvadratisk gjennomsnitt (Q)[rediger | rediger kilde]

Det kvadratisk gjennomsnitt eller RMS-verdien av et sett med verdier (eller en kontinuerlig bølgeform, se definisjon lenger ned) er kvadratroten av det aritmetiske gjennomsnittet av kvadratene av verdiene:

I tilfelle for et sett med n verdier så er RMS-verdien:


x_{\mathrm{rms}} =
\sqrt{ \frac{1}{n} \left( x_1^2 + x_2^2 + \cdots + x_n^2 \right) }.

For eksempel er det RMS-verdien av de fem verdiene: 4, 36, 45, 50 og 75 lik


x_{\mathrm{rms}} =
\sqrt{ \frac{1}{5} \left( 4^2 + 36^2 + 45^2 + 50^2 + 75^2 \right) } = \sqrt{ \frac{1}{5} \left(11462 \right) } = 47,879.

Forholdet mellom A, G, H og Q[rediger | rediger kilde]

Forholdet mellom disse størrelsene A, G, H og Q er gitt av:

 Q \ge A \ge G \ge H \,

Dette gjelder bare når alle elementene i et gitt utvalg er like.

Statistiske plassering[rediger | rediger kilde]

Sammenligning mellom aritmetisk gjennomsnitt, median og typetall for to (log-normal) distribusjoner med forskjellig skjevhet.
Geometrisk visualisering av modus, median og gjennomsnitt av en vilkårlig sannsynlighetstetthetsfunksjon.[5]

Gjennomsnitt kan ofte bli forveksles med median, typetall eller mid-range. Middelverdien er det aritmetiske gjennomsnitt av et sett med verdier eller en distribusjon. Imidlertid vil det for en skjev fordeling være slik at gjennomsnitt ikke nødvendigvis er den samme som median eller typetall.

For eksempel vil gjennomsnittlig inntekt forskyves oppover av et lite antall mennesker med svært store inntekter, slik at de fleste har en inntekt lavere enn gjennomsnittet. Derimot, er medianinntekten nivået der halvparten av befolkningen er under og halvparten er over. Typetallet er den inntekt er den mest sannsynlige inntekt, og favoriserer større antall personer med lavere inntekter. Medianen eller typetallet er ofte mer intuitive mål for slike data. Likevel er mange skjeve fordelinger best beskrevet av deres gjennomsnitts verdi slik som Weibull fordeling og Poissonfordeling.

Typetall[rediger | rediger kilde]

Utdypende artikkel: Typetall

Den hyppigst forekommende tallet i en liste kalles typetallet. For eksempel typetallet av listen (1, 2, 2, 3, 3, 3, 4) er 3. Det kan forekomme at det er to eller flere tall som forekommer like ofte, og oftere enn en hvilken som helst annen rekke. I dette tilfellet er det ingen omforent definisjon av typetall. Noen lærebokforfattere sier de er alle typetall og andre sier det ikke er noen typetall.

Median[rediger | rediger kilde]

Utdypende artikkel: Median

Median er den midterste tallet i en rekke når de er rangert i rekkefølge. (Hvis det er et likt antall av tall er medianen middelverdien av de to midterste tallene).

For å finne medianen ordnes tallrekke i henhold til dens elementers størrelse fra lavest til høyest. Deretter fjernes reppeterende det høyeste og laveste verdiparet, inntil enten en eller to verdier blir igjen. Hvis nøyaktig en verdi er igjen, er det medianen. Hvis en står igjen med to verdier er medianen det aritmetiske gjennomsnittet av disse to.

Eksempel på bruk av metoden er tallrekken 1, 7, 3, 13, som ordnes slik: 1, 3, 7, 13. Etter at det første parret 1 og 13 er fjernet står en igjen med 3, 7. Siden det er to elementer i den gjenværende listen er medianen det aritmetisk gjennomsnittet av disse, altså (3 + 7)/2 = 5.

Generalisert gjennomsnitt[rediger | rediger kilde]

Potensgjennomsnitt[rediger | rediger kilde]

Den generalisert gjennomsnitt, potensgjennomsnitt, og Höldersnitt er en abstraksjon av kvadratisk-, aritmetisk-, geometrisk- og harmonisk gjennomsnitt. Det er definert for et sett med n positive tall xi etter

 \bar{x}(m) = \left ( \frac{1}{n}\cdot\sum_{i=1}^n{x_i^m} \right ) ^\tfrac1m

Ved å velge forskjellige verdier for parameteren m kan følgende typer av gjennomsnittsverdier finnes:

m\rightarrow\infty maksimum av x_i
m=2 kvadratisk gjennomsnitt
m=1 aritmetisk gjennomsnitt
m\rightarrow0 geometrisk gjennomsnitt
m=-1 harmonisk gjennomsnitt
m\rightarrow-\infty minimum av x_i

ƒ-gjennomsnitt[rediger | rediger kilde]

Verdiene over kan generaliseres videre til generalisert f-verdi:

 \bar{x} = f^{-1}\left({\frac{1}{n}\cdot\sum_{i=1}^n{f(x_i)}}\right)

og igjen et passende valg av en inverterbare verdier av ƒ vil gi

f(x) = x aritmetisk gjennomsnitt,
f(x) = \frac{1}{x} harmonisk gjennomsnitt,
f(x) = x^m potensgjennomsnitt,
f(x) = \ln x geometrisk gjennomsnitt.

Vektet gjennomsnitt[rediger | rediger kilde]

Vektet gjennomsnitt (eller veid gjennomsnitt) brukes hvis en ønsker å kombinere gjennomsnittsverdier fra utvalg av den samme populasjonen med ulike utvalgsstørrelser:

 \bar{x} = \frac{\sum_{i=1}^n{w_i \cdot x_i}}{\sum_{i=1}^n {w_i}}.

Vektene w_i representerer størrelsen på de ulike utvalgene. I andre anvendelser representerer de et mål for påliteligheten av innflytelse på middelverdien av de respektive verdier.

Avkortet gjennomsnitt[rediger | rediger kilde]

Noen ganger kan et sett med tall inneholde slengere, det vil si dataverdier som er mye lavere eller mye høyere enn de andre. Ofte er slengere feilaktige data forårsaket av anomaliteter eller avlesningsfeil. I dette tilfelle kan man bruke en avkortet gjennomsnitt. Det innebærer å forkaste gitt deler av dataene på toppen eller bunnen, typisk en lik mengde i hver ende, og deretter ta det aritmetiske gjennomsnitt av de resterende data. Antall verdier som fjernes angis som en prosent av totalt antall verdier.

Interkvartil-verdi[rediger | rediger kilde]

Den interkvartil-verdi er et spesifikt eksempel på en avkortet gjennomsnittsverdi. Det er rett og slett det aritmetiske gjennomsnittet etter å ha fjernet den laveste og høyeste fjerdedel av verdiene.

 \bar{x} = {2 \over n} \sum_{i=(n/4)+1}^{3n/4}{x_i}

Det forutsettes at verdiene er ordnet. Andre vektede gjennomsnittsverdier av et spesifikt utvalg kan også gjøres.

Gjennomsnitt av en funksjon[rediger | rediger kilde]

Utdypende artikkel: Gjennomsnitt av en funksjon

I noen tilfeller vil en i matematikken beregne en middelverdi av et uendelig sett av verdier (eller et såkalt ikke-tellbart sett av verdier). Dette kan skje ved beregning av gjennomsnittsverdien y_{\text{gjennomsnitt}} av en funksjon f (x). Intuitivt kan dette sees på som å beregne arealet under en del av en kurve, og deretter dele på lengden på arealet. Dette kan gjøres grovt ved å telle rutene på millimeterpapir eller mer presist etter ved hjelp av integrasjon. Integrasjonsformelen skrives slik:

y_{\text{ave}}(a,b) = \frac{ \int\limits_{a}^{b} \! f(x)\,dx\, }{ b - a }

Her må det sikres at den integrerte konvergerer. Gjennomsnittet kan være endelig selv om funksjonen i seg selv kan være uendelig ved gitte punkter.

RMS-verdien er et eksempel på et gjennomsnitt som svært ofte beregnes for en kontinuerlig funksjon. Denne verdien av en formel for en kontinuerlig funksjon (eller bølgeform) f (t) definert over intervallet T_1 \le t \le T_2 er:


f_{\mathrm{rms}} = \sqrt {{1 \over {T_2-T_1}} {\int_{T_1}^{T_2} {[f(t)]}^2\, dt}},

og RMS for en funksjon over all tid er:


f_\mathrm{rms} = \lim_{T\rightarrow \infty} \sqrt {{1 \over {T}} {\int_{0}^{T} {[f(t)]}^2\, dt}}.

RMS-verdien av hele forløpet av en periodisk funksjon er lik RMS-verdien av en periode av funksjonen. Spesielt er RMS-veriden mye brukt innefor vekselstrømsteknikken der en behandler sykliske strømmer og spenninger. Da er RMS-veriden eller effektivverdien av en vekselstrøm den samme verdien av en likestrøm som ville produsere samme varmeavgivelse i en resistiv last.

Oversikt over forskjellige gjennomsnittsverdier[rediger | rediger kilde]

Navn Ligning eller beskrivelse
Aritmetisk gjennomsnitt \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i  =  \frac{1}{n} (x_1 + \cdots + x_n)
Median Den midtre verdi som skiller de høyere halvdel fra den nedre halvdelen av datasettet
Typetall Den verdien som oppstår hyppigst i et datasett
Geometrisk gjennomsnitt \bigg(\prod_{i=1}^n x_i \bigg)^{\frac{1}{n}} = \sqrt[n]{x_1 \cdot x_2 \dotsb x_n}
Harmonisk gjennomsnitt \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}
Kvadratisk gjennomsnitt
(også kalt RMS eller Effektivverdi)
\sqrt{\frac{1}{n} \sum_{i=1}^{n} x_i^2} = \sqrt{\frac{1}{n}\left(x_1^2 + x_2^2 + \cdots + x_n^2\right)}
Kubik gjennomsnitt \sqrt[3]{\frac{1}{n} \sum_{i=1}^{n} x_i^3} = \sqrt[3]{\frac{1}{n}\left(x_1^3 + x_2^3 + \cdots + x_n^3\right)}
Generelt gjennomnsitt \sqrt[p]{\frac{1}{n} \cdot \sum_{i=1}^n x_{i}^p}
Vektet gjennomsnitt \frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}
Avkortet gjennomsnitt Det aritmetiske gjennomsnittet av dataverdier etter et visst antall eller andel av de høyeste og laveste dataverdier er blitt forkastet
Interkvartil-verdi Et spesialtilfelle av avkortede gjennomsnitt ved å bruke det interkvartile området
Midrange \frac{1}{2}\left(\max x + \min x\right)
Winsorized mean I likhet med den avkortede gjennomsnittet, men i stedet for å slette de ekstreme verdier, blir de satt lik de største og minste verdier som en tar med i beregningen

Glidende gjennomsnitt[rediger | rediger kilde]

Eksempel på bruk av glidende gjennomsnitt for en børsindeks. Den grønne kurven viser dagsverdier, mens den gule kurven er glidende gjennomsnitt av denne.

Gitt en tidsrekke med verdier som skifter verdi hurtig, for eksempel aksjemarkedets daglige priser eller årlige temperaturer. For slike måleserier kan være fremstilt som en kurve i et koordinatsystem, og det er ofte ønskelig å skape en jevnere serie.[6] Dette bidrar til å vise underliggende trender eller kanskje periodisk oppførsel. En enkel måte å gjøre dette på er å velge et nummer n og lage en ny serie ved å ta det aritmetiske gjennomsnittet av de første n verdiene i måleserien, deretter flytte frem en posisjon og så videre.

Dette er den enkleste formen for glidende gjennomsnitt. Mer kompliserte former innebære å bruke et vektet gjennomsnitt. Vektingen kan brukes til å forsterke eller undertrykke ulike periodiske oppførsler.

Innenfor digital signalbehandling er filtrering et sentralt begrep, der elektriske signaler blir «jevnet ut» etter spesielle metoder som er analogt til at glidende gjennomsnittsverdier blir beregnet.

En ytterligere generalisering er en autoregressiv glidende gjennomsnitt I dette tilfelle den gjennomsnittlige omfatter også noen av de nylig beregnede utganger. Dette gjør at prøver fra lenger tilbake i historien for å påvirke dagens produksjon.

Fordeling av utvalgsgjennomsnitt[rediger | rediger kilde]

Det aritmetiske gjennomsnittet av en populasjon betegnes μ. Utvalgets gjennomsnitt (aritmetisk gjennomsnitt av et utvalg av verdier hentet fra populasjonen) er en god estimator av populasjonens gjennomsnitt når den forventede verdien er lik populasjonens gjennomsnitt (som er en forventningsestimator). Utvalgetsgjennomsnittet er en stokastisk variabel og ikke en konstant. Grunnen er at den beregnede verdien vil variere avhengig av hvilke medlemmer av populasjonen som blir med i utvalget, følgelig vil det ha sin egen fordeling. For et tilfeldig utvalg av n observasjoner fra en normalfordelt populasjon vil utvalgsgjennomsnittet ha en fordelingen som er normalfordelt med forventning og varians gitt av:

\bar{x} \thicksim N\left\{\mu, \frac{\sigma^2}{n}\right\}.

Ettersom populasjonens varians er en ukjent parameter vil den ofte bli anslått av gjennomsnitlig sum av kvadrater. Når denne forventningsestimatoren blir brukt er fordelingen av utvalgsgjennomsnittet ikke lenger normalfordeling, men heller en Students t-fordeling med n − 1 frihetsgrader.

Se også[rediger | rediger kilde]

Referanser[rediger | rediger kilde]

  1. ^ Feller, William (1950). Introduction to Probability Theory and its Applications, Vol I. Wiley. s. 221. ISBN 0471257087. 
  2. ^ Elementary Statistics by Robert R. Johnson and Patricia J. Kuby, side 279
  3. ^ Underhill, L.G.; Bradfield d. (1998) Introstat, Juta and Company Ltd. ISBN 0-7021-3838-X side 181
  4. ^ Schaum's Outline of Theory and Problems of Probability by Seymour Lipschutz and Marc Lipson, side 141]
  5. ^ «AP Statistics Review - Density Curves and the Normal Distributions». Besøkt 16. mars 2015. 
  6. ^ Box, George E.P.; Jenkins, Gwilym M. (1976). Time Series Analysis: Forecasting and Control (revised edition utg.). Holden-Day. ISBN 0816211043. 

Eksterne lenker[rediger | rediger kilde]