Hopp til innhold

Boksplott

Fra Wikipedia, den frie encyklopedi

Et boksplott (engelsk: boxplot, box plot eller box-and-whiskers plot) er en grafisk fremstilling av et datasett som gir en visuell fremstilling av dets distribusjon. Grafen benyttes i deskriptiv statistikk, og fremstilles som en boks som avgrenses av henholdsvis nedre del av første kvartil og øvre del av tredje kvartil. Denne boksen inneholder således halvparten av alle verdiene i datasettet. Medianen fremkommer som en linje som deler boksen i to. Skjevheter i distribusjonen demonstreres av at medianen ikke deler boksen i to like store deler.

I den vanligste versjonen av boksplott går det en linje (engelsk: whiskers) ut av boksen fra hver side. Det varierer hva disse linjene demonstrerer. I en variant går linjene ut til minimums- og maksimumsverdien i datasettet. I en annen går linjene ut til den største og minste verdien som ligger innenfor 1.5 * kvartilbredden (engelsk: Interquartile range eller IQR), der kvartilbredden tilsvarer avstanden mellom første og tredje kvartil. I denne varianten regnes ofte alle verdier utenfor denne linjen som ekstremverdier (engelsk: outliers).

Delene i et boksplott

Historie[rediger | rediger kilde]

Boksplott bestående bare av boksen uten linjene ut på hver side ble først introdusert av Mary Eleanor Spear i hennes bok "Charting Statistics" i 1952.[1] Versjonen med "whiskers" ble først introdusert av John Tukey i 1970 og senere inkludert i hans bok "Exploratory Data Analysis" i 1977.[2]

Fordeler[rediger | rediger kilde]

Boksplott er nyttige for å identifisere ekstremverdier/outliers og for å forstå distribusjonen og spredningen av dataene i datasettet. De er spesielt nyttige når du sammenligner flere datasett side om side.

Comparing boxplots

Ulemper[rediger | rediger kilde]

I motsetning til ved histogram kan man ikke ut fra et boksplott se formen på distribusjonen. En kan for eksempel ikke se om en distribusjon er multimodal, det vil si at den har mer enn en "topp".

Boxplots do not show multimodality

Referanser[rediger | rediger kilde]

  1. ^ Spear, Mary Eleanor (1952). _Charting Statistics_. McGraw Hill. s. 166.
  2. ^ Kilde: Wickham, Hadley; Stryjewski, Lisa. ["40 years of boxplots"](https://vita.had.co.nz/papers/boxplots.pdf) (PDF). Aksessert 5. september, 2023.)