Datasett

Et datasett eller en datamengde er en samling av data. Innen tabulare data vil et datasett korrespondere til en eller flere databasetabeller, hvor hver kolonne i en tabell representerer en variabel og hver rad representerer en oppføring (record). Datasettet lister opp verdier for hver av variablene, som for eksempel høyde og masse til et objekt, og gjør dette for hvert av medlemmene i datasettet. Datasett kan også bestå av en samling av dokumenter eller filer.^[2]

Innen åpne data er et datasett en enhet for å måle informasjonen som er utgitt i et offentlig åpent datalager. Den europeiske åpne dataportalen aggregerer mer enn en halv million datasett.^[3] Enkelte andre problemstillinger (som sanntids datakilder,^[4] ikke-relasjonelle datasett, med mer) gjør det vanskelig å nå konsensus om dette.^[4]

Egenskaper

Det finnes flere karakteristikker som kan definere strukturen og egenskapene til et datasett, inkludert antall og typer attributter eller variabler, eller ulike statistiske fordelinger og -mål som gjelder for dem, eksempelvis standardavvik og kurtose.^[5]

Verdiene kan være tall (typisk reelle tall eller heltall) som eksempelvis kan representere en persons høyde i centimeter, men kan også være nominelle data (altså ikke bestående av numeriske verdier) som for eksempel kan representere en persons etnisitet. Mer generelt kan verdiene være av hvilken som helst type så lenge det kan beskrives som et målenivå. Innenfor hver variabel er verdiene normalt av samme type, men det kan også være manglende verdier som bør indikeres på en eller annen måte.

Innen statistikk kommer datasett vanligvis fra faktiske observasjoner oppnådd ved prøvetaking av en statistisk populasjon, og hver rad korresponderer med observasjonene av ett element i den gitte populasjonen. Datasett kan også genereres av algoritmer for å teste visse typer programvare. Enkelte moderne programvarer for statistisk analyse som SPSS presenterer fortsatt dataene sine på den klassiske måten med datasett. Dersom det mangler data eller dataene fremstår mistenkelige kan imputasjon brukes for å fullføre datasettet.^[6]

Klassiske datasett

Det finnes flere klassiske datasett som er mye brukt i statistisk litteratur:

Iris flower data set, et multivariat datasett av irisblomster introdusert av Ronald Fisher i 1936.^[1]
MNIST database, bilder av håndskrevne sifre som har blitt mye brukt for å teste algoritmer for klassifisering, klynging og bildeprosessering.
Categorical data analysis, datasett brukt i boken An Introduction to Categorical Data Analysis.
Robust statistics, et datasett brukt i Robust Regression and Outlier Detection (Rousseeuw og Leroy, 1986). Publisert på internett av Universität zu Köln.
Time series, dataene brukt i Chris Chatfield sin bok The Analysis of Time Series. Publisert på internett av StatLib.
Extreme values, dataene brukt i Stuart Coles sin bok An Introduction to the Statistical Modeling of Extreme Values.
Bayesian Data Analysis, dataene brukt i boken med samme navn har blitt publisert på internett av Andrew Gelman, en av bokens forfattere.
The Bupa liver data, brukt i mange forskningsartikler om maskinlæring (datautvinning).
Anscombes kvartett, lite datasett som illustrerer viktigheten av å få oversikt over dataene for å unngå statistiske feil.

Se også

Referanser

^ ^a ^b Fisher, R.A. (1936). «The Use of Multiple Measurements in Taxonomic Problems» (PDF). Arkivert fra originalen (PDF) 12. april 2011. Besøkt 11. april 2022.
^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science. 7: 1–5. Arkivert fra originalen 23. november 2019. Besøkt 11. april 2022.
^ «European open data portal». European Commission. Besøkt 23. september 2016.
^ ^a ^b «The tau of data: A new metric to assess the timeliness of data in catalogues» (PDF). 2014. Arkivert fra originalen (PDF) 17. oktober 2016. Besøkt 11. april 2022.
^ Jan M. Żytkow, Jan Rauch. Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1.
^ United Nations Statistical Commission; United Nations Economic Commission for Europe. Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. s. 20. ISBN 978-9211169522. Besøkt 19. juli 2015.

[fisher36-1] Fisher, R.A. (1936). «The Use of Multiple Measurements in Taxonomic Problems» (PDF). Arkivert fra originalen (PDF) 12. april 2011. Besøkt 11. april 2022.

[Editorial-2] Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science. 7: 1–5. Arkivert fra originalen 23. november 2019. Besøkt 11. april 2022.

[3] «European open data portal». European Commission. Besøkt 23. september 2016.

[:0-4] «The tau of data: A new metric to assess the timeliness of data in catalogues» (PDF). 2014. Arkivert fra originalen (PDF) 17. oktober 2016. Besøkt 11. april 2022.

[5] Jan M. Żytkow, Jan Rauch. Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1.

[sde-6] United Nations Statistical Commission; United Nations Economic Commission for Europe. Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. United Nations Publications. s. 20. ISBN 978-9211169522. Besøkt 19. juli 2015.

[1]

[2]

[3]

[4]

[5]

[6]