Data

Fra Wikipedia, den frie encyklopedi
Hopp til: navigasjon, søk

Data er det materielle (eller fysiske) grunnlaget for å tilføre mennesker informasjon. Data er dermed det materielle grunnlaget for å overføre informasjon og kunnskap mellom mennesker ved kommunikasjon. Data kan registreres, lagres, behandles og flyttes av menneskeskapte innretninger som kalles datasystemer.

Ordet «data»[rediger | rediger kilde]

«Data» er flertallsformen av «datum», som opprinnelig betød gave, presang, eller det som er gittlatin (av verbet dare: «å gi», tu dō: «jeg gir»).

Den moderne bruken av ordet kan føres tilbake til filosofen Euclids bok Dedomena (gammelgresk: Δεδομένα)[1], skrevet ca 300 år f kr. Her brukte Euclid ordet «Dedomena» om informasjonene som er gitt i løsningen av geometriske problemer. I latinsk oversettelse ble boken hetende Data.

Ordet «data» brukes i dag oftest som et massesubstantiv som ikke bøyes i tall, på samme måte som «luft», «trøbbel» og «bestikk». I noen sammenhenger kan det likevel være grunn til å benytte entallsformen datum.

Definisjon av data[rediger | rediger kilde]

For at noe skal være data må det

  1. ha en materiell basis som kan variere og
  2. variasjonene må stå for (avspeile, representere) noe annet.

Basis og variasjon[rediger | rediger kilde]

Data må ha en materiell (eller fysisk) basis som kan variere («lack of uniformity»[2]). Basis kan for eksempel være et papir og variasjonen trykksverte, eller basis kan være luft og variasjonen lydbølger. Filosofen Luciano Floridi definerer variasjon i et datum slik:

  • x er forskjellig fra y, der x og y er to variabler vi ikke tolker og der også relasjonen «er forskjellige fra» og domenet er åpent for tolkning.[3]

Representasjon[rediger | rediger kilde]

Ikke all materiell variasjon («lack of uniformity») er data. For å være data må variasjonen også stå for (eller avspeile, representere) noe annet. Naturlig forekommende lydstøy er derfor ikke data. Men lydbølger i luften er data når de avspeiler en annen persons handling med å lage språklyder (som igjen formodentlig avspeiler personens tanker).

Eksempler på data[rediger | rediger kilde]

Noen eksempler på data er:

Andre definisjoner av data[rediger | rediger kilde]

Av og til beskrives data som «råinformasjon», mens «informasjon» forklares som «velorganiserte» eller «sammensatte» data. I fagområdene som studerer informasjon forsøker man imidlertid å definere de to begrepene data og informasjon mer presist.

Typer av data[rediger | rediger kilde]

Det finnes en rekke måter å kategorisere data på. De er nyttige for å avklare databegrepet videre:

Primære og sekundære data[rediger | rediger kilde]

  • Primære data er tilstedeværelsen av en variasjon forskjell, f eks trykksverte på et avisark som former et skrifttegn, elektrisk spenning i en kobberkabel som angir biten "1", den lysende oljevarsellampen i en bil eller en årring i en trestamme. Se også Floridis definisjon lenger oppe på siden.[4]
  • Sekundære data er fraværet av en mulig variasjon eller forskjell, f eks at samtalen vår ikke blir besvart når vi ringer en venn, at en lampe ikke begynner å lyse når vi slår den på, at skjermen på en mobiltelefon ikke gir respons når vi trykker på en tast eller at hunden i en kriminalroman ikke bjeffer på et bestemt punkt i fortellingen.[4]

Siden Floridis definisjon av variasjon kun dekket primærdata, kan vi definere sekundærdata slik:

  • x er ikke forskjellig fra y i en situasjon hvor vi forventer at x og y skal være forskjellige, der x og y er to variabler vi ikke tolker og der også relasjonen "er forskjellige fra" og domenet er åpent for tolkning.

Eksemplene over var alle sammen eksempler på primærdata (materiell variasjon). Relaterte eksempler på sekundærdata (fravær av mulig variasjon) er:

  • et mellomrom mellom skrifttegnene i en bok
  • fravær av lydbølger før eller etter at noen har snakket
  • at det refleksive materialet på undersiden av en DVD er jevnt
  • mangel på elektrisk spenning i en mikroprosessor
  • fravær av lysglimt i en fiberoptisk kabel
  • en flaggstand hvor flagget ikke er heist
  • et trafikklys som ikke lyser
  • en hund som ikke bjeffer når noen går forbi

Data som variasjon, signaler og symboler[rediger | rediger kilde]

I følge Floridi kan vi skille mellom data på tre nivåer:[4]

  • Data som variasjon er rene materielle variasjoner i basis. De eksisterer uavhengig av vår persepsjon og kognisjon, men må være der for at vi skal kunne oppfatte data. Floridi kaller dem villdata eller dedomena.
  • Signaler er en oppfattet forskjell mellom to tilstander eller verdier, for eksempel en lav eller høy spenning i et batteri eller en varsellampe som lyser eller ikke lyser.
  • Symboler er en oppfattet forskjell mellom tilstander som svarer til ulike verdier i et symbolsk system, f eks et alfabet.

Klassiske data og kvantedata[rediger | rediger kilde]

  • Vanlige eller klassiske data er data vi omgås i hverdagen, f eks i bøker og datamaskiner. De er grunnleggende basert på klassiske fysiske prinsipper og kan derfor bare variere på én måte (ha én verdi, være i én tilstand) på samme sted til samme tid.
  • Kvantedata har i stedet en materiell basis som følger kvantefysiske eller kvantemekaniske prinsipper. Kvantedata kan f eks være elektroner (basis) med spinn (variasjon) eller fotoner (basis) med polarisering (variasjon). I motsetning til klassiske data, kan kvantedata ha flere verdier / være i flere tilstander på samme sted til samme tid (kvantesuperposisjon), hver av dem med en bestemt sannsynlighet. Når kvantedata avleses eller observeres kollapser de til klassiske data med én enkelt verdi (i henhold til sannsynlighetsfordelingen). Forskning på kvantedatamaskiner forsøker å utnytte kvanteegenskaper til å lage mer effektive datamaskiner: siden kvantedata kan ha mange verdier på en gang, vil en kvantedatamaskin kunne behandle alle de mulige dataverdiene samtidig, selv om det bare vil være mulig å avlese én vilkårlig resultatverdi for hver beregning (pga kollaps).

Diskrete og analoge data[rediger | rediger kilde]

  • Diskrete data vil si data som varierer mellom faste trinn, for eksempel mellom et begrenset utvalg signaler eller symboler, som tall og bokstaver. Diskrete data kan for eksempel representere type, antall og rekkefølge. Data i de sentrale delene av moderne dataystemer er for det meste diskrete.[5]
  • Analoge data vil si data som varierer langs en trinnløs (eller kontinuerlig) skala. Analoge data kan for eksempel representere temperatur, høyde, vekt, tid og konsentrasjon av stoff. Analoge data var den vanlige datatypen i telefon, radio og TV inntil disse teknologiene gradvis ble digitalisert fra 1980-tallet og frem til i dag.[5]

Numeriske og ikke-numeriske data[rediger | rediger kilde]

  • Numeriske data består av tall. De kalles også kvantitative data. Vanlige skrifttegn kan kodes som tall ved hjelp av standarder som Unicode eller dets forløpere ISO 8859-1 og ASCII.
  • Ikke-numeriske data angir andre egenskaper enn antall, størrelse eller mengde. De kalles også kvalitative eller kategoriske data.

Binærdata og digitale data[rediger | rediger kilde]

  • Binærdata er diskrete og numeriske data som er representert i det binære tallsystem, dvs i form av biter eller av tallene "0" og "1". Data i sentralenheten i moderne dataystemer er nesten alltid binære.
  • Digitale data er i praksis et annet ord for binære data. Når vi snakker om "digitale data" tar vi det vanligvis for gitt at de også er binære, selv om digitale data strengt tatt kan representeres i andre tallsystem enn det binære.

Semantiske data og miljødata[rediger | rediger kilde]

  • Miljødata er data som ikke skapt av mennesker i den hensikt å overføre informasjon, men som likevel tilsvarer (eller står for, representerer) noe annet enn seg selv.[4] Eksempler er igjen årringene i et tre (som står for treets alder), varsellampen i bilen (som står for at bilen snart er tom for olje) eller de sterke lysglimtene fra en fjern stjerne (som står for at stjernen er blitt supernova).
  • Semantiske data er skapt av mennesker som med hensikt ønsker å overføre informasjon (kommunisere) til seg selv eller til andre mennesker.[4] Vi sier at semantiske data er intensjonelle fordi de er laget med en hensikt og at de representerer et semantisk innhold fordi de overfører informasjon mellom mennesker. Eksempler er skrifttegnene som utgjør en avissartikkel og de digitale bitene som utgjør et program, regneark eller database.

Miljødata som observeres av mennesker eller måleinstrumenter kan så representeres som semantiske data, som når en skogforvalter noterer ned alderen på et nyfelt tre etter å ha telt antallet årringer eller når en astronom observerer og registrerer en supernova. Slike semantiske data har observasjonen av bestemte miljødata i en gitt situasjon som sitt semantiske innhold.

Det er vanlig å oppfatte kun semantiske data som ordentlige data, mens det vi kaller miljødata betraktes som ikke-data - en form for materielle tilstander eller hendelser.

Naturlige og kunstige miljødata[rediger | rediger kilde]

Vi kan skille mellom to typer miljødata:[4]

  • Naturlige miljødata kommer fra naturen, slik som årringene i treet. Her har det ikke vært noen menneskelige intensjoner (hensikter) inne i bildet.
  • Kunstige miljødata kommer fra menneskeskapte innretninger (eller mekanismer), slik som en varsellampen i en bil. Her er innretningen skapt av mennesker med hensikt, men dataene er i sin tur laget av innretningen uten menneskelig kontroll.

Kunstige miljødata grenser dermed mot semantiske data som er laget ved hjelp av innretninger, som et tekstbehandlingsprogram. Semantiske data skapes imidlertid mens innretningen er under kontroll av et menneske, mens kunstige miljødata skapes av innretningen mens den er overlatt til seg selv. Vi kommer inn i en gråsone når semantiske data i betydelig grad blir viderebehandlet av en datainnretning etter at de først er skapt av et menneske.

Av og til kan data som opprinnelig var semantiske siden bli brukt som miljødata, for eksempel når en stor tekstsamling blir brukt til analyse av ordforekomster eller når Google analyserer innholdet på internettet for å finne trender i ordhyppighet osv.

Metadata[rediger | rediger kilde]

  • Metadata er data om andre data.[4][6] For eksempel inneholder mange vevsider, i tillegg til lesbare skrifttegn, også skjulte data om når vevsiden sist ble oppdatert osv.
  • Semantiske metadata er data om hva andre data handler om. Semantiske data spiller en viktig rolle på den semantiske veven, som forsøker å utvide den nåværene menneskelesbare verdensveven til også å være maskinlesbar.

Utledede data[rediger | rediger kilde]

  • Utledede data er data som følger av andre data.[4] For eksempel kan vi bruke data om at en mobiltelefon har vært i kontakt med bestemte basestasjoner på et tidspunkt - kanskje i kombinasjon med data om geografiske forhold og værforhold - til å utlede data om at mobiltelefonen har befunnet seg i et bestemt geografisk område på dette tidspunktet.

Åpne og lukkede data[rediger | rediger kilde]

  • Åpne data er data som er gjort fritt tilgjengelige slik at alle kan bruke og videreformidle dem. Åpne data må være både juridisk og teknisk åpne: de kan f eks ikke være begrenset av opphavsrett eller patenter og de kan ikke være begrenset av digital rettighetsadministrasjon (DRA).
  • Lukkede data er data som er ikke er fritt tilgjengelige av juridiske og/eller tekniske årsaker. Juridisk beskyttelse kan skje gjennom opphavsrett, patent alle andre rettslige mekanismer, mens teknisk beskyttelse av data kan skje gjennom digital rettighetsadministrasjon (DRA). Graden av lukkethet kan variere. Noen data, for eksempel virksomhetsinterne data, kan holdes utilgjengelige for almennheten; andre data kan gjøres alment tilgjengelige, men med begrensninger på bruk og videreformidling.

Stordata[rediger | rediger kilde]

  • Stordata (engelsk: «big data») brukes om datasett som er så store eller komplekse at det er vanskelig å analysere dem med vanlige dataprosesseringsverktøy, fordi de skaper nye utfordringer hva gjelder innsamling, lagring, søking, deling, utveksling, analyse og visualisering. Noen av kildene til stordata er logging av internett- og teletrafikk, digitalkamera- og satelittbilder, detaljert overvåkning av hendelser i offentlige og private foretak, kommersiell og vitenskapelig tungregning (for eksempel DNA-sekvensering) og andre nye teknologier som lagrer store datastrømmer i sanntid.[7]

Andre betydninger[rediger | rediger kilde]

Data kan også bety:

Referanser[rediger | rediger kilde]

  1. ^ Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 21. ISBN 978-0-19-955137-8. 
  2. ^ Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 21. ISBN 978-0-19-955137-8. 
  3. ^ Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. ISBN 978-0-19-955137-8. 
  4. ^ a b c d e f g h Floridi, Luciano (2010). Information – A very Short Introduction. Oxford: Oxford University Press. s. 30–36. ISBN 978-0-19-955137-8. 
  5. ^ a b Knut Vedeld og Rolf Venheim. «Data». Besøkt 18. juni 2013. 
  6. ^ Snyder, Lawrence (2015). Fluency with Information Technology - Skills, Concepts & Capabilities (6 utg.). Harlow, England: Pearson. s. 214. ISBN 1-292-06124-3. 
  7. ^ Kitchin, Rob (2014). The data revolution: Big data, open data, data infrastructures and their consequences. Sage.