Stordata

Fra Wikipedia, den frie encyklopedi
Datasenter kan lagre gigantiske datasett

Stordata [1] (fra engelsk «big data») er datasett som er så store eller komplekse at de er vanskelige å analysere med vanlige dataprosesseringsverktøy.[2]

Stordata, eller «big data» på engelsk, er moteord som ofte benyttes i markedsføring av selskaper som har utviklet teknologi som er i stand til å behandle slike datasett. Ofte brukes begrepet noe feilaktig som et synonym for enhver form for dataanalyse, uavhengig av om IT-folk vil regne datasettene som «store».

Hvor store er stordata?[rediger | rediger kilde]

Datateknologien blir stadig kraftigere og de lagrede datamengdene større. Derfor varierer det over tid hva som regnes som stordata. Tidligere var gigabyte (tusen millioner byte: 1 GB = 1000 MB) og terabyte (en milliard byte: 1 TB = 1000 GB = 1000000 MB) å regne for stordata. I dag snakker man oftere om peta- og exabyte (1 petabyte = 1000 terabyte, 1 exabyte = 1000 petabyte).

Siden det er vanskelig å definere stordata som en størrelse, er det blitt vanligere å avgrense stordata gjennom egenskapene dataene har, f.eks. at stordata er data som er mest mulig fullstendige, detaljerte og identifiserende[2] (se lenger nede i artikkelen om Egenskaper ved stordata).

Grunnlag for stordata[rediger | rediger kilde]

Det er minst fem teknologiske utviklinger som sammen har lagt grunnlaget for stordatabehandling:[2]

  • Prosesseringskraft har øket enormt de siste tiårene samtidig som prisen har gått ned. Moores lov (eller rettere Moores observasjon) sier at antallet transistorer som det er plass til på en integrert krets dobler seg hver 18-24 måned. En vanlig mobiltelefon har i dag større regnekraft enn en superdatamaskin fra 1970-tallet.
  • Lagringskapasitet har også øket enormt de siste tiårene. Datalagring er blitt langt billigere, raskere og mer pålitelig. I tillegg kommer nye teknologier som lagring på grid i skyen og nye NOSQL-databaser.
  • Kommunikasjonskapasitet har også øket enormt og blitt billigere, ikke minst på grunn av fiberoptiske kabler. De kraftigste kablene i dag kan overføre på ett sekund all datatrafikk som ble overført på internettet i løpet av en hel måned på slutten av 1990-tallet.
  • Allestedsnærværende og gjennomtrengende databehandling vil si at vi i stadig større grad omgis av datainnsamlende og -behandlende apparater, både dem vi bærer med oss (de allestedsnærværende, som mobiltelefoner og smartklokker) og dem som bygges inn i omgivelsene våre (de gjennomtrengende, som smarte hus og byer). I tillegg til at vi omgis av stadig flere datainnsamlende og -behandlende apparater, blir hver av dem stadig mer digitale, nettverkstilknyttede og smarte, og dermed mer egnet for stordatafangst.
  • Standardidentifikatorer gjør det mulig å identifisere fenomener som personer, gjenstander, informasjon og lokasjoner unikt. Eksempler på slike identifikatorer er: personnummer, førerkortnummer, passnummer, kontonavn osv for personer; produkt- og RFID-koder for kommersielle produkter; kjennemerke og autopass-ID for biler; MAC-adresser for datautstyr; IMEI-nummer for mobiltelefoner; IMSI-nummer for SIM-kort; ISBN-, ISSN- og DOI-numre for ulike typer publikasjoner; URI/IRI-er for vevressurser; gateadresser, postnumre og geokoordinater for geografiske lokasjoner. Det finnes mange flere. Identifikatorene gjør det mulig å knytte sammen data som kommer fra ulike kilder, men som handler om samme fenomen, f.eks. om samme person, eller som handler om relatert fenomener, f.eks. at en person er eier av en gjenstand og holder til på et bestemt sted.

Kilder til stordata[rediger | rediger kilde]

Hovedkildene til stordata er direkte og automatisk datainnsamling og frivillig dataproduksjon.[2] I tillegg kommer åpne data.

Direkte datainnsamling[rediger | rediger kilde]

Direkte datainnsamling er innsamling av data gjennom aktiviteter der innsamling av data er blant hovedmålene. Direkte datainnsamling kan være rettet mot gjenstander, steder eller, særlig, mot personer:[2]

  • Offentlig registrering skjer ved folketellinger og ved registrering av f eks fødsler, dødsfall og helseforhold.
  • Kunde- eller klientregistrering skjer ved mange typer henvendelser til kommersielle, ideelle og offentlige virksomheter.
  • Nettovervåkning er automatisert innsamling av logging av internett- og teletrafikk. Viktige formål er å forebygge og oppdage nettkriminalitet og terrorhandlinger.
  • Områdeovervåkning er automatisert innsamling av bilde- og andredata fra et geografisk avgrenset område, f eks ved hjelp av digitale overvåkningskamera eller fra satellitt. Mens slikt utstyr tidligere var analogt og isolert er det i dag stadig oftere digitalt, koblet i nettverk og i økende grad smart, noe som gjør det bedre egnet til stordatainnsamling, f eks når overvåkningskameraer i økende grad blir i stand til å utføre ansikts- og irisgjenkjenning i sanntid. Ulike værovervåkningssystemer hører også til denne gruppen.

Automatisk datainnsamling[rediger | rediger kilde]

Automatisk datainnsamling er (mer eller mindre nødvendig) datainnsamling som en sideeffekt av andre typer aktiviteter:[2]

  • Teknologibruk, f eks av smarttelefoner, digital-TV bokser og smart-TV-er logges rutinemessig, både lokalt i ustyret og av og til på avstand, f eks hos utstyrsprodusenten eller i skyen. Slike objekter — som består av et vanlig fysisk objekt sammen med en løpende oppdatert logg over objektets historie — kalles på engelsk et «logject» (på norsk f eks «loggjekt»).
  • Nettransaksjoner logges rutinemessig. F eks logger mange nettbutikker alle detaljer om hvordan brukerne navigerer gjennom butikken, såkalte klikkstrømmer.
  • Medisinsk utstyr logger rutinemessig pasient- og andre data som siden kan benyttes til administrasjons- og forskningsformål.

Frivillig dataproduksjon[rediger | rediger kilde]

Frivillig dataproduksjon vil si at brukerne selv bidrar til store datasett:[2]

  • Sosiale medier er IKT-plattformer for brukergenerering og -deling av innhold. Mikrobloggetjenester som Twitter er en kilde til slike stordata.
  • Undervåkning (fra engelsk «sousveillance», av fransk: «sous-», under) er når brukerne selv aktivt deler persondata, samlet inn f eks av skrittellere og andre typer bevegelsesmålere.
  • Nettdugnad (engelsk: «crowdsourcing») er bruk av IKT-verktøy til massesamarbeid for å produsere nye produkter (Wikipedia) eller for å evaluere eksisterende produkter i stor skala (TripAdvisor). Slike dugnadsresultater kan være datasett som i seg selv er store (f eks Wikipedia og Wikidata) eller som kan inngå i stordatasett ved kombinering.

Åpne data[rediger | rediger kilde]

Åpne data, som forvaltnings- og forskningsdata, er data som er gjort alment tilgjengelige av offentlige, ideelle og, av og til, kommersielle organisasjoner. Enkelte åpne datasett er stordatasett i seg selv, f eks forskningsdata fra internasjonale forskningsfasiliteter som CERN eller fra maskiner for DNA-sekvensering. Andre åpne datasett kan inngå i stordata i kombinasjon med andre datasett.

Egenskaper ved stordata[rediger | rediger kilde]

Datastørrelse[rediger | rediger kilde]

Hva som regnes som stordata har gjennom årene utviklet seg kraftig. Det har gått fra at man anså gigabyte (1000 megabyte) med data som store mengder data til at man i dag snakker om peta- (1000 terabyte) og exabyte (1000 petabyte).[2]

De tre v-ene[rediger | rediger kilde]

I stedet for å definere stordata kun ut fra størrelse målt i byter, kan man identifisere typiske egenskaper ved stordata. De tre v-ene regnes som sentrale:[2]

  • Volum vil som sagt si at stordata har et volum som setter nye og strenge krav til både behandling, lagring og overføring.
  • Velositet (eller hastighet, fra engelsk «velocity») vil si at stordata gjerne registreres i sanntid og derfor både må analyseres og vokser raskt. Enkelte stordatastrømmer blir ikke lagret i sin helhet, men blir analysert i sanntid, slik at kun resultatene lagres.
  • Variasjon (engelsk «variability») vil si at stordata gjerne er satt sammen fra mange ulike kilder. De er derfor en blanding av strukturerte, semistrukturerte og ustrukturerte data.

Tidligere datateknologier var i stand til å støtte to av disse tre egenskapene samtidig. Det er nytt med stordata at samme løsninger støtter alle tre.[2]

De fem v-ene[rediger | rediger kilde]

På engelsk er det vanlig å legge enda to v-er til de tre første:[3]

  • Troverdighet (på engelsk «veracity» eller «trustworthiness») vil si at siden stordata gjerne er satt sammen fra mange ulike kilder, er det viktig å ha oversikt over hvor pålitelige, nøyaktige og korrekte de ulike delene av stordatasettet er.
  • Verdi betyr at stordata må ha personlig, kommersiell, ideell eller samfunnsmessig verdi.

Flere egenskaper ved stordata[rediger | rediger kilde]

Andre viktige egenskaper ved stordata er:[2]

  • Fullstendighet (engelsk: «exhaustiveness») vil si at stordatasett gjerne inneholder data om alle fenomenene det handler om, mens tradisjonelle (små-)datasett i stedet beskriver (mest mulig representative) utvalg av aktuelle fenomener. Der et vanlig datasett f eks kan representere et utvalg av typiske husholdninger i Norge, vil et tilsvarende stordatasett i stedet inneholde data om alle norske husholdninger.
  • Finkornethet (engelsk: «fine-grained resolution») vil si at stordatasett gjerne inneholder så detaljerte data som mulig. Der et tradisjonelt (små-)datasett for en vevbutikk kan beskrive en nettbruker ved besøkshyppighet og besøkslengde, vil et tilsvarende stordatasett beskrive hvert eneste tastetrykk og museklikk brukeren har gjort i hvert enkelt av sine besøk i nettbutikken.
  • Indeksikalitet vil si at stordatasett forsøker å bruke standardidentifikatorer (se over) på alle fenomenene som er beskrevet. Identifikatorene gjør det mulig å knytte sammen data som kommer fra ulike kilder, men som handler om samme fenomen, f eks om samme person.
  • Relasjonalitet vil si at data om ulike fenomener i et stordatasett er knyttet sammen ved hjelp av disse identifikatorene, f eks at en person kjenner en annen person og er eier av en fysisk gjenstand.
  • Utvidbarhet (engelsk: «extensibility») betyr at det må være mulig og enkelt å legge nye typer data — kanskje fra andre kilder — til eksisterende stordatasett.
  • Skalerbarhet betyr at teknologier for stordata må tåle rask vekst i datamengde og behandlingsbehov.

Behandling av stordata[rediger | rediger kilde]

Når datamengdene blir store, medfører det utfordringer i innsamling, lagring, analyse, søking, utveksling og visualisering av data. En vanlig teknikk er å behandle stordata er å dele opp og distribuere datasett slik at de kan behandles parallelt. Maskinlæringsteknikker og kunstig intelligens er også sentrale. Dessuten benyttes informasjonsvisualisering til å få oversikt over og analysere store datasett.

Bruk av stordata[rediger | rediger kilde]

Utviklingen mot større datasett er basert på evnen til å trekke ekstra informasjon fra analyser av et enkelt sett med store mengder sammenhengende data, sammenlignet med separate, mindre sett med samme totale mengden data som gjør det mulig for tilkoblinger slik at man kan finne forretningstrender, fastslå kvaliteten på forskning, forebygge sykdommer, sammenligne juridiske siteringer, bekjempe kriminalitet og holde et øye med trafikkforhold i sanntid.

Se også[rediger | rediger kilde]

Referanser[rediger | rediger kilde]

  1. ^ Kartlegging og vurdering av stordata i offentlig sektor (PDF) (Rapport til Kommunal- og moderniseringsdepartementet). Utarbeidet av Vivento AS. 7. mars 2016. Arkivert fra originalen (PDF) 8. mars 2016. 
  2. ^ a b c d e f g h i j k Kitchin, Rob (2014). The data revolution: Big data, open data, data infrastructures and their consequences. Sage. 
  3. ^ Berhard Marr (6. mars 2014). «Big Data: The 5 Vs Everyone Must Know». LinkedIn. Besøkt 28. august 2016.