Datakvalitet

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Datakvalitet er i de senere årene blitt mer og mer viktig innen IT systemer. Ordet er ofte brukt i betydningen informasjonskvalitet. Data og informasjon er ikke det samme. Data er ikke i seg selv informasjon, men en kilde av verdier som kan settes sammen i en riktig kontekst til å danne informasjon.

Definisjon[rediger | rediger kilde]

God datakvalitet innebærer at dataene har evnen til å støtte de informasjonsformål de brukes til. Dette innebærer at de må tilfredsstille krav til:

  • Korrekthet (accuracy)
  • Kompletthet (completeness)
  • Tidsriktighet (timeliness)
  • konsistens (consistency)

Tilsvarende engelske begreper i parentes.

Utvidet definisjon[rediger | rediger kilde]

De 4 kriteriene for god datakvalitet er etterhvert godt innarbeidet innen fagfeltet dataintegrasjon. Dette er en grov, generell fremstilling som, med få unntak, gjelder i de fleste sammenhenger. Denne kan tilføyes flere punkter og presiseringer for eksempel:

  • Anvendelighet (versatility)
  • Formatriktighet
  • Presisjon
  • Struktur

Informasjonskvalitet vs. Datakvalitet[rediger | rediger kilde]

God informasjonskvalitet deler flere av kriteriene for god datakvalitet, men har gjerne i tillegg krav om relevans (for en sak), objektivitet og andre mer raffinerte krav. Informasjon er gjerne spesielt rettet mot spesifikke formål, mens data skal kunne tjene flere forskjellige formål.

Aktualitet[rediger | rediger kilde]

Datakvalitet har blitt spesielt aktuelt etter at man begynte med distribuerte IT-løsninger, eller klient-tjener løsninger i organisasjoner. Disse systemene er såkalt heterogene kilder til informasjon for organisasjonen. Dvs at de lagrer den samme informasjonen på forskjellige måter, med forskjellig detaljeringsgrad og med vekt på forskjellige sider ved dataene. Dette skaper behov for bearbeiding av ulike sider ved datakvaliteten for å kunne kombinere og konsolidere informasjon fra disse kildene. Det finnes, i tillegg til egne dataintegrasjonsverktøy, som opererer på lavnivå, også større administrasjonssystemer for automatisk datakonsolidering. De to hovedgruppene av slike systemer er Golden Copy systemer og MDM systemer.

Verktøy[rediger | rediger kilde]

Det finnes ulike verktøy på markedet for å håndtere de forskjellige sidene ved datakvalitet. På lavt nivå finnes det verktøy for datastandardisering av mer eller mindre fritekst informasjon, deduplisering av datasett og berikelse av datarader fra ekstene kilder. For de to sistnevnte er det vanlig å bruke såkalt fuzzylogikk, eller fuzzymatching for å kunne sammenligne data.

På høyt nivå finnes det verktøy for å profilere og modellere data, slik at de lagres på en måte som ivaretar konsistens og dataintegritet. Det finnes også verktøy for å overvåke dataintegritet, eller såkalt data auditing.