Datastandardisering

Fra Wikipedia, den frie encyklopedi
Hopp til navigering Hopp til søk

Datastandardisering er en disiplin innen området datakvalitet, hvis formål er å bringe representasjonsformen av dataene over på et standardisert format. Dette slik at dataene lettere kan sammenstilles med andre data av samme type.

Motivasjon[rediger | rediger kilde]

Datastandardisering har i stor oppstått som en følge av vanskelighetene med å sammenstille informasjon fra ulike distribuerte IT systemer. Disse systemene lagrer ofte de samme dataene på forskjellig format.

Anvendelse[rediger | rediger kilde]

Datastandardisering har stor nytteverdi innen dataintegrasjon generelt, hvor mange såkalte heterogene kilder blir sammenstilt.

Ved deduplisering av lister med data, kan det være hensiktsmessig å preprosessere input data, slik at de enkelte forekomstene lagres på en standardisert form, og dermed lar seg sammenligne.

Verktøy[rediger | rediger kilde]

I de senere årene har det blitt utviklet egne verktøy for datastandardisering og integrert funksjonalitet i verktøy for dataintegrasjon (ETL). Disse benytter ofte en blanding av "fuzzy logic" og regelbaserte transformasjoner. Noen verktøy bruker regulære uttrykk, mens andre bruker egne språk.

Eksempler på standardisering[rediger | rediger kilde]

Enkel felt-standardisering[rediger | rediger kilde]

Dato
Kilde Standardisert
5/7-2009 2009-07-05
5 juli 09 2009-07-05
5. juli 2009 2009-07-05
Tekst
Input Standardisert
CD pl CD ROM PLATE
CD ROM CD ROM PLATE

Splitte dataelementer[rediger | rediger kilde]

Ofte er mange forskjellige data lagret i samme feltet. Da kan datastandardisering brukes til å splitte ut de enkelte elementene, slik at disse lagres i separate felter. For eksempel teksten:

1NF
Input Artikkel Merke Modell
SonyEricsson C905 mobiltelefon Mobiltelefon SonyEricsson C905

I forbindelse med normalisering, kan slik splitting sees på som å bringe dataene på første normalform.