Datastandardisering
Datastandardisering er en disiplin innen området datakvalitet, hvis formål er å bringe representasjonsformen av dataene over på et standardisert format. Dette slik at dataene lettere kan sammenstilles med andre data av samme type.
Motivasjon[rediger | rediger kilde]
Datastandardisering har i stor oppstått som en følge av vanskelighetene med å sammenstille informasjon fra ulike distribuerte IT systemer. Disse systemene lagrer ofte de samme dataene på forskjellig format.
Anvendelse[rediger | rediger kilde]
Datastandardisering har stor nytteverdi innen dataintegrasjon generelt, hvor mange såkalte heterogene kilder blir sammenstilt.
Ved deduplisering av lister med data, kan det være hensiktsmessig å preprosessere input data, slik at de enkelte forekomstene lagres på en standardisert form, og dermed lar seg sammenligne.
Verktøy[rediger | rediger kilde]
I de senere årene har det blitt utviklet egne verktøy for datastandardisering og integrert funksjonalitet i verktøy for dataintegrasjon (ETL). Disse benytter ofte en blanding av "fuzzy logic" og regelbaserte transformasjoner. Noen verktøy bruker regulære uttrykk, mens andre bruker egne språk.
Eksempler på standardisering[rediger | rediger kilde]
Enkel felt-standardisering[rediger | rediger kilde]
Kilde | Standardisert |
---|---|
5/7-2009 | 2009-07-05 |
5 juli 09 | 2009-07-05 |
5. juli 2009 | 2009-07-05 |
Input | Standardisert |
---|---|
CD pl | CD ROM PLATE |
CD ROM | CD ROM PLATE |
Splitte dataelementer[rediger | rediger kilde]
Ofte er mange forskjellige data lagret i samme feltet. Da kan datastandardisering brukes til å splitte ut de enkelte elementene, slik at disse lagres i separate felter. For eksempel teksten:
Input | Artikkel | Merke | Modell |
---|---|---|---|
SonyEricsson C905 mobiltelefon | Mobiltelefon | SonyEricsson | C905 |
I forbindelse med normalisering, kan slik splitting sees på som å bringe dataene på første normalform.