Datavask

Fra Wikipedia, den frie encyklopedi
Hopp til navigering Hopp til søk

Datavask er et begrep som ofte benyttes for oppgaven å ajourføre et dataregister utfra et annet dataregister. Det kan også bety å forbedre datakvaliteten ved hjelp av forhåndsdefinerte regler.

Datavask mot eksterne registre[rediger | rediger kilde]

Det vanligste register som vaskes er kunderegister hvor man henter inn endringer på kundeinformasjon fra for eksempel offentlige registre som Det sentrale folkeregister.

Kunderegistre som har rett til å lagre fødselsnummer kan søke om tillatelse til å vaske mot folkeregisteret. Dette gjør de aller fleste finansorganisasjoner. Fra folkeregisteret kan man få oppdateringer på navn- og adresseendringer. Man kan også få varsling om at personer er døde. Man får slik informasjon fra folkeregisteret på personer som er selskapets kunder.

Selskaper som ikke har rett til å lagre fødselsnummer må nøye seg med mindre sikre registre å vaske mot. Posten Norge har et register som mange benytter for at deres adresser skal være mest mulig korrekte. Dette registeret kan benyttes også for å finne en persons adresse etter flytting.

Datavask mot egne registre[rediger | rediger kilde]

I store selskaper er det vanlig å ha en mengde med forskjellige IT systemer med tilhørende databaser. Disse databasene har ofte overlappende data. Ofte brukes et av systemene som referansesystem som andre databaser kan vaske dataene mot.

Det vanligste er imidlertid at ingen systemer har full oversikt men utfyller hverandre. For eksempel kan et Salgssystem være mer oppdatert på umiddelbare kommunikasjonskanaler mot kunder, som telefonnumre og e-post, mens fakturasystemet er mer oppdatert på postadresser. Logistikksystemet er mer oppdatert på besøksadresser, osv.. Denne situasjonen skaper et komplisert mønster for datavask. Noe som har gitt grobunn for det man kaller Master Data Management (MDM) og Golden Copy løsninger.

Datavask på fint nivå[rediger | rediger kilde]

Noe som gjør datavask ytterligere komplisert er at data i forskjellige registre kan ha ulikt dataformat, finkornethet og skrivemåter. Noe som gjør det vanskelig å gjøre presise oppslag mot referanseregistrene, og dermed vanskelig å utføre den ovenfor beskrevne datavaskingen. Dette har skapt behovet for det man kaller datastandardisering og databerikelse, som kan bidra med å gjøre dataene kompatible for referanseoppslag. Grafisk brukergrensesnitt som brukes til databerikelse kalles gjerne «beriknings-GUI».