Dataprofilering

Fra Wikipedia, den frie encyklopedi
Hopp til navigering Hopp til søk

Dataprofilering er aktiviteten å lage et forståelig bilde av innhold og struktur for en datakilde.

Med millioner av rader med data kan ikke en kilde beskrives uten en viss form for aggregering av måltall. Eller sagt på en annen måte, at man presenterer en profil av datainnhold og/eller struktur.

Motivasjon[rediger | rediger kilde]

Motivasjonen for dataprofilering som eget felt innen IT har i hovedsak kommet fra frustrasjonen datavarehusutviklere hadde ifbm uforutsigbar datakvalitet i kilder. Forretningslogikk for lasting av data til datavarehusene ble (og blir) ofte gjort mer med utgangspunkt i antagelser enn fakta om egenskapene til kilden. For eksempel ved å se på databasemodeller for kilden. Problemet er at slike modeller ofte ikke er oppdatert, eller at tilstrekkelig referanseintegritet ikke er implementert.

Ved å bruke profilering av kilden kan man på forhånd få kunnskap om kilden basert på undersøkelse av reelt datainnhold.

Forskjellige måter å profilere på[rediger | rediger kilde]

Datainnhold[rediger | rediger kilde]

Innholdsmessig kan dette kan aggregeres i form av frekvenslister over forekomster av forskjellige verdier. I noen tilfeller er dette hensiktsmessig, for eksempel hvis man skal liste forskjellige verdier for produktnavn:

Navn Antall
Sony Ericcsson C905 93
SE 905 4
Nokia N95 123
N95 33
... ..

Datatyper, formater og mønstre[rediger | rediger kilde]

Tekstfelter kan ofte inneholde mange forskjellige datatyper eller formater. For eksempel datoer, emailadresser, web-adresser, etc... Profilering kan avdekke hvilken type format, mønster, datatype eller kjente informasjonstyper (web, mail, navn, ...) det er snakk om.

Semantikk[rediger | rediger kilde]

Profilering som avdekker mønstre basert på frekvensanalyser av ordsammensetninger. Dette kalles semantisk profilering og er et nyere tilskudd til profileringsfeltet.

Struktur[rediger | rediger kilde]

Å beskrive struktur er vanskelig uten å ha en modell som et fast holdepunkt. Det vanligste er å påvise i hvilken grad en kilde innordner seg eller avviker fra normalformene 1-3 for relasjonsdatabaser.

Ved å bruke en normalisert datamodell med full referanseintegritet, kan man oppnå en meget stor grad av forutsigbarhet ved uttrekk av data. Bill Inmon, som er anerkjent som opphavsmannen til datavarehus, har som krav at datavarehusets grunndata skal lagres på 3 normalform, slik at de lettere kan trekkes opp i rapporteringskuber og lignende business intelligence-strukturer.

Dataprofilering kan avdekke underliggende strukturer i en eksisterende database basert på innhold.