Dataavstemming

Fra Wikipedia, den frie encyklopedi
Hopp til navigering Hopp til søk
Prosessen med å gjøre data brukbare: Oppdagelse, strukturering, vask, berikelse, validering, publisering.

Dataavstemming, også kalt datasammenstilling, dataarrangering eller datajustering (på engelsk også reconciliation eller data wrangling[1]) i databehandling går ut på å bringe to datasett, eller uttrekk fra datasett, i samsvar med hverandre. Uttrekkene kan være (og er ofte) kolonnevise, og har som formål å danne tilstrekkelig grunnlag for en autorativ kobling mellom oppføringer uten entydig identifikator. Med andre ord går dataavstemming ut på å ta inn data, transformere data, validering og datavask for å tilfredsstille forretningsbehov og krav.

Et datasett A kan for eksempel bestå av personbeskrivelser som inneholder personnavn (fullt navn), fødselsår, og lønnsinntekt. Et datasett B kan tilsvarende inneholde personnavn (fullt navn), fødselsår, og forsikringsdata. Hvis A kobles med B via personnavn så får en kanskje mange treff på «Ole Olsen» i begge datasettene, og det er ikke mulig å koble dem entydig. Hvis en derimot bruker både personnavn og fødselsår så kan dette være tilstrekkelig til at en kan gjøre en entydig kobling.

Det er prosessen med å utføre denne koblingen på usikre data som omtales som dataavstemming (reconciliation). Det som kommer ut av prosessen er ofte et beriket eller normalisert datasett. Dataene som brukes for å koble datasettene blir av og til omtalt som autoritetsdata (data om en autoriet), og i grensetilfellet med en unik id som en autorativ identifikator.

Verktøy bruker ofte (hvor ofte?) en forenklet analysemodell av hva som er riktige og feil koblinger, hvor sannsynlighet for rett kobling kun er andel samtidige treff. Ved å gjøre analyser på forekomster av de forskjellige feltverdiene (kolonnevariablene) så kan en få sannsynligheten for at en gitt kobling er riktig. Omvendt, hvis sannsynligheten er for lav kan en forkaste koblingen. Ved å bruke flere feltverdier og deres sannsynligheter kan det beregnes en a posteriori sannsynlighet ved hjelp av Bayes' teorem for forekomsten, og en får et mer korrekt bilde av hva som er riktig kobling.

Verktøy for å gjøre dataavstemming (reconciliation) blir omtalt som data analysis reconciliation tool (DART).[trenger referanse] Et slikt verktøy som brukes for reconciliation er OpenRefine,[2] et annet er Trifacta,[3] et tredje er Nomenklatura.[4] Spesialiserte verktøy kan ha egne navn, for eksempel kalles verktøy som kobler navn på steder med geografiske steder for en gazetteer (geografisk ordbok).

Se også[rediger | rediger kilde]

Referanser[rediger | rediger kilde]

  1. ^ «Cleaning Data with Refine — Data Wrangling Handbook 0.1 documentation». datapatterns.readthedocs.org. Besøkt 12. januar 2016. 
  2. ^ Using OpenRefine. PACKT Books. s. 65–80. ISBN 978-1-78328-908-0. 
  3. ^ «Wrangler | Trifacta». Trifacta (engelsk). Arkivert fra originalen 25. februar 2016. Besøkt 12. januar 2016. 
  4. ^ «Open Knowledge Labs». okfnlabs.org. Besøkt 12. januar 2016.