ETL

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

ETL er en forkortelse for Extract Transform and Load (eller på norsk Ekstraher Transformer og Last). Dette er betegnelsen for en type IT-verktøy som henter store datamengder fra eksterne kilder, bearbeider dem og laster dem inn i et eller flere lokale målsystemer.

Begrepet og verktøyet oppsto som et behov i forbindelse med implementasjon og vedlikehold av datavarehusløsninger. I slike løsninger laster man normalt på daglig, ukentlig eller månedlig basis, store datamengder fra operasjonelle systemer til et business intelligence-system. Kompleksiteten i disse systemene pleier å være relativt stor og behovet for en type system som forvalter lastejobber på en oversiktlig måte vokste frem.

De fleste leverandører av ETL-verktøy tilbyr et grensesnitt med grafisk visualisering av stegene i prosessen. Forskjellige typer operasjoner eller kilder/mål representeres med symboler som viser hva det er. For eksempel en databasetabell. Mellom operasjoner og kilde/målobjekter går det piler som illustrerer dataflyten.

ETL jobb

Denne måten å representere dataflyt og datamanipulasjon på er effektiv for å kunne spore data tilbake til kilden med full behandlingshistorikk. I tillegg eksponeres forretningslogikken som brukes mye mer effektivt enn for eksempel med SQL kode.

Hovedprinsippet er, som navnet tilsier, at man Ekstraherer data fra kilder, Transformerer disse dataene slik at de passer til målet og til slutt Laster de transformerte dataene inn i en måltabell eller fil.

De enkelte transformeringene, som gjøres i Transform delen, faller som regel inn under noen relativt få standardoperasjoner. Disse styrer dataflyt og datamanipulasjon:

  • Formel
  • Aggregering
  • Oppslag
  • Join
  • Splitt
  • IO funksjoner

En variant som også leveres er ELT, hvor rekkefølgen av operasjonene er byttet om. I praksis er dette en løsning hvor filosofien er å bruke måldatabasens funksjonalitet for å gjøre operasjonene.


Etterhvert som disse verktøyene har utviklet seg og fått utbredelse, også utover datavarehus området,har leverandørene av disse verktøyene begynt å endre betegnelse på dem. Det er nå vanlig å bruke andre betegnelser som bedre reflekterer det mer omfattende anvendelsesområdet. Det vil si innen dataintegrasjon generelt, MDM, CRM og Data Governance oppgaver. Informatica har omdøpt sin suite fra Powermart til PowerCenter, mens IBM har omdøpt sitt verktøy fra DataStage til Information Server.

Mens førstegenerasjons-ETL var mer eller mindre ensidig opptatt av det grafiske brukergrensesnittet, har andregenerasjonsproduktene løst problemer med Datakvalitet, Metadata håndtering, skalerbarhet (i forhold til datavolum), dataprofilering osv...

En viktig ny tenking i forhold til ETL er at man mer og mer åpner for sanntidsoppdateringer, via SOA, av mindre datamengder. Dette i motsetning til den tradisjonelle batch orienterte lasten, som kjennetegnet førstegenerasjons ETL.