Datavarehus

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Datavarehus er betegnelsen på en type databasesystem som søker å organisere data på en tematisk rettet måte. Med andre ord, å strukturere dataene/infrastrukturen slik at de egner seg for analytisk behandling (f.eks vi OLAP verktøy).

Opprinnelse[rediger | rediger kilde]

Bill Inmon kom opp med begrepet datavarehus,[trenger referanse] og regnes som feltets grunnlegger.[trenger referanse]

Definisjon[rediger | rediger kilde]

Sitat

A warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process.

Sitat
– Bill Inmon

På grunn av at såkalte kuber er en meget velegnet måte å støtte effektiv temabasert, analytisk uttrekk av data, har det dannet seg en feilaktig oppfatning av at kubemodellen er selve definisjonen av datavarehus. Dette er ikke riktig. Bill Inmon, i motsetning til Ralph Kimball, mener at grunndataene for datavarehuset skal lagres på tre normalform, mens selve rapporteringen skal skje på kuber som henter sine data fra grunnmodellen.

To faglige leirer[rediger | rediger kilde]

Mens Bill Inmon har fått æren for å oppfinne datavarehuset, har Ralph Kimball hatt mer suksess og innflytelse med sine bøker om datavarehus. Kimball hevder filosofien med at et datavarehus er unionen av en organisasjons samling av DataMarts. Inmon derimot, mener at det kun finnes ett sentralt datavarehus som er delt i en normalisert grunnmodell som gir data til mange rapporteringskuber.

De to tilnærmingene har ulike fordeler. Mens Kimballs tilnærming muliggjør rask implementasjon av de enkelte Temavarehusene (DataMarts) innen hvert tema, krever Inmons tilnærming mer planlegging, analyse etc.. Noe som fort kan bli kostbart og, ikke minst i stor fallhøyde. Bill Inmons tilnærming er imidlertid mer egnet for store dataintegrasjonsprosjekter, hvor en strukturert tilnærming til datakvalitet og ytelse er viktig.

De to tilnærmingene kan hhv kalles sentraliserte og desentraliserte datavarehus. Sistnevnte, som er støttet av Kimballs leir, kan også betegnes som federated datawarehouse eller DataMart centric development.

Sitat DM is the only viable technique for databases that are designed to support end user queries in a data warehouse. ER is very useful for the transaction capture and data administration phases of constructing a warehouse but it should be avoided for the end-user delivery. Sitat
– Ralph Kimball

Denne uttalelsen har skapt mange kontroverser og misforståelser. Den viktigste er at dimensjonsmodellen nærmest er den definerende egenskapen ved et Datavarehus eller Temavarehus.

Sitat The nice thing about relationally designed tables as a basis for a data warehouse is that in a relational format the relational data can be reshaped and reformed into any configuration that is needed. Stated differently, when relational design is done properly and the data exists at a low level of granularity in the data warehouse, any other configuration of data can be supported – multidimensional cubes, star schemas, flat files, etc. Sitat
– Bill Inmon

Den største kontroversen mellom de to leirene går på hvor vidt man skal ha en konkret grunnmodell i bunnen av en datavarehussatsing, hvor alle dataene hentes fra, eller om et datavarehus bare skal være en abstrakt union mellom alle Temavarehusene.

Aktiviteter knyttet til Datavarehus[rediger | rediger kilde]

Datapopulasjon[rediger | rediger kilde]

De fleste datavarehus lastes daglig, ukentlig eller månedlig, og i noen tilfeller nær sanntid. For å holde kontroll med kompleksiteten i lastemønsteret brukes vanligvis såkalte ETL verktøy. ETL prosessen er normalt kjerneaktiviteten i forvaltning av datavarehus løsninger. I de senere år har ETL prosessen gjennomgått en spesialisering til egne aktiviteter for håndtering av metadata, datakvalitet, dataprofilering, dataauditing og flere andre områder.

Behovsanalyse[rediger | rediger kilde]

Mange datavarehusprosjekter har egne aktiviteter knyttet til behovsanalyse, hvor rapporteringsbehov identifiseres. Denne aktiviteten søker å konsolidere behov i organisasjonen, slik at man kan definere og strukturere forretningsbegreper som i sin tur danner grunnlaget for å definere forskjellige rapporteringskuber eller DataMarts (Temavarehus på norsk).

(Dimensjons)modellering[rediger | rediger kilde]

Det å definere og modellere kuber er en av kjerneaktivitetene i datavarehussammenheng.