Databasenormalisering

Fra Wikipedia, den frie encyklopedi
Se også Normalisering (personnavn)

Databasenormalisering er en teknikk for å designe tabeller i relasjonsdatabaser slik at man minimerer duplisering av informasjon. Hvis samme informasjon lagres på flere ulike steder i en tabell, risikerer man at en endring fører til at databasen blir inkonsistent når noe endres. Hvis for eksempel en persons adresse er lagret på flere ulike steder i tabellen og adressen endres på ett av stedene kan man ikke lenger vite hvilken adresse som er riktig, tabellen har mistet dataintegritet.

Høyere normaliseringsgrad fører vanligvis til flere tabeller i databasen, noe som kan gi redusert ytelse(hastighet) fordi man må gjøre flere joiner av ulike tabeller for å finne sammensatt informasjon. I systemer der man ofte trenger komplisert, sammensatt informasjon kan det derfor enkelte ganger være en fordel med en lavere normaliseringsgrad.

For å oppnå en viss normalform, er det et krav at alle lavere normalformer er oppnådd.

Begreper[rediger | rediger kilde]

  • Funksjonell avhengighet er et sentral begrep i normaliseringsteori. Når B har en funksjonell avhengighet av A, A → B, betyr det at for hver verdi av A finnes det eksakt en verdi av B, og hvis A gjentas får vi også samme verdi av B. For eksempel kan man si at 'adresse' er funksjonelt avhengig av 'personnavn'. Da skal samme adresse alltid være knyttet til denne personen. Det motsatte er ikke nødvendigvis tilfelle, det er ikke sagt at det nødvendigvis er bare ett personnavn knyttet til hver adresse. Hvis dette var tilfelle ville man ha en funksjonell avhengighet som gikk andre veien (B → A). Et attributt kan være funksjonelt avhengig av ett enkelt attributt, eller en kombinasjon av attributter. Det er ikke mulig å avgjøre hvilken normalform en relasjon har uten å kjenne til de funksjonelle avhengighetene, noe som forutsetter kunnskap om området relasjonen omhandler.
  • Transitiv avhengighet er en indirekte funksjonell avhengighet, der X→Z fordi X→Y og Y→Z.
  • Flerverdi-avhengighet oppstår når man har et mange til mange-forhold i samme relasjon der alle koblinger skal forekomme, og de to forholdene ikke har avhengigheter seg i mellom. Formelt blir dette: Hvis man har tre kolonner eller grupper av kolonner – X, Y, Z i en tabell, så er X→→Y i tabellen hvis det alltid er slik at hvis to rader(rad 1, rad 2) er like på X, så må den også ha to rader(rad 3, rad 4) der:
    • Rad 3 er lik 1 på X og Y og lik 2 på Z, og
    • Rad 4 er lik 2 på X og Y og lik 1 på Z

Første normalform (1NF)[rediger | rediger kilde]

Utdypende artikkel: Første normalform

Man kan ta som utgangspunkt at en tabell oppfyller første normalform hvis alle poster i relasjonen er atomære.[1] Det er en viss faglig diskusjon rundt dette, men kjernen er at tabellen skal oppfylle grunnleggende regler for en relasjon.

Eksempel[rediger | rediger kilde]

navn telefonnummer
Ivar Bø, Hilde Svanhjell 750 55 647
Ole Iversen 750 13 113, 750 54 524

Tabellen over bryter første normalform fordi verdiene ikke er atomære. Nedenfor er samme data normalisert.

fornavn etternavn telefonnummer
Ivar 750 55 647
Hilde Svanhjell 750 55 647
Ole Iversen 750 13 113
Ole Iversen 750 54 524

Andre normalform (2NF)[rediger | rediger kilde]

Utdypende artikkel: Andre normalform

For at en relasjon skal være på andre normalform må den oppfylle kravene til første normalform. I tillegg skal det ikke finnes noen ikke-nøkkelattributter som er avhengige av en del av en kandidatnøkkel. Eller sagt på en annen måte, alle kolonner i tabellen skal være fakta om en hel nøkkel, og ikke bare en del av nøkkelen.

Formell definisjon av andre normalform: En relasjon R er på andre normalform hvis alle ikketrivielle funksjonelle avhengigheter i R på formen X→A, der X er en mengde attributter og A et attributt i R, tilfredsstiller minst ett av følgende:

  • X er en primærnøkkel i R
  • A er et nøkkelattributt i R
  • X⊄K for noen kandidatnøkkel K i R[2]

Eksempel[rediger | rediger kilde]

emnekode studentnummer karakter faglærer
MAT100 1001 A Ivar Bø
MAT100 1002 C Ivar Bø
ING100 1001 B Hilde Svanhjell

Tabellen over bryter med andre normalform fordi kolonnen faglærer kun er avhengig av en del av den sammensatte primærnøkkelen emnekode og studentnummer. Faglærer kolonnen er kun avhengig av emnekode i motsetning til kolonnen karakter som er avhengig av hele primærnøkkelen. Ved å flytte faglærer til en ny tabell hvor vi oppretter emnekode som primærnøkkel og lar emnekoden i den opprinnelige tabellen referere til denne vil tabellene oppfylle kravene til andre normalform samtidig som vi minimerer overflødig data ved at faglærerens navn kun oppføres en gang for hver unike emnekode:

emnekode studentnummer karakter
MAT100 1001 A
MAT100 1002 C
ING100 1001 B
emnekode faglærer
MAT100 Ivar Bø
ING100 Hilde Svanhjell

Tredje normalform (3NF)[rediger | rediger kilde]

Utdypende artikkel: Tredje normalform

For at en relasjon skal være på tredje normalform må den oppfylle kravene til andre normalform. I tillegg skal ingen ikke-nøkkelattributter være transitivt avhengig av primærnøkkelen. Det vil si at ingen attributter skal være avhengige av noe annet enn primærnøkkelen, hvis de ikke er nøkkelattributter.

Formell definisjon av tredje normalform: En relasjon R er på tredje normalform hvis alle ikketrivielle funksjonelle avhengigheter i R på formen X→A tilfredsstiller minst ett av følgende:

  • X er en primærnøkkel i R
  • A er et nøkkelattributt i R[2]

Eksempel[rediger | rediger kilde]

id fornavn etternavn postnummer poststed
1 Ivar 3225 Sandefjord
2 Hilde Svanhjell 3227 Sandefjord
3 Ole Iversen 3227 Sandefjord

Tabellen over bryter tredje normalform fordi det finnes en transitiv avhengighet mellom poststed og id. Ved å opprette en egen tabell for postnummer og poststed vil tabellene oppfylle kravet for tredje normalform og vi kan minimere overflødig data ved at poststed ikke gjentas flere ganger for det samme postnummeret:

id fornavn etternavn postnummer
1 Ivar 3225
2 Hilde Svanhjell 3227
3 Ole Iversen 3227
postnummer poststed
3225 Sandefjord
3227 Sandefjord

Elementærnøkkel normalform (EKNF)[rediger | rediger kilde]

Utdypende artikkel: Elementærnøkkel normalform

Elementærnøkkel normalform (EKNF) er en subtil forbedring av tredje normalform (3NF), og derfor tilfredsstiller EKNF-tabeller 3NF per definisjon. Dette skjer når det er mer enn én unik sammensatt nøkkel og disse overlapper hverandre. Slike tilfeller kan forårsake overflødig informasjon i de overlappende kolonnene.

Boyce-Codd normalform (BCNF)[rediger | rediger kilde]

Utdypende artikkel: Boyce–Codd normalform

En relasjon er på Boyce–Codd normalform hvis alle attributter kun er avhengige av supernøkler. Vanligvis vil relasjoner som er på tredje normalform også oppfylle BCNF.

Formell definisjon av Boyce-Codd normalform: En relasjon R er på Boyce-Codd normalform hvis alle ikketrivielle funksjonelle avhengigheter i R på formen X→A tilfredsstiller følgende:

  • X er en primærnøkkel i R[3]

Wessels theorem: Dersom du har en tabell T, med et sett av funksjonelle avhengigheter F, vil du, ved å dekomponere T i tabellene T1,...,Tn for hver funksjonelle avhengighet (1,...,n), stå igjen med tabeller som oppfyller kravene til BCNF.

Fjerde normalform (4NF)[rediger | rediger kilde]

Utdypende artikkel: Fjerde normalform

En relasjon R er på fjerde normalform hvis X er en primærnøkkel i R i alle ikketrivielle flerverdiavhengigheter X →→ Y[4]

Femte normalform (5NF)[rediger | rediger kilde]

Utdypende artikkel: Femte normalform

Femte normalform (5NF) er designet for å fjerne redundans i relasjonsdatabaser som registrerer fakta med flere verdier ved å isolere flere semantisk relaterte relasjoner.

Domene–nøkkel normalform (DKNF)[rediger | rediger kilde]

Utdypende artikkel: Domene–nøkkel normalform

Domene–nøkkel normalform (DKNF) er en normalform som krever at databasen ikke inneholder andre begrensninger enn domenebegrensninger og nøkkelbegrensninger.

Sjette normalform (6NF)[rediger | rediger kilde]

Sjette normalform (6NF) utvider relasjonsalgebraen og generaliserer relasjonsoperatorer (som skjøt) for å støtte intervalldata, hvilket kan være nyttig i temporale databaser. Enhver relasjon på 6NF er også på 5NF.

Referanser[rediger | rediger kilde]

  1. ^ Kobro Runde, Ragnhild: Relasjonsdatabasedesign (Slides). Universitetet i Oslo, INF3100 januar 2009.
  2. ^ a b Codd, E.F. "Further Normalization of the Data Base Relational Model." (Presented at Courant Computer Science Symposia Series 6, "Data Base Systems," New York City, May 24th-25th, 1971.) IBM Research Report RJ909 (August 31st, 1971). Republished in Randall J. Rustin (ed.), Data Base Systems: Courant Computer Science Symposia Series 6. Prentice-Hall, 1972.
  3. ^ Codd, E. F. "Recent Investigations into Relational Data Base Systems." IBM Research Report RJ1385 (April 23rd, 1974). Republished in Proc. 1974 Congress (Stockholm, Sweden, 1974). New York, N.Y.: North-Holland (1974).
  4. ^ Fagin, R. "Multivalued Dependencies and a new Normal Form for Relational Databases. Arkivert 29. november 2007 hos Wayback Machine." Association for Computing Machinery 1977.