Kategori (informasjonsvitenskap)

Fra Wikipedia, den frie encyklopedi

Kategorier i informasjonsvitenskapen er studiet av hvordan data best struktureres for å gi best ytelse, det være seg i form av utnyttelse av maskinressurser, såvel som arbeidshastighet. En kategori er en (som i matematikk) et sett med objekt som har en eller flere likhetstrekk og derfor kan eller bør lagres eller behandles likt.

For å lagre kategorier over tid, må assosiasjonen kategori-objekt lagres minst ett sted. Det objekt som skal tilknyttes en kategori kan da merkes med et attributt, slik at man får vite tilhørigheten ved å se på objektets attributtliste. Alternativt kan man lagre merkingen hos selve kategorien (ikke hos objektet), og se på hvilke objekt som er tilknyttet kategorien. Hva som er mest effektivt (for lagringsutnyttelse og gjenfinningstid) varierer.

I Wikipedia kan en artikkel merkes med tilhørighet til en kategori. Kunnskapen om tilhørighet blir da dobbeltlagret: Eksplisitt i selve artikkelen, og automatisk tillagt for hver aktuelle kategori. Dette gir rask fremfinning av beslektede artikler (som er i samme kategori). Og, en finner raskt frem hvilke kategorier en gitt artikkel er i.

En artikkel kan også merkes ved bruk av infobokser (maler), der man eksplisitt angir verdi for de attributt som infoboksen skal inneholde. Kjennskapen til disse merkene brukes i dag kun til å bestemme hvordan artikkelen skal vises, men det arbeides med å bruke dette til kategorisering. Istedenfor å merke hver biografi med "Fødsler i" og "Dødsfall i" kan en Infoboks for "biografi" inneholde attributtene "født" og "død". Disse kan brukes til å bestemme vising av artikkel (som i dag), såvel som automatisk beregning av lister over "Fødsler i" og "Dødsfall i".

Det arbeides med ytterligere muligheter for merking, da i prosjektet Semantisk Wikipedia. Dette vil gi en tredje måte å kategorisere artikler på. Her kan nevnes ett spesielt underprosjekt: Semantiske Linker der man for hver link også kan angi hva slags link dette er. Altså vil man angi

... født i [[født-i:1948]].  

Her blir linkens type ("født-i") oppfattet som et attributt til selve artikkelen. I dagens Wikipedia er linkene uten type, altså "meningsløs".