Informasjonsgjenfinning

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Informasjonsgjenfinning er ett bredt forskningsfelt innen Datavitenskap som fokuserer på å gi en bruker tilgang på informasjon de søker. Det dreier seg om representasjon, lagring, organisering og tilgang til informasjonselementer, med utgangspunkt i et brukerbehov.

Historie[rediger | rediger kilde]

I århundrer har indekser blitt laget for hånd for å gjøre ett søk raskt i en samling av dokumenter. Disse indeksene er grunnlaget for all moderne informasjonsgjenfinning. Disse var håndkonstruert og inndelt etter kategori og tema i teksten. Fremveksten av datamaskiner gjorde det mulig å gjøre en slik indeksering automatisk. Biblioteker var de første til å ta i bruk system for informasjonsgjenfinning. Disse var opprinnelig utviklet av universiteter og siden av kommersielle selskaper. Ved oppfinnelsen av internett gikk dette fra å være ett snevert fagfelt for spesielt interesserte til å bli en teknologi med en meget sentral plass i moderne liv.

Modeller[rediger | rediger kilde]

Modellering i ett IG-system er en kompleks prosess som brukes til å produsere en rangeringsfunksjon. Denne prosessen består av to steg:

  • Valg av ett logisk rammeverk for representasjon av data.
  • Definere en rangeringsfunksjon som regner ut en verdi for hvert dokument i kontekst av en spørring.

Klassisk informasjonsgjennfinning[rediger | rediger kilde]

I de klassiske modellene for informasjonsgjennfinning snakker vi om søk i dokumenter som inneholder ustrukturert tekst.

Boolskmodell/Sett-teori[rediger | rediger kilde]

I en boolsk modell for IG, representeres ett dokument ved om de inneholder ett søketerm eller ikke. Det tar altså ikke høyde for frekvensen av forekomster i et dokument. Et svarsett til ett søk vil dermed være unionen av alle dokumenter som inneholder alle søketermene. Ett slikt søk kan også modifiseres ved bruk av andre boolske operatorer som OR(Eller) og NOT(Ikke). Boolske spørringer regnes som vanskelig for brukere å utføre. Fordelen med en slik modell er den rene formaliseringen. Enten inneholder ett dokument søkeordet, eller så gjør den det ikke. Ved ett slikt søk finnes det ingen måte å rangere resultatene, da alle dokumenter som oppfyller kravet vil returneres. Dette fører til vanskeligheter ved at enkle søk kan returnere alt for mange resultater i vilkårlig rekkefølge, og at et for restriktivt søk returnerer for få relevante dokumenter.

Utvidelser av denne modellen er en Fuzzy modell,Extended Boolean og Set-based modell.

Vektormodell/Algebraiskmodell[rediger | rediger kilde]

Vektormodellen bygger på at ikke alle termer beskriver ett dokument like godt. Ett dokument som forekommer i alle dokumentene i en samling vil ikke være beskrivende for hva som skiller dokumenter. En term som forekommer sjelden vil derimot være veldig viktig for en søker, da alle disse dokumentene vil kunne være relevante. Termvekten vil regnes ut ved at man teller antallet forekomster i et spesifikt dokument og forekomsten i samlingen totalt. En slik vekting kan gjøres mer effektiv ved å bruke noe som kalles Tf-idf hvor man også tar høyde for relativ frekvens innad i dokumentet.

Ett dokument representeres på denne måten som en vektor i n-dimensjonalt rom i henhold til vektingen av de ulike termene. Dette åpner for, i motsetning til den boolske modellen for delvis treff på søkefrasen. Dette gjøres ved at man regner ut grad av likhet, som er en verdi som beskriver avstanden mellom en vektor som representerer ett dokument og en vektor som representerer søket. Dette gjør at et delvis treff også vil returneres, men denne vil rangeres lavere enn ett mer direkte treff.

Utvidelser av denne modellen er Generalized vector, Latent Semantic Networks og Neurale nettverk.

Probabilistisk modell[rediger | rediger kilde]

En probabilistisk modell baserer seg på statistikk og sannsynlighet. Utgangspunktet for en slik modell er en antagelse om at det eksisterer et sett av dokumenter som kun består av dokumenter som er relevant for en bruker gitt en spesifikk søkefrase. Dette kalles ett ideal-sett. Gitt en beskrivelse av ett slikt ideal-sett vil vi dermed kunne returnere relevante dokumenter. Dette foregår ved at systemet først gjetter på hva som er ett korrekt returnert sett, for så å forbedre søket gradvis ved hjelp av tilbakemelding fra brukeren.

Utvidelser av denne modellen er BM25, Language Models, Divergence of Randomness og Bayesiske nettverk.

Web[rediger | rediger kilde]

Ved søk på internett vil de klassiske modellen for seg selv ikke gi gode resultater. Metoder som er viktige for informasjonsgjennfinning av nettressurser er PageRank og Hubs and Authorities. Disse metodene tar i tillegg til standard vektormodell, som er det vanligste brukte ved nettsøkt, og legger til informasjon om linker. Dette har vist seg å være essensiell informasjon hvis man ønsker å returnere relevante linker på internett.

Multimedie gjenfinning[rediger | rediger kilde]

Multimediedata mangler ofte assosiert tekst. Dette gjør gjennfinningen av denne typen ressurser vanskelig. Søker man på metadata, eller kjører analyse av ressursene, så vil dette kunne brukes til søk. Derimot er det sjelden denne data som er interessant for en søker, da fargebalanse og kontrast sjelden sier noe om bildet er av en blomst eller en bil. I disse kontekstene er man start sett avhengig av annotasjon av dokumentet og av å assosiere en fritekst som omhandler ressursen med ressursen. Har man disse dataene vil man kunne bruke metoder fra de klassiske modellene for å gjennfinne ønskede dokumenter.

References[rediger | rediger kilde]