Hopp til innhold

Fuzzymatching

Fra Wikipedia, den frie encyklopedi

FuzzyMatching er et felt innen IT som har sterk anvendelse innen tolkning av fritekstfelter. Innen dataintegrasjon har man ofte det problemet at to records fra forskjellige systemer ikke lar seg sammenligne når man skal kombinere informasjon fra disse. Typisk, når man skal finne informasjon om en person, vil man bruke Navnet for å identifisere personen.

H. C. Andersen

Hans C. Andersen

Hans Chr Andersen

Et vanlig dataprogram klarer ikke å se at dette er samme navn. Til det trenger vi fuzzy matching.

Flere typer "fuzzyness"

[rediger | rediger kilde]

Skrivefeil

[rediger | rediger kilde]

Hvis et ord er skrevet feil kan fuzzy matching likevel kjenne igjen det riktige ordet ved å sammenligne med en Ontologi (IT) eller en oppslagsliste. For eksempel:

Adnersen

Andersen

I slike tilfeller kan man definere likheten ved å telle antall basisperasjoner av typen

  • Slette tegn
  • Sette inn tegn
  • Overskrive tegn

Alle disse får verdien 1, mens match får verdien 0. Dermed er minste kostnad for å konstruere Andersen fra Adnersen lik 2:

A[overskriv d med n][overskriv n med d]ersen

eller

A[slettd]n[sett inn d]ersen

Forkortelser

[rediger | rediger kilde]

I eksempelet med H.C. Andersen ovenfor ser vi at de tre linjene er varianter av samme navn med forskjellig (grad) av forkortelser. Ved å gjenkjenne første bokstav i hvert ord, og deretter se at alle forkortelsene er delstrenger eller sammentrekninger av det fullskrevne, kan man finne match med hovedsakelig samme prinsipp som for skrivefeil.

Autoritetsdata