N-gram

Fra Wikipedia, den frie encyklopedi

N-gram er en sekvens av ett eller flere elementer (vanligvis ord) i tekst og tale. Begrepet er mye brukt i datalingvistikk og sannsynlighetsteori. N-grammer genereres vanligvis ut fra et korpus (en avgrenset samling tekst som ofte er digitalt tilrettelagt).

Et n-gram bestående av ett ord betegnes som et "unigram", et "bigram" består av to ord og et "trigram" av tre osv.

En anvendelse av n-gram er Google Ngram Viewer der man kan søke etter ordfrekvenser og ordtrender i hele tekstkorpuset Google Books.

Eksempel[rediger | rediger kilde]

Eksempel på n-gram
Ordsekvens 1-gram-sekvens 2-gram-sekvens 3-gram-sekvens
unigram bigram trigram
… to be or not to be … …, to, be, or, not, to, be, … …, to be, be or, or not, not to, to be, … …, to be or, be or not, or not to, not to be, …
… dette er et eksempel … …, dette, er, et, eksempel, … …, dette er, er et, et eksempel, … …, dette er et, er et eksempel, …

Eksterne lenker[rediger | rediger kilde]