Hopp til innhold

N-gram

Fra Wikipedia, den frie encyklopedi

N-gram er en sekvens av ett eller flere elementer (vanligvis ord) i tekst og tale. Begrepet er mye brukt i datalingvistikk og sannsynlighetsteori. N-grammer genereres vanligvis ut fra et korpus (en avgrenset samling tekst som ofte er digitalt tilrettelagt).

Et n-gram bestående av ett ord betegnes som et "unigram", et "bigram" består av to ord og et "trigram" av tre osv.

En anvendelse av n-gram er Google Ngram Viewer der man kan søke etter ordfrekvenser og ordtrender i hele tekstkorpuset Google Books.

Eksempel på n-gram
Ordsekvens1-gram-sekvens2-gram-sekvens3-gram-sekvens
unigrambigramtrigram
… to be or not to be ……, to, be, or, not, to, be, ……, to be, be or, or not, not to, to be, ……, to be or, be or not, or not to, not to be, …
… dette er et eksempel ……, dette, er, et, eksempel, ……, dette er, er et, et eksempel, ……, dette er et, er et eksempel, …

Eksterne lenker

[rediger | rediger kilde]
Autoritetsdata