Leksikalsk analyse

Leksikalsk analyse betegner innenfor informatikken den prosess å konvertere en sekvens med tegn til en sekvens med polletter (tokens), dvs en tekststreng med en identifiserbar «mening». Et program som utfører en leksikalk analyse kalles på engelsk for en scanner, lekser eller tokenizer. En lekikalsk analysator kan generelt kombineres med en parser, som analyserer syntaksen til et programmeringsspråk, en nettside, og så videre. For å utføre denne prosessen brukes regulære uttrykk (regex), hvor man spesifiserer regler for hvordan en tekststreng skal "klassifiseres", for eksempel at positive heltall er en eller flere siffertegn som henger sammen. De fleste scannere vil forkaste enkelte tegn eller bruke dem som skilletegn, disse tegnene kalles typisk whitespace og inneholder mellomrom, linjeskift og tabulering. I noen språk derimot (som Python) er enkelte av disse tegnene syntatisk betydning.