Gap (bioinformatikk)

I sekvenssammenstilling av protein- eller DNA-sekvenser blir elementer av to eller flere sekvenser parvist tilordnet til hverandre. Noen ganger er det nødvendig å føye inn et gap, dvs. at et element i den første sekvensen ikke har et tilhørende eller liknende element i den andre sekvensen eller motsatt. Det samme gjelder multiple sammenstillinger med mer enn to sekvenser.

Et gap kan ha lengde større en 1 (dvs. at det tilsvarer flere sammenhengende elementer i den/de andre sekvensen/sekvensene) og er et tegn på enten innsetting eller delesjon. Det avhenger av om sekvensen de begge stammer fra inneholdt dette elementet eller ikke. Hvis det gjelder innsetting, så er det et element som har blitt føyet inn hvor gappet er nå. Hvis det gjelder delesjon, så betyr det at et element har blitt slettet i løpet av evolusjonen. Fordi man ofte ikke vet om gappet er en innsetting eller en delesjon, snakker man også om indels.

Gaps i algoritmer for sekvenssammenstilling[rediger | rediger kilde]

Kostnader for et gap i sekvenssammenstilling deles ofte opp i GOP (gap opening penalty) og GEP (gap extension penalty). Den første står for kostnader for å åpne et gap, den siste står for å forlenge et gap. Det er ofte billigere å forlenge et gap enn å åpne et gap. Dette er fordi mekanismene som forårsaker mutasjoner i evolusjonen kan slette eller sette inn flere sammenhengende basepar på en gang. Det er altså mer sannsynlig at det har skjedd en mutasjon der flere baser har blitt satt inn eller fjernet på en gang enn at det har skjedd mange mutasjoner der en og en har blitt fjernet/lagt til. Verdiene for GOP og GEP settes slik at de best reflekterer dette.

Vanligvis bruker man en såkalt affine gap kostnad, dvs. at GOP er konstant og GEP er produktet av en konstant og lengden av gappet. Dette inkluderer også særtilfellet av linær gap kostnad der GOP er på 0 slik at kostnadssummen er proporsjonal til lengden av gappet.