Ren tekst

Fra Wikipedia, den frie encyklopedi

Med ren tekst menes i datasammenheng tekst som ikke inneholder spesielle formateringskoder til bruk for eksempel i tekstbehandlere eller andre dataprogrammer. Filene er lesbare for mennesker, i motsetning til binærfiler som ofte bare er forståelig for datamaskiner.

Ren tekst har vært i bruk siden datamaskinens begynnelse, og blir i dag brukt til alt fra småfiler (inneholder mange ganger ingen tegnkoder i det hele tatt, kun tekst og linjeskift) til store datamengder, i stadig større grad i form av XML. Et eksempel på dette er også her – alle artikler på Wikipedia er skrevet i ren tekst med enkle formateringskoder. Dette gjør det enkelt å importere teksten inn i tekstbehandlere eller andre programmer.

Den vanligste forskjellen på tekstfiler er tegnsettet, den interne tallverdien som et tegn representeres ved i maskinen. Det mest utbredte tegnsettet i den vestlige verden i dag (2005) er ISO-8859-1, men det finnes mange varianter, her er en liste over de vanligste:

UTF-8
Et tegnsett for koding av Unicode og er det tegnsettet som øker mest i bruk i den vestlige verden. (Først publisert i 1992 september).
ISO-8859-1 / Latin1
Det vanligste tegnsettet på GNU/Linux og Microsoft Windows siden 1990-tallet. Vedlikeholdet av denne standarden ble formelt avsluttet i juni 2004. (Først publisert i 1998).
ISO-8859-15 / Latin0
En variasjon av Latin1 der tegnet ¤ er byttet ut med (først publisert i 1999).
CP865
Det skandinaviske tegnsettet for bruk under MS-DOS (lansert cirka 1986/1987[1]).
CP437
Det originale PC-tegnsettet for bruk i USA (brukt med IBM PC DOS i 1980-årene[trenger referanse]).
Macintosh
..

Oppfatningen om hvilke filer som kan defineres som «ren tekst» har forandret seg i årenes løp. I begynnelsen da ASCII dominerte med sine syv bit, ble kun filer som bare inneholdt tegn i området 32–127 regnet som dette. Etterhvert som 8-bit tegnsett ble mer og mer vanlig omfattet «ren tekst»-begrepet i tillegg til den foregående definisjonen også visse tegn i området 128–255. De fleste tegnsettene baserte seg på kun åtte bit, noe som begrenset antall tegn per tegnsett til 256. Dette forandret seg da Unicode ble introdusert, og en vanlig oppfatning av ren tekst er at den skal være leselig for det menneskelige øye.

En annen forskjell mellom filer som kan karakteriseres som «ren tekst» er formen på linjeskift. Eksempler på dette er 0x0A for Unix-lignende systemer og 0x0D+0x0A i MS-DOS og Microsoft Windows.

Se også[rediger | rediger kilde]

Referanser[rediger | rediger kilde]

  1. ^ «DOS codepages (and their history)». www.aivosto.com. Besøkt 19. november 2022. 
Autoritetsdata