Unicode

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Unicode er et tegnsett som har som formål å skape et standard tegnsett for alle datamaskiner som støtter alle språk som er i praktisk bruk. Unicode blir utviklet av en privat organisasjon kalt The Unicode Consortium. Organisasjonen ble stiftet i 1991 med det Unicode-standarden inneholdt i versjon 3.1 95221 skrifttegn, og standarden har senere blitt utvidet.

Unicode bruker forskjellige metoder for å representere tegnene i filer. I UTF-32 brukes 32 bit per tegn for å representere hele dagens Unicode-tegnsett, mens i UTF-16, som brukes i nyere versjoner av Windows, deles tegnene opp i porsjoner på 16 bit. UTF-8 bruker sekvenser på 8 bit, og er gjort bakoverkompatibelt med 7-biters ASCII tegnsettet som brukes i en stor andel av verdens datasystemer, slik at det enkelt kan benyttes i en rekke operativsystemer og kommunikasjon over Internett.

Fordelen med Unicode er at det tillater flerspråklig kommunikasjon. Mens ASCII-baserte tegnsett hindrer brukeren i å skrive på flere språk innenfor ett og samme dokument, støtter Unicode de fleste språk en innenfor rimelighetens grenser kan tenkes å bruke i et datasystem. Dermed gjør Unicode det mulig å enkelt representere flerspråklig data elektronisk. For mange språk er det uten Unicode vanskelig eller umulig å finne applikasjoner som støtter det.

Kritikk[rediger | rediger kilde]

Unicode har mottatt en del kritikk for sin implementasjon av kinesiske tegn. Tegnene har varierende utseende i forskjellige asiatiske skriftspråk, mens Unicode har gitt samme kode til flere av disse variantene. Samtidig inkluderer Unicode flere tegn som ser relativt like ut på flere plasser, for å bevare kompatibilitet med eldre tegnsett. Eldre versjoner av Unicode manglet også en del kinesiske tegn, men dette har blitt korrigert i senere revisjoner. Kina har sågar brukt Unicode som basis for sitt nye nasjonale tegnsett GB18030, som kombinerer det eldre kinesiske tegnsettet GB2312 med Unicode. GB18030 kan anses å være en kinesisk ekvivalent av UTF-8.

Tastatur[rediger | rediger kilde]

Ulike operativsystemer gir på ulike måter adgang til å finne de ulike tegnsettene og deres assosierte koder. Operativsystemet Mac OS X gir enkel adgang til dette med tastekombinasjonen ⌘⌥T, mens Microsoft Windows har «Tegnkart» under tilbehørsmenyen. I Ubuntu trykker man CTRL+SHIFT+u og deretter koden. Flere linuxdistribusjoner er basert på UTF-8 fra filsystemet og oppover, mens mulighetene for å skrive det varierer.

Se også[rediger | rediger kilde]