Diskusjon:Anslag (tekst)

Med eller uten ordmellomrom

Forskjellige kilder definerer «anslag» litt forskjellig, hovedsakelig anslag på tastaturet på skrivemaskinen eller anslag med hammeren på papiret. I det første tilfellet regnes mellomrommet mellom ord med, men merkelig nok ikke mellomrom mellom en del andre tegn, slik som mellomrom skapt av tab og lignende. I det andre tilfellet regnes alle tegn med som gir anslag med hammer (sverting) på papiret, og da er mellomrom ikke med. For å gjøre dette enda vanskeligere så er antall mellomrom ikke det samme når setteren gjør sitt arbeid, for han skyter inn både ekstra mellomrom og andre tegn.

Når jeg skrev teksten så jeg at en del bøker oppgav at ordmellomrom skulle telles med. Jeg hadde tidligere diskutert dette i en av landets større aviser, og fikk da beskjed om at ordmellomrom ikke skulle telles med. Dette var i et litt arkaisk arkivsystem med aner fra tiden hvor settere fortsatt fysisk satte spaltene. Dette systemet har vandret over i avishistorien, men jeg tror jeg skal ha en kopi noe sted. Denne diskusjonen var med journalister og arkivarer, og ikke med settere. De fleste bøker som omtaler «antall anslag» og hvorvidt ordmellomrom skal med, er skrevet for grafisk bransje.

Hvis en forsøker å bruke «antall anslag på tastaturet» som mål i et moderne dokumentverktøy som bruker Unicode, så vil en finne at anslag omtrent følger antall codepoint, men at dette ikke er det samme som antall tegn på skjermen. Andre karaktersett uten compose-funksjonalitet følger antall anslag bedre, men disse kan også implementeres med compose-funksjonalitet på systemnivå, såkalte «input methods». Det forventede antall anslag følger omtrent tastaturutlegget for et QWERTY-tastatur, men dette er også omtrentlig ved at utlegget både er språkavhengig og tildels maskinavhengig.

Den litt lengre forklaringen er at i dokumentverktøy telles typisk tegn med og uten mellomrom, og dette skjer for kanoniske tegn i UTF8. Det vil si at en del spesialtegn (blant annet diakritiske) trekkes sammen i normaliseringer, for eksempel det som kalles normalized form C (NFC). For eksempel kan bokstaven «Å» skrives på forskjellig vis, men er som kanonisk tegn definert som ett codepoint. Karakteren kan kodes som U+00C5 («LATIN CAPITAL LETTER A WITH RING ABOVE»), eller som U+030A (COMBINING RING ABOVE) og U+0041 («LATIN CAPITAL LETTER A»). Begge vil se ut som det samme, men hvis teksten går gjennom NFC så vil tegnet komme ut på den første formen. I Mediawiki skjer dette rett før teksten lagres. Det er mange tegn som ikke trekkes sammen til et enkelt codepoint, for eksempel sekvensen «̊n» [ringen feilplasseres i noen nettlesere/fontsett] (U+030A og U+006E) som ikke har en kanonisk representasjon, dermed vil de fremstå som to codepoint selv om de har gått gjennom NFC. De eneste andre kanoniske tegnene med ring over er ẘ og ů. Det er langt flere tegn som skaper problemer, deriblant ligaturer og mellomrom som er del av ord, men compose-tegn er de mest opplagte, og de som er enklest å forklare.

Kortversjonen er at antall anslag er et høyst tvetydig mål, som var mer entydig når en tekst var maskinskrevet på en eldre mekanisk skrivemaskin, men hvor det ikke fantes noen enhetlig definisjon. Hvis noen føler sterkt for å endre teksten i en eller annen retning, så feel free. Det er sannsynligvis mulig å finne kilder som støtter alle varianter. — Jeblad 14. sep. 2020 kl. 18:17 (CEST)[svar]