Wikipedia:Dugnadskontor/Feil anførselstegn (fikse med bot eller lage kategori)

Fra Wikipedia, den frie encyklopedi

Feil anførselstegn (fikse med bot eller lage kategori)[rediger kilde]

Lagt inn av: Telaneo (Diskusjonsside) 8. feb. 2016 kl. 19:13 (CET)[svar]
Så snart som jeg vet så er ikke dette noe som kan fikses med en bot, men det er vel mulig å finne sider hvor det brukes? Siden i 99% av tillfellene hvor «"» og varianter av den brukes så er det feil, så burde dette være en god ide å fikse. Boten kan legge inn en kategori hvis den finner «"», «“», «”», «‘», «’», «`» eller «´». Det burde dekke alle.


Tekniske detaljer på foreslått kjøring[rediger kilde]

Hvilket script som kjøres med lenke til kildekode/hjemmeside. F.eks. mw:Manual:Pywikibot/replace.py
Hvilke parametre som benyttes. F.eks. python pwb.py replace.py -summary:"Feil anførselstegn (fikse med bot eller lage kategori)" -regex "\#[Rr][Ee][Dd][Ii][Rr][Ee][Cc][Tt]\s+\[\[" "#OMDIRIGERING [[" -file:quarry-6662-all-redirect-pages-on-nowiki-run55975.tsv
Lenke til eventuelt datagrunnlag der dette er mulig å fremvise. F.eks. http://quarry.wmflabs.org/query/6662 eller en underside av denne jobbsiden. Hvis ikke hele grunnlaget er mulig å vise, legg inn et eksempel på datagrunnlaget.

Testkjøring[rediger kilde]

Bevis på testkjøring uten at noen faktiske endringer er utført. Legges helst inn som en underside av denne jobben

Diskusjon[rediger kilde]

Hvis konsensus er for kjøringen, skal det settes en dato / tid for når kjøringen i henhold til retningslinjene kan utføres tidligst.

@Telaneo: Jeg har lagd et kjapt script for å hente ut litt info fra siste XML-dump og fikk 31 474 artikler med match. Jeg brukte følgende regexp for å hente ut dette:

		re.compile(u'[^=]\s*((?P<first>[\"\“\”\‘\’\`\´])([^\"\“\”\‘\’\`\´\=\n\>]*)(?P=first))', re.I),    # «"», «“», «”», «‘», «’», «`» eller «´»

Og resultatene finnes her: http://tools.wmflabs.org/pagecount/artikler_med_feil_quotes.html. Stigmj (diskusjon) 16. feb. 2016 kl. 18:46 (CET)[svar]

Jeg er ikke helt sikker på om det er smart å ta med ' eller ` som en del av tegnene da det gir veldig mange falske positiver i tilfeller hvor flere apostrofer(ol.) brukes i samme setning, f.eks. fra Zola-prisen: «J`accuse…!» om Dreyfus-saken i avisen «l`Aurore». vil matche på '-ene og se det som et sitat for `accuse…!» om Dreyfus-saken i avisen «l`.
Dette er bare ett eksempel på mange andre situasjoner hvor dette skjer. Stigmj (diskusjon) 16. feb. 2016 kl. 18:53 (CET)[svar]
De tegnene er vel egentlig feil å bruke i tekst uansett, og burde nok også rettes på, siden «'» skal brukes som apostrof. Kan vel vente med de tegnene og ta de i en separat kjøring hvis de returnerer alt for mange falske positiver.--Telaneo (Diskusjonsside) 16. feb. 2016 kl. 19:18 (CET)[svar]
Ja, det er nok feil uansett der da.. Jeg har kjørt en gang til nå og fikk litt flere resultater (32 055). Det er i hvert fall helt klart at mye av dette må gjennomgåes manuelt, eller så må regexpen bygges enten bedre eller mer spesifikt rettet mot visse tilfeller. Stigmj (diskusjon) 16. feb. 2016 kl. 19:27 (CET)[svar]
Her er det en del feil (kortversjonen er at jeg ikke tror det er mulig å rette dette automatisk)
  • " - dette er hermetegn i basic blokk, som ofte erstattes mer «» eller andre mer spesialiserte tegn
  • “” - doble engelske sitatmerke, right og left double quotation mark, brukes altererende med enkle sitattegn (det er ikke feil å bruke denne)
  • ‘’ - enkle engelske sitatmerke, right og left single quotation mark, brukes altererende med doble sitattegn (det er ikke feil å bruke denne)
  • ` - grave accent, ikke hermetegn
  • ´ - acute accent, ikke hermetegn
Det finnes et utall hermetegn, og gitt kontekst så er de mer eller mindre riktige. Hvis vi siterer noe som har en form ala norsk"dansk"norsk så kan det være riktig å erstatte dette med formen norsk«dansk»norsk. Formen norsk"dansk"dansk"dansk"norsk er derimot norsk«dansk»dansk«dansk»norsk, hvor det ikke er to danske sitater, men et enkelt indre dansk sitat. Danskenes sitattegn er omvendt av de norske.[1][2] Det er flere slike som skaper problemer gitt språk-kontekst. I et sitat på et annet språk så brukes språkets hermetegn, mens sitatet innkapsles utfra den siterende konteksten. Språkskiftet skjer på innsiden av hermetegnet.
Hvis en skriver dette lisp-style så er det muligens lettere å se hva som skjer. Da har vi noe ala (norsk (quote (dansk (quote (dansk))))), de indre hermetegnene kommer med andre ord i en dansk kontekst.
Det finnes doble og enkle sitattegn som går både oppe og nede, og det er ikke gitt at et språk bruker tegn som kun er oppe eller kun er nede.
Generelt er det trygt å skifte fra hermetegn til språk-spesifikt sitattegn, men det er ikke trygt å skifte motsatt vei uten at språket er kjent. Hvis et sitat oversettes til et annet språk så vil en som oftest (?) skifte sitattegnene til det nye språket. Det samme gjelder annen tegnsetting. Noen språk har hatt endringer i typografi slik at en får tilsvarende forskjeller mellom eldre og nyere tegnsetting og vica versa.
Det finnes enkle utgaver av de norske sitattegnene («» vs ‹›) men disse er ikke i vanlig bruk.
Apostrof (') på norske tastatur er ikke et enkelt hermetegn. — Jeblad 22. mar. 2016 kl. 13:04 (CET)[svar]
  1. ^ Grafisk håndbok. Oslo: Yrkesopplæring. 1995. s. 18. ISBN 9788258509582. 
  2. ^ Typografisk håndbok. Oslo: Spartacus. 2000. s. 65–68. ISBN 8243001530.  [Denne beskriver enkelte andre språk, og også litt om sitering på andre språk og oversatte sitater.]