Wikipedia:Identifisering av anonyme brukere

Spørsmålet om identifisering av anonyme brukere dukker opp med ujevne mellomrom. Det finnes noen verktøy som kan identifisere brukere på tvers av kontoer (selv en anonym IP-adresse er en form for konto) og et av disse forutsetter tilgang via spesialsiden som kalles CheckUser. Dette verktøyet forutsetter at brukeren har spesielle rettigheter. Hvem som har disse rettighetene kan sees på Spesial:Brukerliste/checkuser. I tillegg til disse lokale brukerne så har noen globale rettigheter, m:Special:ListUsers/checkuser og m:Special:ListUsers/steward. Noen ganske få metoder kan brukes fra utsiden uten å ha tilstrekkelige rettigheter.

Metoder brukt av CheckUser

Dette er de viktigste mekanismene som brukes internt av CheckUser.

Sporing via cookie

Det settes flere informasjonskapsler (w:en:HTTP cookies) når en redigerer på Wikipedia, og noen av de settes etter at en er innlogget og har som formål å finne ut om det redigeres via flere kontoer fra en og samme maskin. Felles for alle disse er at de fleste gode ad blockers vil påvise cookiene og fjerne dem når sesjonen avsluttes. Hvis brukeren åpner et privat vindu vil også alle cookies som eller er permanente fjernes ved sesjonens slutt, og vedkommende vil også slette alle spor etter tidligere sesjoner.

Det finnes noen former for såkalte supercookies, men gode nettlesere (og ad blockers) er blitt stadig bedre i å finne og kverke dem. King of the top på supercookies er vel fortsatt ActionScript i Flash, og IP-cookies. Det er ikke kjent om WMF bruker virkelig vanskelige supercookies, men det er tvilsomt om folk hos WMF ikke skulle kjenne til mulighetene.

Hvis cookies overlever så kan de brukes for å koble kontoer mellom tjenester. Såvidt jeg vet så gjør ikke WMF dette, men hvis noen sniffer på linja så kan de finne ut at «jeblad» på Wikipedia nok er den samme som «jeblad» hos Google. det skjer fordi blant annet Chrome-nettleseren fra Google infiserer alle forespørsler med en cookie fra nettopp Google. Blant annet Google har satt opp betalingstjenester for å koble identitet via deres cookies. Dette er en av de største lekkasjene av identifiserende informasjon på nettet.

Sporing via fingeravtrykket til nettleseren

Dette er en ganske sikker metode, som tidligere var basert på utvidelser i nettleseren. Det var da mulig å lage et fingeravtrykk utfra hva nettleseren leverte. Hvor sikkert dette fingeravtrykkeet var kunne beregnes utfra hvor mange som brukte de forskjellige utvidelsene. Når utvidelser ble lagt til av allskens nettsteder en gjestet ble det veldig mange utvidelser. Desto flere og særere utvidelser, desto bedre fingeravtrykk. Mange ad blockers filtrerer nå bort annonsering av utvidelser, selv om de er lagt inn i nettleseren. Dette gir også dårligere grunnlag for å lage fingeravtrykk. Nettleserens fingeravtrykk er også kalt stupid user detection.

Spesialsiden for CheckUser er begrenset til kun sporing via fingeravtrykk for logget informasjon, og dette er begrenset til det nettleseren publiserer under innholdsforhandling (content negotiation). Andre nettsteder er ikke begrenset av dette. og nettsteder som tilpasser reklame kan bruke ganske aggressive metoder.

Tidligere var det vanlig med et utall utvidelser i nettleserne, men nå har nettleserne lagt til kode som gjør det vanskelig å lure inn utvidelser. Det har gjort at fingeravtrykkene har blitt dårligere. Istedenfor å kun bruke utvidelser i nettleseren brukes det andre effekter og egenskaper. Spesielt fonter og hvordan grafiske elementer tegnes ut lekker mye identifiserende informasjon, men også fysisk hardware slik som skjermens størrelse og fargedybde kan lekke info. Det er ikke lengre slik at info kun kan lekke gjennom innholdsforhandling, info kan også lekke via API-er. Selv bruk av «do not track» i forespørselen lekker informasjon om klienten.

En tjeneste som gir et visst inntrykk av hvor mye informasjon som lekker under en sesjon er Panopticlick fra Electronic Frontier Foundation.

Sporing via IP-adresse

Når du logger på vil alltid IP-adressen være synlig for WMF. Det betyr at dine kontoer (spesielt anonyme) kan spores over sesjoner fra samme adresse. Det er imidlertid nokså enkelt å få ny IP-adresse, og noen systemer kan gi deg ny adresse rett fra desktoppen. Noen kan også sikre at du får ny IP-adresse hver gang du spør på en ny netside. Kort sagt, er du snill og holder deg på en enkelt adresse så kan WMF spore deg, hvis de gidder, men hvis du ikke er snill så er det i praksis umulig.

Noen ISPer bruker bruker små pooler av IP-adresser som er knyttet til geografisk lokalitet. Disse gir nokså god identifisering utenfor tettbebygd strøk. Det kan da være snakk om 50-100 000 brukere i en pool. Tidligere var det noen som poola brukere i enda mindre grupper, jeg vet om noen som var nede i under 1000 brukere. Nå er det ikke uvanlig å poole alle brukere i et mobilnett i en eller noen få grupper. Alle brukere i Telia sitt nett er ikke «Sju hav» uansett hva enkelte måtte hevde.

Hvis du bruker en konto som er blokkert, og hvis de klarer å spore deg via IP-adressen, så vil IP-adressen du bruker bli automatisk blokkert. Tror autoblokkeringen er på en time, de som er interessert kan sjekke.

Identifisering via IP-adresse kan gjøres av alle som kan lytte på linja, eller på lokalnettet. Har du et trådløsnett så bør du kryptere trafikken, hvis ikke publiserer du i praksis all din trafikk helt åpent. Når du bruker https krypterer du ikke adresseinformasjonen, kun innholdet.

Sporing via XFF-header

Spesialsiden for CheckUser kan bruke XFF-data fra forespørsler. Dette er informasjon som enkelte nettsteder sender med om hvem som er på innsiden av en brannmur. Det er vanlig å bruke interne IP-adresser, men i praksis kan det være hva som helst som tilfredsstiller bestemte formkrav. Den her typen informasjon kan for eksempel brukes for å identifisere et bestemt kabelpunkt inne på en skole.

Noen større skoler og universitet i utlandet har valgt å bruke den her typen identifisering for å kunne identifisere de enkelte som er opphav til vandalisme. Det er ikke kjent om noen norske skoler og universitet setter XFF-data i headeren, men det har vært kontakt med enkelte om å prøve det ut. Hvis det skal startes et prøveprosjekt bør (må) det finnes en viss konsensus i nettsamfunnet, men merk at det fulle ansvar ligger hos den enkelte institusjons internettleverandør.

Metoder som ikke brukes av CheckUser

Det finnes noen metoder som er veldig effektive, men som vi ikke bruker. Disse finnes det en del omtaler av på nettet.

Sporing via skjult grafikk

Det kan lages en liten grafikk som ikke er synlig for brukeren, men som kan sendes til serveren. Dette fungerer som et slags fingeravtrykk av nettleseren. Dette fingeravtrykket er ikke veldig effektivt, men sammen med andre metoder kan den redusere utfallsrommet med 90-95%. (Testmetodene spriker.) Tjenesten Panopticlick angir typisk 10-14 bit for denne metoden, mens andre tjenester angir lavere tall. Absolutte tall vil være bedre enn tall angitt sammen med andre metoder, da denne metoden har sterke avhengigheter (dependencies).

Sporing via tastaturbruk

Det kan lages statistikk for hvordan brukeren slår an taster, såkalt tastatrdynamikk (w:en:keystroke dynamics). Dette kan i sin tur bli brukt for å lage fingeravtrykk for brukeren. Dette fingeravtrykket er uavhengig av nettleser, og tildels maskin. Det er litt forskjellige tall i omløp på nettet om hvor mye utfallet forbedres, alt fra 95% til 998‰ (mener det var tallet jeg så). Meget mulig det finnes bedre systemer nå, tallene jeg har funnet er ikke helt ferske. Jeg har ingen tro på de beste tallene, men dette er nok en av de beste metodene.

Det er en metode som kan brukes fra utsiden og som vi ikke kan stoppe. Veldig ofte blir det påstått at noen har brukt den, men den er langt fra triviell.

Sporing via grammatikk

Når vi skriver så har vi en forkjærlighet for å bruke bestemte ord og vendinger. Disse ordene og vendingene kan brukes for å spore brukere. For å klare å spore brukere må en ha en baseline for hvordan alle bruker disse ordene og frasene, og deretter hvordan hver enkelt bruker disse ordene og frasene. Disse tallene brukes så i multivariat Bayes over et stort antall bidrag. At noen har brukt et ord eller en frase en enkelt gang er ingen god indikasjon på at en tekst er er skrevet av en bestemt bruker.