Bruker:Jeblad/Påvisning av opphavsrettsbrudd

Fra Wikipedia, den frie encyklopedi
Dette er en hjelpeside for «Tilleggsfunksjoner» på siden Spesial:Innstillinger
Dette er en webapplikasjon som er en tidlig alpha, og omfattende endringer vil forekomme.
Ikonet mens det pågår et automatisk søk

Påvisning av opphavsrettsbrudd er en tung manuell oppgave og kan forenkles ved å bruke verktøy for å automatisk eller halvautomatisk søke etter mulige tilfeller. Når en patruljerer endringer så fremkommer det en diff øverst på siden, hvis ikke siden er ny. Denne viser hva som er endret. Ved å slå på verktøyet for å påvise opphavsrettsbrudd legges det inn en ekstra lenke til høyre på tittellinjen under gitte forutsetninger, og denne lenken inneholder et automatisk formatert søk. Hvis bidraget i tillegg ikke er godkjent og den som patruljerer har rollen patruljør eller administrator, så vil det utføres en automatisk kontroll. Hvis denne påviser et mulig opphavsrettsbrudd så endrer lenken utseende og det legges inn et advarselsymbol. Ved å klikke på lenken postes en liste av mulige kilder for det aktuelle bidraget.

Verktøyet kan brukes uten at en er patruljør eller administrator, men da vil det ikke utløses automatiske kontroller. Lenkene for å sjekke endringer manuelt er aktive og om de traverseres så utføres søket og det lages et resultatsett for det aktuelle søket. Så snart søket er ferdig så postes samme type liste som for patruljører og administratorer.

Hvis lenken skal genereres må den initielle prosesseringen av teksten på siden medføre at det kan skapes datagrunnlag for et søk. Hvis dette ikke kan lages så vil det ikke bli satt opp noen lenke.

Forutsetninger[rediger | rediger kilde]

Det er antatt at en kopi av en tilgjengelig tekst må bestå av informativt innhold, og at stoppord ikke representerer et slikt innhold. Det betyr at slike ord kan neglisjeres i prosesseringen. Videre er det antatt at en kopi må bestå av flere tekstfragmenter, hvor hvert tekstfragment som minimum må være en hel setning, men hvor det kreves flere setninger før det kan antas å være et klart opphavsrettsbrudd. Det er også antatt at reorganisering av eksisterende tekst fra artikkelen ikke representerer et opphavsrettsbrudd.

Algoritme[rediger | rediger kilde]

Den automatiske påvisningen av opphavsrettsbrudd er sterkt forenklet, og baserer seg på sammenfallende tekststrenger. For å øke muligheten for at en faktisk finner igjen strengene selv om de er noe endret, for eksempel ved enkel rokkering av ord og endring av bøyning, så søkes det etter grupper av enkeltord. Det betyr at verktøyet kan påvise opphavsrettsbrudd selv etter en begrenset omskriving av teksten, men også at det er en ikke ubetydelig mengde med tilfeldige treff, spesielt ved korte tekststrenger. Det er derfor viktig å sjekke hvorfor teksten er lik og om dette kan være tilfeldig. Automatikken er der kun for å øke oppdagelsesfrekvensen, ikke som et middel for å føre bevis for at det er begått et opphavsrettsbrudd.

Tekststrengene som brukes er de som fremkommer i en diff mellom to versjoner av artikkelen, typisk diffen som fremkommer når en skal godkjenne en redigering, eller hele teksten om det er en ny artikkel. Hvis tekststrengene fremkommer som følge av mindre endringer inne i paragrafer så tas de ikke med, det antas at disse tekstene er sjekket tidligere. Hvis tekststrengene inneholder vesentlige mengder tekst som allerede kan identifiseres andre steder i artikkelen så tas de heller ikke med, disse vil medføre store mengder støy i søkene. Stoppord (det vil si ord som er lite informasjonbærende og svært vanlige) tas heller ikke med i søket, og hvis tekststrengene etter at stoppordene er fjernet blir for korte så vil den aktuelle tekststrengen bli utelatt.

Søkestrengene skal inneholde et minimum antall søkeord slik at det blir en svært spisset søkefunksjon, og disse vil bli sjekket mot en søketjeneste på nettet. Kun de søkene som gir treff av tilstrekkelig kvalitet vil beholdes, og kun der flere søk gir treff i samme eksterne kilde vil det utløses en advarsel.

Treff av tilstrekkelig kvalitet er resultat som har mer enn fem essensielle ord fra den opprinnelige frasen i en sekvens av treff fra den samme frasen, kun spredt med ekstra stoppord. Treff uten tilstrekkelig kvalitet vil ikke inngå i settene som sjekkes for multiple treff i samme eksterne kilde.

Interaksjoner[rediger | rediger kilde]

Det modifiserte grensesnittet består av tre informasjonsymboler som vises etter at en automatisk eller manuell kontroll er gjennomført. Informasjonsymbolene er klikkbare og vil åpne en liste over aktuelle kilder for den kontrollerte teksten.

Automatisk kontroll. Det betyr ikke at det er påvist noe opphavsrettsbrudd, kun at de initielle forutsetningene er tilstede og at motoren har initiert et automatisk søk. Søket starter automatisk kun når brukeren er patruljør eller administrator. En throbber går mens søket utføres.

Manuell kontroll. Denne vises når de initielle forutsetningene er tilstede, men forutsetningen for automatisk søk mangler. Brukere som ikke har rollen patruljør eller administrator må alltid utløse søket manuelt. En throbber går mens søket utføres.

Kontrollen har gitt treff som er lite korrelert med tekstfragmentene. Det betyr ikke at teksten ikke kan være kopiert, bare at det ikke ble påvist noen opplagt kilde. Ingen slike treff vil bli vist i trefflista, og den vil kun inneholde en forklaring.

Kontrollen har gitt treff på ett av tekstfragmentene i en kilde. Det betyr at deler av teksten kan være kopiert, men at det ikke er systematisk fra samme kilde for andre deler av teksten. Ett treff er også for lite til at det kan sies å være noe godt holdepunkt for en påstand om opphavsrettsbrudd.

Kontrollen har gitt flere treff på tekstfragmenter i en kilde. Det betyr at mye av teksten kan være kopiert fra denne kilden, og at teksten bør sjekkes da det kan være forhold ved teksten som fører til mange treff. Flere treff i forskjellige tekstfragmenter kan være et holdepunkt for å si at det er begått et opphavsrettsbrudd.

Aktivering av tjenesten[rediger | rediger kilde]

Tjenesten aktiveres via «Tilleggsfunksjoner» på Spesial:Innstillinger. Når den er aktivert vil det inkluderes en side med JavaScript-funksjoner på sider levert til brukeren. Disse vil på sider som inneholder differanser og godkjenningslenker generere ett eller flere søk for å påvise opphavsrettsbrudd, og hvis brukeren har tilstrekkelige rettigheter og bidraget ikke er godkjent så vil søket utføres automatisk.

Tilgjengelige søkemotorer[rediger | rediger kilde]

Søkemotoren som brukes må kunne tilby et API med gitte egenskaper, i tilstrekkelig omfang, i tillegg til at det må være lov å videreprosessere resultatet. Yahoo har en søketjeneste Yahoo! Search som tillater dette, og er den søkemotoren som er brukt i implementasjonen. Denne har ordinære websøk, og mangler dessverre både søk i digitaliserte bøker og norske nettaviser.

Begrensingen knyttet til søkemotorens API består i at søkemotoren må kunne levere kode eller data slik at nettleseren tillater aksess til de aktuelle dataene. Enkelte typer API kan bare brukes i enkelte typer nettlesere, eller under spesielle vilkår. Det er viktig å velge et API som er mest mulig åpent slik at alle nettlesere kan brukes.

Begrensingen knyttet til omfang av spørringer kommer av at leverandører av slike søketjenester ikke ønsker at vi skal overbelaste deres tjenester. Vi har tøyd dette noe i forhold til Yahoo! ved at vi bruker flere applikasjonsidenter for samme interne tjeneste hos oss.

Begrensingen knyttet til videreprosessering består i at resultatet som kommer fra tjenesten blir behandlet og det dette resultatet blir presentert for brukeren. Enkelte leverandører av søketjenester tillater ikke slik videreprosessering, og krever at resultatet vises as is, eller de kan ha krav om kreditering av søkene som er vanskelig eller umulig å oppfylle.

Sikkerhetsimplikasjoner[rediger | rediger kilde]

Script lastet fra eksterne domener kan ved å kjøre kode i nettleseren få tilgang til fullstendig liste over brukerbidrag, vedkommendes brukernavn og annen informasjon. Det er grunn til å tro at den valgte søkemotor kommer til å forholde seg restriktivt til dette, men muligheten finnes likefullt.

Sikkerhetsrisikoen knyttet til slike script er knyttet til hva rettigheter slike script kjører med, den såkalte sikkerhetsmodellen som brukes. Det er antatt at det vil bli lagd bedre sikkerhetsmodeller, men disse er foreløpig på forslagsstadiet.

Bugs[rediger | rediger kilde]

  • Filtrering av tekst brukt i søk mot annen tekst i artikkelen er ennå ikke implementert.
  • Det er en bug i forbindelse med vasking av resultater som gjør at det av og til fjernes for mye tekst.
  • Det bør brukes noen form for steaming for å fange opp mindre omskrivinger av ord.

Implementasjonsdetaljer[rediger | rediger kilde]

Se også[rediger | rediger kilde]