Wikipedia:Søkemotoroptimalisering

Fra Wikipedia, den frie encyklopedi

Søkemotoroptimalisering i konteksten til artikler på Wikipedia er hva en kan gjøre for å oppnå bedre ranking på søkemotorer. Søkemotoroptimalisering omfatter både akseptable og uakseptable teknikker, men i denne sammenhengen er vi kun interessert i akseptable teknikker inne på Wikipedia. I denne sammenheng er ikke søkemotormarkedsføring aktuelt, selv om dette ofte er nært knyttet til søkemotoroptimalisering.

Fordi Wikipedia er så stort, og ikke minst viktig for søkemotorene selv, så blir nettstedet prosessert på litt uvanlig vis. Det ser en blant annet ved at nye artikler dukker opp veldig fort. Normalt vil det ta uker og måneder før et nytt nettsted indekseres, og først etter at analyser viser at nettstedet har stor dynamikk vil søkemotorer vende tilbake oftere enn en gang i uka. På Wikipedia er det til tider vanskelig å oppdage om det er noen ventetid overhodet før en artikkel er indeksert.

I det etterfølgende gås det ikke inn på valg av navn på oppføringer, dette er dekket av Wikipedia:Navnekonvensjoner. Der står det at «Hovedregelen er at artikler skal ligge under navnet flest personer vil forvente at artikkelen ligger under.» Dette er et uhyre viktig prinsipp. Hvis artikkelen ikke finnes på dette navnet eller det tas grep for å hjelpe søkemotoren og leseren på rett vei så vil leserne ikke finne artikkelen og den vil stå ubrukt. Da hjelper det ikke med gode intensjoner.

Bakgrunn[rediger kilde]

Søkemotorer prosesserer nettsteder i flere trinn. Vanligvis blir det først påvist om en side er tilstede av en spider, deretter kommer det en ny robot som indekserer siden. Slike omtales ofte som programvareagenter. Først når denne prosessen er ferdig så blir siden vist frem på treffresultater. På bakgrunn av tidligere prosessering av både denne siden og sider på andre nettsteder så gis siden en ranking. Denne sier noe om hvor viktig siden er i relasjon til andre sider.

Det er flere mål for hvor viktig en side er. Det kan telles antall lenker inn til siden fra nettet, mange innkomne lenker er generelt en god ting. Slike mål kombineres ofte med tiltro til nettstedene som lenker, og det kan også beregnes sannsynligheter for hvor mange lenker som forventes å komme inn til et gitt nettsted. Teksten kan også analyseres, vanlige teknikker går på term frequency (hvor ofte et ord eller en frase forekommer) og inverse document frequency (hvor ofte et ord eller en frase forekommer på en gitt måte i et dokument). Analyseresultater justeres ofte ved hjelp av en Bayes estimator og omregnes også til mål på informasjonsentrofi. Dette har ledet frem til tf-idf og andre sammensatte mål. En nyere teknikk er å bruke antall «likes», hvor mange brukere liker siden, ofte kombinert med en tiltro til brukeren.

Søkemotorer kan bruke flere hundre (noen sier flere tusen) slike regler for hvordan bestemte sider skal rankes opp eller ned. Når de gjør små justeringer i algoritmene så kan det få store konsekvenser for de enkelte nettstedene, og utløse mye diskusjon på åpne fora på nettet.

Tittelen[rediger kilde]

Det er noen viktige ting å huske på om en artikkel skal ranke godt. Noen av disse forholdene kommer vanligvis på plass av seg selv, mens andre må en passe på.

En artikkel på Wikipedia har en tittel og den har omdirigeringer. Omdirigeringer hjelper leseren å finne artikler inne på Wikipedia, men betyr lite for søkemotorer. Skal en omdirigering bety noe for dem så må de følge en lenke fra et eksternt nettsted. For søkemotorer ser slike omdirigeringer ut som temporære flyttinger. I disse tilfellene vil frasen som lenkes opp bli assosiert med innholdet i artikkelen. Hvis frasen kan gjenfinnes i artikkelen så er det sannsynligvis noe som er lurt å beholde som et mulig hint for søkemotoren. Noen av de vil ta vare på slike eksterne hint, andre bruker bare lenkingen, og atter andre forkaster informasjonen i samme øyeblikk som de finner at siden er flyttet.

En artikkel har en innkommende lenke og i denne lenken er det et url-enkodet tittel. Denne siden har lenka «http://no.wikipedia.org/wiki/Wikipedia:S%C3%B8kemotoroptimalisering», det vil si at bokstaven ø er kodet om. Søkemotorer vil forsøke å analysere denne lenka, rulle tilbake til de opprinnelige bokstavene, og vil da finne dette tekstfragmentet. For denne siden vil resultatet bli «http://no.wikipedia.org/wiki/Wikipedia:Søkemotoroptimalisering». Vanligvis skjer det noe mer oppbryting av lenka og søkemotoren blir stående med noe ala «no», «wikipedia», «wiki», og «wikipedia søkemotoroptimalisering».

Når teksten i artikkelen analyseres så vil den samme teksten bli gjenfunnet i det som kalles «h1-elementet». Dette er den store tittelen øverst på siden. I vårt tilfelle så er denne «Wikipedia:Søkemotoroptimalisering» som etter at spesialtegn kastes blir til «wikipedia søkemotoroptimalisering», som er det samme som ene elementet i url'en. Denne sammenhengen forteller søkemotoren at dette tekstfragmentet er viktig, det er artikkelens tittel.

Samtidig vil den også finne at samme tekstfragment finnes i det som er «title-elementet», et spesielt element som hører til dokumentets hode. Det er dette tekstelementet som brukes som tittel på vinduet til nettleseren. I vårt tilfelle er den «Wikipedia:Søkemotoroptimalisering - Wikipedia», og når denne brytes opp så finner søkemotoren «wikipedia søkemotoroptimalisering» og «wikipedia».

Når søkemotoren analyserer dette så finner den at den har støtt på frasen «wikipedia søkemotoroptimalisering» tre ganger, den har funnet «wikipedia» to ganger, og henholdsvis «no» og «wiki» en gang hver. Helt klart må frasen «wikipedia søkemotoroptimalisering» være viktig. Så langt har søkemotoren funnet tre elementer som alle forteller den det samme, hva som er et helt sentral begrep i artikkelen.

Brødteksten[rediger kilde]

Så langt har vi sikret at søkemotorer klarer å finne ut hva som er artikkelens sentrale begrep, det vi oppfatter som dens tittel. Det neste er å fortelle søkemotoren hva som er viktige variasjoner. Når noe står tidlig i artikkelen så er det viktig. Når noe er i fet eller kursiv skrift så er det viktig. Egentlig er det flere typer elementer som kan brukes for å fortelle at «noe skiller seg ut», men vi vil vanligvis si slikt ved å merke teksten enten som fet eller kursiv. Vi kan også bruke det som kalles «h2-elementer», og andre slike, men disse brukes hos oss til å markere overskrifter i seksjoner og er dermed ikke så godt egnet.

Når vi skriver artikkelens tittel i innledningen til første avsnitt så gir vi søkemotoren et ekstra spark og sier hey, fikk du med deg denne? For eksempel så står teksten «Knut Hamsun» i fet skrift først i artikkelen om Knut Hamsun. Søkemotoren vil da konkludere med at noen har funnet det verdt arbeidet å uthevve denne frasen, altså må den være viktig. I tillegg er det den samme som søkemotoren allerede har funnet fra URL, H1 og title-elementet, så den må være viktig.


I noen tilfeller oppgir vi en litt avvikende frase. Da blir søkemotoren litt mer usikker og gir ikke full uttelling. Dette skjer for eksempel på artikkelen om Edvard Grieg, der er hans fulle navn oppgitt som «Edvard Hagerup Grieg». den har ikke en fullstendig treff, men den har noe som ligner veldig mye. Slik kan vi fortsette med å gi variasjoner i parentes, også disse i fet eller kursiv. På dette viset sier vi at disse ordene og frasene er også viktige. Når disse ordene og frasene er formlike med tittelen så oppfattes de som viktige, men også fordi de kommer tidlig i teksten er de viktige.

Disse innledende frasene teller mer jo likere de er tittelen, men likhet her er gjerne litt annerledes enn det en er vant med. Desto flere bokstaver som er like desto bedre, men noen bokstaver betyr mer enn andre. På norsk legger vi til suffiks når vi bøyer ord, og søkemotorene vet hva som er viktige former og hva som er mindre viktig. Hvis en tittel er «bil» og vi har «biler» i fet tekst så kan søkemotoren finne ut av det. Om vi skriver «bobil» i fet tekst så er det derimot ikke særlig sannsynlig at søkemotoren vil kople dette med tittelen for dette forutsetter en uvanlig prefiksregel. Det er en underliggende assosiasjon der, men å finne ut av den krever en tyngre analysejobb. Den her typen statistiske assosiasjoner blir også brukt av søkemotorer, men i denne sammenhengen er de ikke så viktige.

I disse frasene forekommer det også ord som ikke er så viktige. Disse kalles gjerne stoppord. Når søkemotoren støter på disse så vet den at dette er ord som for den er lite meningsbærende. Den kaster derfor disse ordene. Det gjør at titler som «Mo (Rana)» blir oppfattet som nokså lik en lead in (det vil si en innledende fet tekst) på formen «Mo i Rana», småordet «i» er rett og slett et stoppord som forkastes og parenteser er spesialtegn som ikke er meningsbærende for søkemotoren. Det den ender med er at tittelen fra den initielle analysen blir «mo rana» og den er lik lead in som også er «mo rana». Søkemotoren har fått en fullstendig treff.

Skal søkemotoren konkludere med at tittelen er noe mer enn en konstruert frase så trenger den minst en gjentakelse i teksten. Desto flere ganger begrepet brukes i brødteksten desto bedre, dette øker frasens term frequency, men dette begrenser seg av hva som gir en naturlig flyt i teksten. Mange artikler på Wikipedia er skrevet med en tittel som har med en parentes på grunn av disambiguering, deretter har den en lead in som bruker en annen frase, og i resten av teksten vendes det aldri tilbake til noen av frasene. Dette gir ikke søkemotorene noe godt grunnlag for å beregne sidens ranking.

Internlenking[rediger kilde]

Inne på Wikipedia har vi internlenking mellom artikler. Dette gjør at brukere finner frem i artikkelmassen, men samtidig hjelper det søkemotorer til å beregne inverse document frequency for artikler internt på nettstedet. Når vi skriver en artikkel så har denne en tittel og denne vil søkemotorene sjekke mot andre artikler hvor den forekommer. Hvis den ofte brukes, men uten at den lenkes, så vil søkemotoren konkludere med at begrepet er mindre viktig. Hvis begrepet lenkes svært ofte når det forekommer så er det viktig.

Dette får som konsekvens at foreldreløse artikler blir oppfattet som uvesentlige. Det finnes noen oversikter som lenker opp slike, men når de gis en form og plassering som ikke indekseres så hjelper det lite. Samtidig er det uheldig at de tar opp plassen til mer relevant lenking, vi mangler kort og greit gode verktøy for å påvise hva som er fornuftig lenking. Ikke vær fornøyd om en artikkel har en enkelt innkommende lenke, søk på tittelen og sjekk om det er et adekvat antall innkommende lenker. Innkommende lenker sjekker du enklest via «lenker hit» i venstremargen.

Fordi søkemotorer lett blir forvirret av omdirigeringer så er det lurt å ha minst en lenking som går direkte til riktig tittel. Bruk pipe-formen av lenking hvis du trenger å skrive om lenken til et annet navn. Selv om du setter opp omdirigering på «Vang på Hedmarken» så sjekk at det er minst ett sted hvor en lenke peker rett på «Vang (Hamar)», ikke bruk omdirigering for alle innkomne lenker til artikkelen.

En lur måte å strukturere slikt er å lage en mal for lignende sidestilte artikler som bruker artikkelens fulle form, for eksempel at malen for kommuner lenker via formen «navn (område)» hvis det er der artiklene ligger, og så lage en samleliste for viktige alternative navn eller lage kategoriserte omdirigeringer. De to siste alternativene sikrer at omdirigeringene ikke blir slettet som ubrukte. For eksempel er vangsgjelding en kategorisert omdirigering til Vang (Oppland). I dette tilfellet har omdirigeringen Vang i Valdres den høye verdien på inverse document frequency, mens den uvanlige formen er brukt på oppføringen.

For søkemotorer er artikkelens innledning det viktige, men de vet også at en del materiale er uvesentlig. Artikkelen strippes for alt overflødig slik at kun den essensielle teksten blir igjen. Samtidig har utviklerne av Mediawiki-motoren hjulpet til og mye materiale som kun er navigasjon og annet ligger sist i dokumentet. Faktisk er det ryddet så mye i de siste utgavene at i Vektor-drakta vil h1-elementet være den første teksten søkemotoren finner. I vårt tilfelle er tekststrengen «Wikipedia:Søkemotoroptimalisering». deretter følger «Fra Wikipedia, den frie encyklopedi» og et lite navigasjonsfragment som vanligvis ikke vises. Deretter kommer brødteksten.

Dette er vel verd en liten titt, for det er gått mye arbeid i å få det så effektivt. Etter at alle har lagt mye tid og arbeid i å optimalisere dokumentet blir det så fylt med maler øverst i teksten. Dette er ikke bra, men mye av dette kommer vi ikke unna.

Fordi tekst skal flyte rundt infobokser og bilder må de plasseres først i teksten. Da hjelper det oss at en del av materialet er slikt som søkemotorene ikke indekserer, det blir hivd i prosessen. Generelt koster det veldig lite å ha bilder tidlig, de indekseres ikke utover billedteksten. Infobokser derimot indekseres. Hvis disse er satt opp fornuftig og har tilstrekkelig lite tekst så vil søkemotorene konkludere med at dette ikke tilhører den løpende teksten, eller enda bedre, at den har tekst som kan forkastes som uinteressant.

Her er det et potensielt problem om infoboksen inneholder mye tekst, da blir søkemotoren forvirret og kan tro den har funnet artikkelens brødtekst. Hva som utløser noe slikt, og hvordan en skal unngå det er litt uklart. Noe dokumentasjon om søkemotorer viser til at en skal ha gyldig kode og bruke den semantisk riktig. Det kan indikere at de bruker hint fra kodingen for å påvise hva som er viktig tekst. Kanskje brukes forholdet mellom tekstanslag og html-tagger som indikasjon på hva som er brødtekst og hva som er annet. Samtidig er det klart at søkemotorer vil forsøke å analysere sider fra et nettsted for å se om det finnes tekst som skal forkastes. Hvis en standardtekst forekommer ofte så vil den identifiseres som uvesentlig.

Det kan virke som om det er lurt å ha artikkelens tittel tidlig i infoboksen, dette er nok med på å forsterke søkemotorens oppfatning av hva som er riktig tittel. Det kan også virke som om et bilde i infoboksen gjør at søkemotoren lettere forkaster boksen som reell brødtekst. Samtidig kan det virke som enkelte typer merking av tekst gjør at søkemotoren oppfatter infoboksen som indekserbart materiale. Til sammen gjør det at mesteparten av infobokser er nokså trygt å bruke, men det er vanskelig å finne ut når noe feiler.

Når det gjelder merkemaler så er det et større problem enn infobokser. Når den kun inneholder standardtekst så blir den sannsynligvis neglisjert, men om den inneholder mye variabel tekst så kan den tas med. Da dyttes den ønskede teksten ned og blir ranket som mindre viktig.

Det er summen av alle maler som er problemet, ikke en eller to maler i isolasjon. Samtidig er det teksten i den genererte html-koden som skaper problemet, ikke wikikoden når en åpner siden for redigering.

Komplekse sider[rediger kilde]

Noen sider på Wikipedia har komplekst utlegg. Spesielt sider i portal-rommet utmerker seg i så måte. Typiske gjengangere er at deler av materialet byttes ut og noe er statisk. Skal søkemotorer finne sidene så må det statiske materialet komme tidlig i den genererte siden. Tabeller for utlegget på slike sider er ikke hensiktsmessig for det tvinger mye materiale opp mot toppen i den genererte siden. Kommer variabelt innhold i tillegg før det faste så vil søkemotorer konkludere med at det er ustabile forsider og forkaste dem.

Disse sidene har også svært mye navigasjon, dermed er det sannsynlig at søkemotorer har vanskelig for å finne de tekstfragmentene som er vesentlige inne på siden. Når den vesentlige teksten i tillegg er nokså liten så forsterkes problemet ytterligere.

Samtidig er det lite lenking til en del av disse sidene. Det gjør at de ranker enda dårligere enn innholdet alene skulle indikere. Resultatet er at trafikk på enkelte av sidene blir så liten at de blir utkonkurrert av andre artikler i hovedrommet, selv om de er meget aktuelle som navigasjonssider.