Diskusjon:Frekvensanalyse (kryptografi)

Fra Wikipedia, den frie encyklopedi
Hopp til navigering Hopp til søk

Jeg lurer på hva kilden til statestikken for frekvensanalysen her er... Har utviklet et program sammen med en kammerat, og gjort min egen statestikk, som skal være ganske nøyaktig, til en oppgave jeg skrev, og den avviker noe fra denne tabellen. Dette usignerte innlegget ble skrevet av Luringen (diskusjon · bidrag) (Husk å signere dine innlegg!)

Jeg aner ikke hvor denne er hentet fra, men det er mange kilder til avvik i slike opptellinger. Moderat bokmål vil gi et annet forhold a/e enn radikalt bokmål, fordi både verb- og substantivendelser byttes ut; slik kan være nok til å flytte forholdet ganske mye. Det er også et spørsmål om tekstmengde og hva slags tekst man teller opp. Det bør være en betydelig tekstmengde før man får et reellt svar. Opptellinger som gir grunnlag for frekvens i engelsk og fransk ligger gjerne på minst 500 000 (noe slikt som 1,5 til 2 millioner tegn), og den største av de engelske opptellingene, av en:British National Corpus, har 90–100 millioner ord. Cnyborg 12. okt 2007 kl. 23:29 (CEST)

Har lagt inn en link til http://home.no.net/fenja256/ultraanvil/. Det er et 100% gratis program og er ikke reklame. Her kan man frekvensanalysere tekst, men også bytte ut tekst. Dette usignerte innlegget ble skrevet av 195.0.205.196 (diskusjon · bidrag) (Husk å signere dine innlegg!)

Jeg fjernet lenken til programmet; det er ikke i stand til å utføre frekvensanalyse. Det foretar en opptelling, og det er en avansert søk/erstatt-funksjon, men selve analysen må foretas manuelt. Det som mangler for at programmet skal kunne foreta analysen er mulighet til å bytte ut ethvert tegn i teksten (i kodingen er det ingenting i veien for å bruke f.eks. § eller & for en bokstav), standardfrekvens i aktuelle språk, frekvens for hyppigst forekommende sammensetninger (som -en og -ene i slutten av ord på norsk, th- på engelsk osv.) og ordliste over de hyppigst forekommende ord i aktuelle språk slik at den kan kontrollere om utskiftninger er sannsynlige eller ikke. Jeg fjernet ikke lenken av vond vilje, men fordi den bidrar til å bygge opp under den hyppige misforståelse at frekvensanalyse er det å telle opp hvor ofte tegn forekommer, ettersom programmet ikke foreslår noen bytting av tegn. Cnyborg 12. okt 2007 kl. 23:29 (CEST)

Jeg får ikke %'ene til å summere til 100% - det virker jo litt odde...80.212.44.192 19. sep 2008 kl. 19:48 (CEST)


Alternativ tabell[rediger kilde]

Jeg har funnet en kilde på bokstavfrekvenser: http://www.x-ord.no/bfs.htm Disse tallene skiller seg en del fra de som finnes i artikkelen nå. I tillegg synes jeg det er mer oversiktelig med en sorterbar tabell slik som i den engelskspråklige artikkelen (http://en.wikipedia.org/wiki/Letter_frequencies).

Nettsiden der jeg fant tabellen oppgir «Laurits Killingbergtrø» som kilde og sier følgende om datagrunnlaget: «I dette tilfellet er tekstmassen skaffet fra Humanistisk datasenter (Norsk Tekstarkiv) i Bergen. Den tekstmengden som er benyttet, inneholder noe over 800 000 ord fra bokmålsaviser.»

I tillegg er det etter min mening best å unngå en tabell som sier at bokstavene x,y og z utgjør 0,0% av det norske språk. Det er svært unøyaktig, og kan være villedende, da det kan tolkes til å bety at disse bokstavene ikke eksisterer i det norske språk.

Bokstav Frekvens
a 6,1%
b 1,5%
c 0,2%
d 4,3%
e 15,2%
f 2,0%
g 3,8%
h 1,6%
i 6,2%
j 1,0%
k 3,8%
l 5,4%
m 3,3%
n 8,1%
o 4,9%
p 1,9%
q 0,004%
r 8,6%
s 6,7%
t 7,9%
u 1,6%
v 2,5%
w 0,1%
x 0,03%
y 0,7%
z 0,03%
æ 0,2%
ø 0,9%
å 1,5%

193.216.59.81 26. sep 2008 kl. 15:43 (CEST)

@193.216.59.81: Kjempeflott med den sorterbare tabellen, men det er noe som fungerer dårlig med tabellen i artikkelen når det mangler hundrededeler. Hvorfor sorteres f.eks. 3,83% foran 3,90% og 2,06% foran 2,40%? --2A02:587:C436:5DF8:21C1:4AC0:37AE:7C93 1. feb. 2021 kl. 20:22 (CET)
Denne feilen ligger et annet sted enn i artikkelen, antakeligvis i implementasjonen av sorterbar tabell. BFG (diskusjon) 1. feb. 2021 kl. 20:56 (CET)
Ja, data i tabellen virker korrekt. Fant ikke noe om denne type feil på en:Help:Sorting. --2A02:587:C436:5DF8:C1DC:3544:D053:DB7F 1. feb. 2021 kl. 21:03 (CET)
Jeg fjernet bruken av malen {{st}}, da ser det ut til å fungere korrekt. - 4ing (diskusjon) 1. feb. 2021 kl. 22:44 (CET)