Apertium

Frå Wikipedia – det frie oppslagsverket
Apertium


UtgjevarGoogle Play
Nyaste versjon3.8.3 (1. november 2022)[1]
Skrevet iC++, Java
Typeregel-baseret maskinomsetjing
LisensGPLv2
Nettstadhttps://www.apertium.org

Apertium er eit maskinomsetjingssystem som blir utvikla med støtte frå mellom anna den spanske regjeringa, Kulturdepartementet i Noreg,[2][3] regjeringa i Catalonia, og universitetet i Alicante, i tillegg til bidrag frå private aktørar, ymse universitet, studentar og frivillige entusiastar. Det er fri programvare, publisert under GNU GPL.

Historie[endre | endre wikiteksten]

Apertium starta som eit av maskinomsetjingssystema i prosjektet OpenTrad og var opphavleg laga for å omsetja mellom nærskylde språk, men det har seinare vorte utvida til å handsama språk med større skilnader, som t.d. baskiskspansk, nordsamiskbokmål og kasakhiskengelsk.

Sidan 2009 til no (2020) har det vore med i Google Summer of Code og Google Code-In kvart år og dermed fått bidrag frå mange studentar.

Wikipedia har sidan 2014 brukt Apertium til innhaldsomsetjing[4] og har bidratt til utvikling av meir språkdata.

Metode[endre | endre wikiteksten]

Systemet er modulært, og for å leggja til eit nytt språkpar er det nok å leggja til språklege data (omsetjingsordbok, reglar) i veldefinerte format (hovudsakleg XML-baserte). Modulane er definerte som Unix-kommandoar, som kommuniserer gjennom logiske røyrpipes»).

Maskinomsetjinga i Apertium er regelbasert, med overføring av grammatisk struktur. Det finst reglar for analyse, generering og annotasjon av morfologi og syntaks. Overføring av struktur kan skje med overflatisk «chunking» eller rekursive reglar basert på kontekstfri grammatikk, men det er ingen gjennomgripande djup semantisk analyse. Det er ingen interlingva involvert, så nye omsetjingsretningar/språkpar krev ei omsetjingsordbok mellom kvart språkpar (ikkje berre mellom det nye språket og eit generelt mellomspråk). Der det finst ordbøker mellom språk A og B og B og C, finst verktøy[5] som genererer ei ordbok frå A til C. I tillegg må sjølvsagt kvart språk ha sine einspråklege ressursar (ordbøker, reglar, statistikk).

Apertium nyttar endelege tilstandsautomatar for analyse/ordklassetagging (kor ordformer blir markert med kanskje fleirtydige oppslagsformer og ordklassar), generering (ordklassetagging «baklengs»), omsetjing av analyserte enkeltord og leksikalsk seleksjon (dvs. tydingsdisambiguering for tydingsskilnader som er viktige for omsetjinga). Ein skjult Markov-modell blir nytta for disambiguering av ordklasser, men mange språk nyttar i tillegg føringsgrammatikk for regelbasert ordklassedisambiguering.

Språkstøtte[endre | endre wikiteksten]

Mellom dei språka som har publiserte språkpar i Apertium finn me nynorskbokmål, islandsk-svensk-dansk, dei romanske språka i Spania, kastillansk, katalansk, aragonsk og galisisk; engelsk, portugisisk, fransk, oksitansk, italiensk, indonesisk-malayisk, esperanto, bretonsk, walisisk, serbo-kroatiskmakedonskbulgarsk, kasakhisk-tatarsk, rumensk.[6]

Maskinomsetjing av norske språk[endre | endre wikiteksten]

Innanfor Apertium-ramma er det sett i gang arbeid med maskinomsetjing mellom nynorsk og bokmål, apertium-nno-nob,[7] nyaste publiserte utgåve kan testast på heimesida deira. I tillegg er Giellatekno ved Universitetet i Tromsø involvert i maskinomsetjing mellom samiske språk og mellom anna norsk. Ein omsetjar frå nordsamisk til bokmål er allereie publisert.

Brukargrensesnitt[endre | endre wikiteksten]

apertium-tolk 0.2, fransk til spansk.

Sidan omsetjingspar i Apertium er definerte som Unix-røyr, kan ein enkelt omsetja til dømes fil.txt frå bokmål til nynorsk i ein terminal ved å skriva apertium nob-nno < fil.txt, men det finst meir grafiske brukargrensesnitt som er meint for vanlege brukarar. Fleire nettstader har Apertium installert, t.d. heimesida apertium.org og sida til Giellatekno ved UiT, jorgal.uit.no. For GNU/Linux og Mac OS X finst programmet apertium-tolk som omset medan du tastar, i tillegg til program som er spesifikt meint for omsetjing av undertekster til film og TV-seriar. Ein del tredjepartsprogram meint for omsetjarar (til dømes OmegaT, pology og Virtaal) kan bruka apertium til å gi omsetjingsforslag. For Android-baserte einingar finst ein app som kan omsetja utan nettilgang (men berre for dei språkpara som berre brukar modular som er porterte til Java).

Kjelder[endre | endre wikiteksten]

  1. «Release 3.8.3 Latest». 1. november 2022. Henta 2. mars 2023. 
  2. «Millionar til nynorskrobot og fleire språktiltak», LNK-nytt, 7. oktober 2020, henta 8. mars 2021 
  3. Kulturdepartementet (7. oktober 2020), «11,5 millionar meir til språk i 2021», Regjeringa.no, henta 8. mars 2021 
  4. Bhattacharjee, Runa (4. november 2014), «Announcing the second version of the Content Translation tool», Diff (på engelsk), henta 8. mars 2021 
  5. Apertium Crossdics gjer omsetjingsordbøker transitive.
  6. Oppdatert liste over publiserte språkpar i Apertium
  7. Norske språkpar i Apertium

Bakgrunnsstoff[endre | endre wikiteksten]

Litteratur

  • Corbí-Bellot, M. et al. (2005) «An open-source shallow-transfer machine translation engine for the romance languages of Spain» i Proceedings of the European Association for Machine Translation, 10th Annual Conference, Budapest 2005, s. 79-86
  • Armentano-Oller, C. et al. (2006) «Open-source Portuguese-Spanish machine translation» i Lecture Notes in Computer Science 3960 [Computational Processing of the Portuguese Language, Proceedings of the 7th International Workshop on Computational Processing of Written and Spoken Portuguese, PROPOR 2006], s. 50-59.
  • Unhammer, K.B. og Trosterud, T. (2009) «Reuse of Free Resources in Machine Translation between Nynorsk and Bokmål» i Proceedings of the First International Workshop on Free/Open-Source Rule-Based Machine Translation, s. 35–42