Den syntetiske stemmen Brage

Den norske syntetiske stemmen Brage er en av tre stemmer til tekst-til-tale (TTS) systemet Filibuster. Filibuster er utviklet av det svenske Talboks- og punktskriftsbiblioteket (TPB). Bokmålsstemmen Brage er utviklet av Norsk lyd- og blindeskriftbibliotek (NLB) i samarbeid med TPB. Uttaleleksikonet bygger på den norske Språkbanken. Talesyntesen Brage har vært i bruk siden september 2009.

Bakgrunn

Filibuster ble utviklet for å produsere digitale lydbøker med syntetisk tale for studenter med lesevansker i Sverige. NLB har ansvar for studielitteratur til studenter med syns- og lesevansker i Norge, samt allmenn litteratur til alle som har vansker med å lese trykt tekst. Bruk av talesyntese har tidsmessige og økonomiske fordeler. Én time innlest lyd tilsvarer gjennomsnittlig to timer arbeidstid, mens Filibuster kan prosessere mange timer lyd i løpet av én time, avhengig av serverkapasitet. Talesyntese egner seg godt til hasteproduksjoner, og gjør det mulig å utvide produksjonskapasiteten. NLB har tidligere benyttet kommersielt tilgjengelige talesynteser, men ønsket en velutviklet tekstprosessor som biblioteket selv kan modifisere, og et større og utvidbart uttaleleksikon.

Filibustersystemet

Filibuster er en serverbasert datadrevet bølgeformsyntese, utviklet av datalingvist Christina Tånnander og taleteknolog Kåre Sjölander ved TPB . Filibustersystemet er basert på enhetsseleksjon, en av flere konkatenative teknologier. Filibuster genererer automatisk tale gjennom seleksjon og konkatenering av lydsegmenter. Disse lydsegmentene hentes fra en omfattende lyddatabase med innspilte setninger. Filibuster er skrevet i åpen kildekode.

Uttaleleksikon

Uttaleleksikonet til den norske talesyntesen består av ca. 780 000 oppslagsord på bokmål hentet fra den norske Språkbanken, komplettert med 16 000 oppslagsord hentet fra det svenske systemet, samt om lag 50 000 egennavn fra HLT Resource Collection og det svenske systemet (pr 1. januar 2010). Transkribering er tilpasset norsk SAMPA. Det benyttes 15 xenofoner.

Stemmedatabase

Stemmedatabasen består av 15 604 innspilte setninger. Innspillingen er foretatt av en menneskelig innleser i NLBs lydstudioer. Innspillingsmanuskriptet bygger på et tekstkorpus tilsvarende produksjonsområdet til NLB. Ut fra et utvalg tekster ble det ekstrahert statistikk over fonemkombinasjoner for å sikre et minimum av setningskomposisjoner og ord.

Tekstprosessor

Den eksisterende svenske tekstprosessoren ble tilpasset norsk bokmåls uttale. Det er implementert en språkdetektor i filibustersystemet. Denne sondrer mellom hovedspråket og engelsk ved å søke opp mot ordforekomster i alle leksikon, og foreslår språkoppmerking, avhengig av hvilke språkoppmerking ord som står før og etter det aktuelle ordet, har. Utdata fra tekstprosessoren sendes gjennom tekst-til-tale-motoren i SSML-format.

Benyttelse

Talesyntesen Brage blir benyttet til produksjon av digitale lydbøker internt i NLB, men det er også utviklet en nettapplikasjon som tillater læresteder å produsere tekster selv ved hjelp av talesyntese. Nettapplikasjonen kalles PipeOnline, og er et grensesnitt for produksjon av tekster i DAISY-format med talesyntesen Brage. PipeOnline er utviklet av det internasjonale DAISY Consortium (DC) og bygger på kjernefunksjonaliteten i DAISY Pipeline, utviklet av svenske TPB.

Autoritetsdata