Talesyntese

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Talesyntese, syntetisk tale eller kunstig tale er et tekst til tale system. Tekst som vises på en dataskjerm kan ved hjelp av et skjermleserprogram og en enhet for syntetisk tale bli opplest med en kunstig stemme. Det finnes eldre systemer som gjør dette helt syntetisk mens nyere systemer bruker lyder generert av en naturlig menneskelig stemme.

Ulike metoder for talesyntese[rediger | rediger kilde]

Talesynteseprogram har lenge brukt den såkalte difonmodellen, i de siste årene har man også brukt Hidden Markov Models, eller HMM. Tidligere anvendte man en fullstendig syntetisk tale, der fonemene (lydenhetene) var produsert med å kombinere formantane for hver lyd. Problemet med den syntetiske innfallsvinkelen er at resultatet blir syntetisk, en stemme med «robotklang». De fonetiske egenskapene til menneskelig tale er langt mer komplisert, og består ikke bare av de kjente fonemene. I difonbaserte systemer tas med overgangene mellom de enkelte fonemene. Disse stemmene høres mye mer naturlig ut enn kun fonembaserte systemer.

Det motsette av talesyntese er talegjenkjenning, et dataprogram som er i stand til å overføre tale til tekst.

Applikasjoner[rediger | rediger kilde]

Per dags dato finnes det mange ulike norske talesynteser, både kvinne- og mannsstemmer. I begynnelsen av 2012 kommer den første barnestemmen på markedet [1].

Norske syntetiske stemmer[rediger | rediger kilde]

  • Acapela Bente[2]
  • Acapela Kari[3]
  • Acapela Olav[4]
  • LingSpeak Arne[5]
  • Lingit Isak (SAPI-kompatibel, bokmål/nynorsk)[6]
  • Lingit Inger (SAPI-kompatibel, bokmål/nynorsk)[7]
  • NLB Brage[8]
  • Nuance Nora[9]
  • Nuance Henrik[10]
  • eSpeak (under arbeid)[11]

MediaLT har en test av norske talesynteser med lydeksempler.[12]

MS Windows[rediger | rediger kilde]

I MS Windows brukes vanligvis SAPI baserte stemmer. SAPI (Speech Application Programming Interface) er et standardisert talegrensesnitt mellom f.eks. syntetisk taleenhet og en applikasjon som støtter taleteknologi. På denne måten kan man bruke en syntetisk stemme til ulike Windows applikasjoner framfor å kjøpe et system til hver applikasjon.

Mac OS[rediger | rediger kilde]

Mac OS har også innebygd talesyntese som standard. Applikasjonene kan benytte seg av denne tilgjenglighetsfunksjonen.

iOS[rediger | rediger kilde]

iOS støtter også talesyntese ved hjelp av den innebygde skjermleseren "VoiceOver". Denne funksjonen finner man under innstillinger - generelt - tilgjengelighet. På denne måten kan også en synshemmede person bruke de fleste funksjonene i iPhone og iPad.

Referanser[rediger | rediger kilde]

  1. ^ Prosjekt "Barnestemme", MediaLT [1]
  2. ^ Acapela Bente [2]
  3. ^ Acapela Kari [3]
  4. ^ Acapela Olav [4]
  5. ^ LingSpeak Arne [5]
  6. ^ Lingit Isak [6]
  7. ^ Lingit Inger [7]
  8. ^ NLB Brage [8]
  9. ^ Nuance Nora [9]
  10. ^ Nuance Henrik [10]
  11. ^ eSpeak [11]
  12. ^ MediaLT: test av norske talesynteser med lydeksempler [12]