Talegjenkjenning

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Talegjenkjenning (engelsk: Speech Recognition) kalles prosessen å gjenkjenne menneskelig tale av en maskin. Denne teknologien gjør det mulig å styre en maskin ved hjelp av tale. Gjenkjenningen skjer vanligvis ved hjelp av et dataprogram som igjen styrer andre programmer eller utstyr koblet til datamaskinen. Mennesker med fysiske funksjonsnedsettelser, som ikke kan styre en datamaskin ved hjelp av tastatur og mus, kan ha spesiell utbytte av talegjenkjenning.

Begreper[rediger | rediger kilde]

Talegjenkjenning er en gren innen taleteknologi som gjør det mulig at mennesket kan snakke direkte til en maskin. Maskinen kan snakke til mennesket ved hjelp av talesyntese, det vil si kunstig tale. For å kunne diktere fri tekst til en datamaskin kreves det et såkalt dikteringssystem (tale til tekst). Det finnes dikteringssystemer for en del språk men foreløpig ikke for norsk, fordi det ennå ikke finnes en komplett språkbank. Systemer som klarer seg med et begrenset ordforråd finnes allerede. Talegjenkjenning må ikke forveksles med stemmegjenkjenning som er en biometrisk prosess for å kunne identifisere et menneske ved hjelp av sin stemme.

Historisk utvikling[rediger | rediger kilde]

Forskningen innen talegjenkjenningssystemer begynte på 1960 tallet, men med lite suksess. Private aktører klarte å lage systemer som kunne gjenkjenne noen titalls enkeltord under testbetingelser. Det manglet både kunnskap i dette nye forskningsfeltet, men også de tekniske mulighetene var begrenset.

Først på midten av 1980 tallet ble dette utviklet videre. På denne tiden oppdaget man at det var mulig å skille mellom homofoner gjennom konteksttesting. Dette gjøres gjennom statistisk undersøkelse av hyppigheten i ordkombinasjoner. På denne måten kan man avgjøre hvilket ord som er mest sannsynlig når man har likelydende ord eller ord som likner hverandre lydmessig. Denne såkalte trigramstatistikken ble i ettertiden en viktig del av talegjenkjenningssystemer.

I 1984 presenterte IBM det første talegjenkjenningssystem som kunne gjenkjenne circa 5.000 engelske enkeltord. Systemet brukte flere minutter på denne prosessen på en stordatamaskin. Kort tid etter kom Dragon Systems med et system som fungerte på en bærbar PC.

I slutten av 1993 presenterte IBM det første systemet til forbrukermarkedet: IBM Personal Dictation System fungerte på en vanlig PC til en pris på under 1000 Dollar. Systemet ble presentert på CeBIT 1994, og ble tatt imot med stor interesse av besøkende og fagpressen.

I 1994 var Kurzweil først ute med et system som kunne bearbeide flytende diktering. (I tidligere systemer måtte man adskille ord fra hverandre.)

I 1997 kom både IBM ViaVoice (etterfølgeren av VoiceType), og versjon 1.0 til programvaren Dragon NaturallySpeaking for Windows-platformen platformen, som også kunne bearbeide flytende diktering. Den største begrensningen i ytelsen på denne tiden var begrensningene i PC-en som prosessorhastighet og størrelsen av minnen.

I 2004 ble deler av IBM talegjenkjenneren frigitt som “åpen kildekode”. De som kjenner bransjen har antatt at dette ble gjort av taktiske grunner ovenfor Microsoft, som ønsket å legge talegjenkjenning inn i operativsystemet Windows Vista og nyere versjoner.

Mens utviklingen til ViaVoice ble stoppet, ble Dragon Naturally Speaking (DNS) utviklet av det amerikanske firma Nuance Communications, til den mest utbredte, personuavhengige tredjeparts talegjenkjenningsprogramvaren for Windows. Dragon Naturally Speaking fra Nuance er i dag den ledende programvaren for talegjenkjenning, og finnes som hyllevare. Engelsktalende har kunnet nyttiggjøre seg denne programvaren i over 15 år, og til nå er DNS tilgjengelig på ni språk.

I 2008 kjøpte Nuance opp Philips Speech Recognition Systems, Wien, samt Software Development Kit (SDK) SpeechMagic, som er mest utbredt i helsevesenet. I Norge er det Max Manus as som benytter seg av denne teknologien, som er i bruk innen helsevesenet.

iMac-datamaskiner fra Apple finnes det tredjepartsprogramvaren fra MacSpeech med navnet ”iListen” siden 2006. Denne programvaren bygger også på Philips-komponenter. I 2008 ble kjernekomponenten byttet ut mot Dragon Naturally Speaking, og etter at Nuance kjøpte opp MacSpeech i 2010, ble navnet forandret til Dragon Dictate.

Ytelse[rediger | rediger kilde]

Ytelsen innen talegjenkjenning måles i forhold til nøyaktigheten og hastigheten i gjenkjennelsen. Nøyaktigheten måles ofte i ”ordfeilraten” (WER eng. word error rate), og hastigheten måles tiden som går mellom innlesing av en gitt tekstmengde til den er ferdigskrevet i datamaskinen, eller til en kommando er utført.

Maskinell gjenkjenning av den menneskelige talen er en veldig kompleks prosess. Det muntlige talematerialet varierer av følgende variabler: accent, uttale av ord, artikulasjon, tonefall, tonehøyde, volum og talehastighet, og på den mer tekniske siden: kvalitet av mikrofon, støy og ekko samt andre forstyrrelser. Dette gjelder den akustiske gjenkjenningen, dvs. gjenkjenningen av fonetikken i talen, mens på gjenkjenning av ord er det følgende faktorer:

  • størrelsen av vokabularet (ordforråd) og flertydighet av ord
  • personavhengighet eller ikke
  • talestrømmens kontinuitet, diskontinuitet og isolerte ord uten sammenheng
  • lest tekst contra spontan tale

Status per mars 2013[rediger | rediger kilde]

Talegjenkjenning kan grovt deles inn i to typer:

  • personuavhengig talegjenkjenning
  • personavhengig talegjenkjenning

Typisk for den personuavhengige talegjenkjenningen er at systemet ikke behøver noen adapsjon til personen, dvs. Det kreves ingen opptrening av systemet. Personavhengig talegjenkjenning derimot krever innlesing av brukerens tale gjennom en viss mengde tekst. På denne måten lages en brukerspesifikk profil, og andre kan ikke bruke systemet uten å selv gå gjennom denne trainingen. Ordforrådet derimot kan bli betydelig større på denne typen talegjenkjenning. Dragon Naturally Speaking versjon 11 har et ordforråd på flere 100.000 ord, og at opptrening i denne versjonen ikke er absolutt nødvendig lenger, men en stor fordel.

Norske systemer[rediger | rediger kilde]

  • Det har kommet en iPhone/iPad applikasjon “Dragon dictate” [1]som kan brukes på norsk (Bokmål) til å skrive korte tekster. Tekstene kan sendes til en SMS eller e-postmottaker, eller den kan kopieres og brukes i andre applikasjoner. Under alfa-testene til programmet i juni 2011 ble det målt en 80 % treffsikkerhet ved lesing av avistekst. Applikasjonen "Dragon search" kan også brukes på norsk (Bokmål) til å lese inn tekst til blant annet Google, Twitter, YouTube og Wikipedia. Det finnes tilsvarende apper for Android (Dragon Go!) og for Windows Phone.
  • Språkbanken, en avdeling under nasjonalbiblioteket, har lagt ut leksikalske og taledatabaser. Dette er ressurser fra det tidligere selskapet "Nordisk Språkteknologi". [2] – Språkressursene ligger under "Tilgjengelege ressursar".
  • VOMOTE [3]et produkt for kommandostyring og staving av ord, samt musestyring (men uten diktering) er kommet den 15. oktober 2010. Dette Windows baserte systemet er i første omgang beregnet på mennesker som av ulike årsaker ikke kan betjene en datamaskin med mus og tastatur. Mulige årsaker kan være: muskel-/skjelettsykdommer, lammelser i hendene, musearm eller andre plager i armer og nakke). Systemet kan styres helt håndsfri. Det er mulig å få auditiv tilbakemelding ved hjelp av innebygd syntetisk tale, slik at f.eks. mennesker med synshemninger kan benytte systemet uten å forholde seg til skjermen.
  • Talegjenkjenning for helsefaglige: Max Manus [5]
  • Norge.no sin taleportal for offentlig informasjon. [6]

Talegjenkjenning for personer med funksjonsnedsettelser[rediger | rediger kilde]

Personer som har problemer med å bruke vanlig tastatur og mus kan bruke talegjenkjenning, for å kunne styre datamaskinen og diktere tekst ved hjelp av tale. En åpenbar målgruppe som kan ha behov for talegjenkjenning er personer med ulike former for muskelsykdommer, senebetennelse og andre lidelser i hender og armer. Andre grupper er dyslektikere med alvorlige skrivevansker og synshemmede.

På grunn av antidiskrimineringsloven i USA, er Dragon Naturally Speaking utviklet etter kriteriene for universell utforming.

Litteratur[rediger | rediger kilde]

  • Lawrence R. Rabiner und Ronald W. Schafer: Digital Processing of Speech Signals, 1978, ISBN 0-13-213603-1
  • Alexander Waibel: Readings in Speech Recognition, 1990, ISBN 1-55860-124-4
  • Lawrence R. Rabiner und Biing-Hwang Juang Juang: Fundamentals of Speech Recognition, 1993, ISBN 0-13-015157-2
  • E.-G. Schukat-Talamazzini: Automatische Spracherkennung, 1995+2001, ISBN 3-528-15492-6
  • Speech Recognition: Online lærebok / Skript: 'An Introduction to Speech Recognition' von B. Plannerer, C++ Tutorial and MATLAB examples (englisch)

Referanser[rediger | rediger kilde]

  1. ^ iPhone/iPad applikasjon “Dragon dictate” [1]
  2. ^ Språkbanken [2] [3]
  3. ^ VOMOTE [4]

Eksterne lenker[rediger | rediger kilde]