Operant betinging

Operant betinging er en form for læring der individets atferd endres som en følge av de konsekvensene atferden har hatt. Hvis konsekvensene av en atferdsform gjør at denne øker, kalles dette forsterkning. Hvis konsekvensene gjør at atferden minker, kalles det reduksjon eller straff. Disse definisjonene er «empiriske» - man må se hvordan konsekvenser faktisk virker før man kan avgjøre om forsterkning foreligger.

Ordet «operant» ble lansert av B.F. Skinner som en betegnelse på at organismen «opererer» på omgivelsene.^[1] Skinner foretrakk å beskrive atferd-konsekvens-relasjoner uten å tolke hvorfor atferdsendringer skjer. Dette skiller operant betinging fra Thorndikes instrumentelle betinging, der Thorndike nettopp antok at læring skjedde fordi organismen (i hans tilfelle: katten) opplevde behag ved å få belønning. (Av denne grunn var Thorndike ikke behaviorist.)

Operant betinging skiller seg fra klassisk betinging ved at organismen i operant betinging må vise en atferd før læringsprosessen kan starte. Med andre ord: I operant betinging tar man alltid utgangspunkt i en respons hos individet, og så undersøker man hvordan konsekvenser av responsen påvirker senere forekomst av responsen.

I operant betinging vil det typisk være en foranledning for at en respons skal forekomme, eks. at telefonen ringer. En slik forutgående stimulus kalles diskriminativ stimulus, S^D. Slike stimuli er foranledninger for responser, og signaliserer at en gitt respons - i dette tilfellet å ta telefonen - gjør at en bestemt konsekvens er sannsynlig. Denne treleddede kjeden S^D - R - S^R - er grunnleggende i operante analyser av atferd.

Operant betinging er en viktig læringsform fordi den tillater tilpasning til de ulike situasjoner vi interagerer med. Det å være sensitiv til de konsekvenser atferd har i ulike situasjoner og under betingelser er en evne de aller fleste organismer har som biologisk utrustning.

Prinsipper for operant betinging er viktige i anvendte sammenhenger, ikke minst i anvendt atferdsanalyse.

Forskjellige former for forsterkning og straff[rediger | rediger kilde]

Forsterkning og straff er viktige begreper i operant betinging:

Positiv forsterkning ses når responsen øker i frekvens når bestemte konsekvenser presenteres. Eksempel: Å gi en matbit til en hund når den sitter forsterker sitting.

Negativ forsterkning ses når responsen øker i frekvens når noe tas bort fra situasjonen. Tar man noe smertestillende mot hodepine, vil denne responsen øke i sannsynlighet hvis hodepinen forsvinner.

Positiv straff ses når en konsekvens som presenteres i situasjonen etter atferd reduserer frekvensen av atferden. Dette kan være ubehagelige stimuli, men enhver konsekvens med denne funksjonen vil være en straffer.

Negativ straff ses når noe tas bort fra situasjonen med den konsekvens at atferden reduseres. Har man fått et budsjett å rutte med i et spill, og taper penger for hver feil man gjør, vil man sannsynligvis passe seg for ikke å gjøre feil.

Ekstinksjon[rediger | rediger kilde]

Når en lært respons ikke lenger etterfølges av de konsekvenser som opprettholder den, vil atferden avta og etter hvert kanskje forsvinne. Dette kalles ekstinksjon eller utslokning. Ekstinksjon er et svært mye studert tema i læringspsykologien. Spesielt mye studert er de læringsbetingelser som gjør at ekstinksjon foregår langsomt vs. raskt. Her viste Skinner tidlig (1938) at forsterkning «av og til» (intermitterende forsterkning) ser ut til å gi en respons som er motstandsdyktig mot ekstinksjon. Dette funnet ses i en rekke sammenhenger og med ulike arter, men er likevel omdiskutert.^[2]

Faktorer som påvirker effekten av operant betinging[rediger | rediger kilde]

Tid mellom respons og konsekvens. Jo raskere etter en respons konsekvensen komme, jo mer blir læringen. Om et barn får konsekvensen umiddelbart etter en respons, vil barnet lære fortere enn om konsekvensen kommer forsinket.
Forsterkningsskjema. Belønning hver gang (kontinuerlig forsterkning) gir raskere læring enn om belønning inntreffer av og til (intermitterende forsterkning). Men paradoksalt nok er effekten af disse to omvendt hvis man ser på styrken av responsen etter læring (se Ekstinksjon over).
Deprivasjon. Hvis personen ikke har hatt tilgang på det som oppleves som forsterkende på en stund, vil slik tilgang virke spesielt forsterkende.
Forsterkermengde. Større forsterkermengde virker vanligvis mer effektivt enn mindre.

Skinners eksperimentsituasjon[rediger | rediger kilde]

B. F. Skinner brukte typisk såkalte fri-operant-situasjoner i sine studier. Dette er situasjoner der forsøksdyret fritt kan repetere en bestemt respons, så som å trykke på en hendel (rotte), hakke på en skive (due) eller trykke på en knapp (person). Slike fri-operant-situasjoner er forskjellige fra såkalte diskret-trening-situasjoner ved at forsøksleder i sistnevnte må gripe inn etter hver respons.(Thorndikes eksperimentsituasjon er et eksempel: Når Thorndikes katt slapp ut av problemburet, måtte Thorndike løpe til for å bringe katten tilbake i buret.)

Skinners fri-operant-situasjon har den store fordel at kontinuerlig respondering, uavhengig av Skinners inngripen, kunne studeres. Blant annet kunne Skinner gi forsterker av og til (intermitterende forsterkning), og lett observere effekten av dette.

Kontinuerlig respondering i en fri-operant-situasjon registreres vanligvis med en såkalt kumulativ skriver, et apparat som tegner antall responser per tidsenhet. Fordi denne skriveren gjør et hopp opp for hver respons, vil man kunne se rask responsrate som en bratt stigende kurve, mens lav responsrate ses som en slakt stigende kurve.

Dette apparatet kan også vise mønstre i respondering over tid. Slike mønstre vil ha ulikt utseende avvengig av forsterkningsskjema. Forsterkngsskjemaene kan defineres ut fra antall responser (x responser kreves før en respons etterfølges av forsterker) eller tid (y sekunder kreves før første respons deretter forsterkes). I begge tilfeller kan x eller y være fast eller variabel. Dette gir fire muligheter:

Fast ratio (FR): Et bestemt antall responser x kreves før neste forsterker
Variabel ratio (VR): Et antall varierende rundt x responser kreves før neste forsterker
Fast intervall (FI): Et bestemt intervall kreves før neste forsterker presenteres
Variabelt intervall (VI): Et intervall varierende rundt y sekunder kreves før neste forsterker presenteres

Generelt vil variable skjemaer (VR og VI) gi «glatte» kurver, mens FR og FI gir

karakteristiske mønstre: FR gir trappetrinnaktige mønstre («hit and run»), mens FI gir hengekøyeaktige mønstre.

Referanser[rediger | rediger kilde]

^ Skinner, B.F. (1938). The behavior of organisms.
^ http://www.nta.atferd.no/loadfile.aspx?IdFile=509

Litteratur[rediger | rediger kilde]

Atkinson R.L. m.fl., Introduction to psychology, Florida, 1990, ISBN 0-15-543688-0
Shultz & Shultz,A history of modern psychology, Florida 1992, ISBN 0-15-537467-2

Se også[rediger | rediger kilde]

[1] Skinner, B.F. (1938). The behavior of organisms.

[2] ttp://www.nta.atferd.no/loadfile.aspx?IdFile=509

[1]

[2]