Den godbid er IKKE en belønning!

Men hvad er den så? Under hestetræning er den en forstærker. Men er det ikke det samme? Ja, og nej.. men nok mest nej, for at undgå misforståelser!

Der er måske nogen, der undrer sig over, hvorfor jeg ikke kalder det en belønning, når jeg træner med godbidder. Jeg ved, at mange, der underviser i hestetræning bruger ordet belønning, fordi det er et ord alle kender og det er nemmere at forstå end forstærkning, men jeg mener, at ordet belønning skaber nogle lidt forkerte associationer i forbindelse med træning af dyr og derfor synes jeg, at det er bedre at holde sig ordet forstærkning. Når vi bruger ordet belønning og vi i virkeligheden mener positiv forstærkning, kan det give anledning til misforståelser, som kan blive svære at udrede bagefter eller i værste fald gør, at vi griber en opgave forkert an fra starten. Derfor synes jeg, at det er vigtigt at bruge præcise termer, også selvom det måske tager lidt ekstra tid, at for
klare hvad det er.

IMG_0102Nogle hestemennesker ønsker overhovedet ikke at bruge belønning/godbidder i træningen. Måske fordi de oplever, at hesten lærer unoder. Min påstand vil være, at
det er fordi, godbidderne ikke bliver anvendt korrekt. Jeg skal ikke kunne sige, om der findes heste, der bare ikke kan finde ud af det der med godbidder. Jeg har bare ikke mødt en endnu, der ikke med noget tilvænning kan blive ret god til det med godbidder. Min egen lille bandit Sovs, som er et kæmpe madøre, har lært manerer i brugen af godbidder og hvis han kan, så tror jeg, at de fleste kan 😉

Forstærkning er en term indenfor indlæringspsykologien der betyder: At tilføre eller fjerne noget for at øge sandsynligheden for at en adfærd forekommer igen. Når vi tilfører en godbid, kalder vi godbidden en positiv forstærker. Der findes også negative forstærkere, men det er ikke dem, det handler om her. Hvis man vil vide mere om positiv og negativ forstærkning, kan man kigge her.

Belønning

“påskønnelse af en bestemt indsats i form af ros eller penge” (ordbogen.com)

Synonymer: Bonus, dusør, erkendtlighed, gratiale, gengæld, påskøndelse, tak, præmie, vederlag.

En belønning og en forstærker er hyppigt den samme genstand. For mennesker kan det være ros, anerkendelse, ære, penge, gaver, lækker mad, eller hvad som helst andet en person vil blive glad for. I træning med dyr bruger vi hyppigt godbidder, nus eller ros. Selve genstanden kan altså være det samme, hvad enten vi belønner eller forstærker, men de anvendes på forskellige måder og med forskellige resultater. Der er – måske uskrevne – regler for, hvordan vi bruger belønninger i al almindelighed og de svarer ikke særligt godt til de meget konkrete og velbeskrevede regler, der er for anvendelsen af forstærkere.

En belønning er ofte noget, vi giver et stykke tid efter, en eller anden har gjort noget belønningsværdigt. Vi giver belønninger for en samlet præstation. F.eks. hvis vi har gjort det særligt godt med et projekt på arbejdet eller vi har vundet en konkurrence eller noget lignende. Vi får en bonus, en gave, en præmie eller æren som belønning for vores indsats. Det er sådan vi typisk forstår belønninger, tror jeg. Problemet med dem er, at belønning ikke knytter sig til nogen særlig del af præstationen. Hvis jeg f.eks. får ros på arbejdet efter et projekt, aner jeg ikke om det var rapporten, udførelsen, planlægning, samarbejdet eller noget helt andet, der var særlig godt til at udløse ros. Jeg kan måske få det beskrevet, men vi har det med at efterrationalisere, generalisere og desværre glemmer vi deltaljer i et længere forløb, så rosen vil ikke være særlig præcis og dermed heller ikke nødvendigvis give mig noget, der kan understøtte, hvad jeg gør fremover.

Det forholder sig anderledes med forstærkere.

Positiv forstærker (eng: positive reinforcer):

Any stimulus which, when presented following a behavior, increases or maintains the strength of that behavior” (Chance 2014, side 397)

(dansk: en hvilken som helst stimulus (påvirkning), som når den præsenteres efterfølgende en adfærd, øger eller vedligeholder styrken af den pågældende adfærd.

Eller med Pryors ord:

A reinforcer in anything that, occurring in conjunction with an act, tends to increase the probability that the act will occur again” (Pryor 2009, side 1)

(dansk: En forstærker er hvad som helst der, når det forekommer i sammenhæng med en handling, øger sandsynligheden for at denne handling vil forekomme igen.)

Det man skal lægge mærke til i ovenstående citater er, at en forstærker forekommer i direkte sammenhæng med en konkret handling. Timingen er afgørende. Der må ikke gå for lang tid mellem adfærden og forstærkningen. Vi taler om få sekunder, hvis det skal  have den ønskede effekt. Hvis en forstærker skal virke forstærkende på det hesten gør- dvs. øge sandsynligheden for at hesten gør det igen – er vi nødt til at give forstærkeren (godbidden) i det øjeblik hesten udfører handlingen – gerne samtidig med adfærden og allersenest et par sekunder efter. Tidsaspektet er centralt her og det er måske den væsentligste forskel på forstærkere og belønninger, sådan som jeg opfatter det.

Belønning vs. forstærkning – Timing

En forstærker gives i løbet af træningen, for at kommunikere til hesten, at det den gjorde, i det øjeblik den fik godbidden, er noget vi meget gerne vil se mere af.

Hvis vi venter med at levere godbidden til efter træningen er overstået, har den ingen indvirkning på noget af det, hesten gjorde under træningen. Hvis vi eksempelvis øver os på Side Pass fra jorden og hesten har gjort det godt, stikker vi den måske et par godbidder bagefter, mens den bliver striglet. Tanken er sød og vi vil gerne være gode ved vores heste, men godbidden fortæller ikke hesten, at det var det, den gjorde ude i ridehuset, der var godt. Den laver slet ikke den kobling. Hesten kobler godbidden med det, den gør i det sekund, den får godbidden og det kan jo være alt muligt. Det uheldige er, hvis vi ikke er opmærksomme på, hvad hesten gør, når den får godbidden – så kan vi komme til at forstærke en adfærd, vi ikke ønsker. Hvis den f.eks. stod stille og slappede af, så er det afslapningen vil forstærker og ikke den superlækre Side Pass den udførte i ridehuset. Man kan vel sige, at belønningen mere er for vores egen skyld, fordi vi gerne vil forkæle hesten. Hesten bliver selvfølgelig også glad, men den forstår ikke sammenhængen mellem godbidden og det den gjorde for 10 minutter siden. Uanset om vi opfatter godbidden som en belønning eller en forstærker, så virker den enkelte godbid forstærkende på noget. Nemlig det hesten gjorde, da den fik godbidden.

Hvis godbidden skal have nogen som helst effekt den adfærd, vi træner hen imod, er vi nødt til at anvende den på en anden måde, nemlig som en forstærker. Når vi bruger godbidden som forstærker, leverer vi den som sagt i det samme øjeblik, som hesten udfører adfærden. På den måde ville hesten forbinde godbidden med selve øvelsen. (Denne beskrivelse er faktisk for grov. Egentlig er det mindre dele af den samlede Side Pass bevægelse, vi forstærker til at begynde med – læs om Shaping her.)

Pryor giver et eksempel med atleter. Det virker meget bedre for en gymnasts fremtidige præstation, når træneren spontant råber “godt” eller “fantastisk” i det øjeblik gymnasten gør noget rigtig godt, end hvis han ventede til bagefter i en gennemgang af dagens træning. Vi oplever det måske også, når vi får undervisning til hest. Det har større effekt, når træneren siger “godt” eller “flot” i det øjeblik, hvor vi føler i det kroppen. Det er da dejligt at få ros bagefter, men det er ikke sikkert, det har den store indflydelse på detaljerne i præstationen næste gang. Det at forstærkningen kommer lige nu og her i direkte tidsmæssig forbindelse med adfærden, gør det nemmere for os at føle og vide, hvad der var godt og dermed hjælpe os til bedre at forstå, hvad vi skal gøre for at opnå samme tilstand igen. Vi vil også have mere lyst til at gøre det igen. Det gør noget ekstra for motivationen.

Et eksempel fra min egen verden er mine børns dans. De danser standarddans og latin og går til turneringer. Især min søn vinder ret ofte. Han er rigtig glad for medaljerne, men jeg er sikker på, at det er den øjeblikkelige forstærkning, når tilskuerne kigger på ham og klapper, når han danser forbi, der giver den største effekt og dermed er mest forstærkende på hans adfærd/bevægelser. Under træning hører jeg ofte træneren råbe “GODT” eller “FLOT” og selvom jeg ikke kan se, hvad der foregår, ved jeg, at det virker fantastisk forstærkende og motiverende på det børnene gør og at det skærper deres opmærksomhed på lige præcis de bevægelser de udførte, da han råbte “GODT”..

Hvis vi vender tilbage til sammenligningen mellem belønning og forstærkning: Groft sagt kan man vel godt sige, at det er to sider af samme sag, selvom de anvendes på forskellig måde, men ville vi opfatte spontane ytringer som “FLOT” og “Fantastisk!” som en belønning? Det tror jeg ikke. De ville snarere blive opfattet som en opmuntring: “JA, gør det der igen!” og det er den opmuntring, vi er ude efter, når vi anvender positiv forstærkning med heste. Så hvis vi absolut skal sammenligne den positive forstærker med noget, vil jeg næsten heller kalde det opmuntring eller anerkendelse af en handling end belønning.

Der er nok flere forklaringer på, hvorfor positive forstærkere virker bedre end belønninger. En af dem kan være, at hestens korttidshukommelse er begrænset (- det er menneskets i øvrigt også). Information i korttidshukommelsen holdes ikke mere end nogle sekunder, inden de skiftes ud med nye informationer. En anden forklaring er muligvis, at hesten ikke kan ræsonnere på samme måde, som mennesker kan. Den del af hjernen, som er i stand til at abstrahere, planlægge, ræsonnere osv er ikke særlig udviklet hos hesten i forhold til mennesket. Mennesker kan sagtens sidde bagefter og analysere nogle hændelser og tale om, hvad der er gået godt og skidt og tilpasse fremtidige handlinger ud fra det. Eller vi kan gætte os frem eller regne det ud, ved at tænke over det, der er sket. Det kan hesten ikke. Den analyserer sig ikke frem til ret meget eller reflekterer over alt muligt bagefter. Den lærer i øjeblikket vha. trial and error. Dvs. den prøver noget og afhængig af reaktionen eller konsekvensen, gør den det enten igen eller ikke.

Eksempel på misforståelse…

Jeg var med til en lidt voldsom trailerlæsning engang. Jeg havde ikke den store indflydelse på forløbet. Det var ikke min hest, ikke min trailer og ikke mig, der skulle noget med hesten. Jeg var bare tilfældigvis på stedet på tidspunktet. Det endte med 4 mennesker, der omringede hesten, som panikslagen hoppede til siden og på alle mulige måder prøvede at undgå traileren. Men jo mere den prøvede, jo mere pres fik den. Den endte med at være viklet ind i snore rundt om bagdelen og personer, der pressede den fra alle vinkler. Såvel hesten som de mennesker, der var med (inklusive mig selv) kunne være kommet til skade, men det skete heldigvis ikke.

På et tidspunkt forsøgte jeg mig med, at få hesten til at tage et skridt frem, så jeg kunne forstærke det ene skridt og måske øge sandsynligheden for, at den ville tage et skridt til, som jeg så kunne forstærke osv. Ejeren var irriteret og sur over forløbet og orienterede mig om “at han da ikke skulle belønnes for noget som helst nu, sådan som han opførte sig”. Jeg kan godt se, hvordan hun har tænkt det. Fandme nej om han skal have belønning/godbidder for at opføre sig sådan! Problemet er bare, at det ikke var en belønning i sådan traditionel forstand, jeg ville forsøge mig med. Det var en forstærkning. Hvis jeg var skarp i min timing og leverede en godbid i det sekund hesten gjorde bare den mindste bevægelse i den rigtige retning, ville han måske forsøge at bevæge sig i den retning igen. Med tiden ville han måske endda bevæge sig mere og mere i den rigtige retning, fordi han lærte, at det havde gode konsekvenser, at gå hen imod traileren. Som sagt: hesten knytter forstærkningen, til det den gør lige nu og her i dette øjeblik og ikke til dens samlede handlinger indenfor de sidste 5 minutter.

MEN i bagklogskabens lys ved jeg nu, at min ide med godbidderne helt sikkert ikke ville have virket i det tilfælde. Det var hesten alt for stresset til. Når hesten er for stresset og har adrenalinen susende rundt i kroppen, så tænker den kun på at overleve – enten ved at prøve at komme væk eller ved at angribe – og i det tilfælde er det for sent at hive godbidderne frem! Jeg tror, at det er de færreste, der tænker på en sandwich, når de føler sig truet på livet ;-). Man er nok ikke så sulten i det tilfælde. Hvis det skulle have virket, skulle vi fra starten af have sørget for, at hesten slet ikke nåede det stressniveau. Men jeg var helt grøn udi indlæringspsykologien og hesteadfærd og jeg var presset, for det var både farligt for menneskerne og hesten, så jeg tænkte ikke klart. Eksemplet fungerer som eksempel på, hvordan vi typisk forstår belønninger og hvordan de bruges og hvordan den opfattelse gør, at misforståelser opstår pga. noget som simpelt som betydninger af ord.

Forstærkeren er et redskab man bla. bruger indenfor træningen af dyr og man bruger den på en helt bestemt måde, for at opnå noget helt konkret. At forstå forstærkeren, som man typisk forstår belønning, kan give anledning til misforståelser, at det ikke lykkes os, at forstærke den ønskede adfærd og måske endda, at vi kommer til at forstærke en uønsket adfærd eller slet ikke når nogen vegne med træningen med godbidder.

Kilder

Chance, Paul (2014): Learning and Behavior. International Edition, 7th edition, Wadsworth Cengage Learning.

Pryor, Karen (2009): Don’t Shoot the Dog! The New Art of Teaching and Training. Revised Edition, Ringpress Books Ltd.