„Dresajul bun se face prin joacă” - Hediger
  Dresaj prin joacă
       
Nume
  Home          
  Mail
  Hartă           antispam
  Contact           Cod: 
  www.dresajprinjoaca.ro        
  Dresaj Vreau câine! Psihologie canină Informaţii diverse        Media

        Știri         Forum
 
dresaj prin joaca
  Meniu

Home

Hartă

Dresaj

Vreau câine!

Psihologie canină

Informaţii diverse

Media

Știri

Contact

Forum


Condiționarea operantă
Articol scris de hemu-ha


         I. Introducere

Condiționarea operantă este modul de învățare prin care câinele își modifică propriile comportamente în funcție de consecințele acestora. Condiționarea operantă e controlată de două idei complementare, maximizarea lucrurilor plăcute și micșorarea sau evitarea celor neplăcute.
Legea efectului (a lui Thorndike) stă la baza procesului de condiționare operantă și afirmă că un comportament ce aduce, în timp, consecințe plăcute va apărea mai des, iar unul care are consecințe neplăcute va scădea ca frecvență.

Întărirea este procesul prin care un eveniment (numit întăritor) mărește frecvența sau probabilitatea de apariție a unui comportament (numit comportament întărit). De exemplu, câinele primește mâncare când e în ”șezi” așa că se va pune în ”șezi” mai des; în acest caz, mâncarea este un (eveniment) întăritor, iar ”șeziul” e un comportament intărit.

Penalizarea este procesul prin care un eveniment (numit pedeapsă) micșorează frecvența sau probabilitatea de apariție a unui comportament (numit comportament slăbit). De exemplu, corecția aplicată câinelui când acesta sare pe masă îl va determina să sară mai rar: corecția este o pedepasă, iar săritul pe masă devine slăbit.

Cu toate că există diferențe între ele, voi folosi uneori termenii de ”recompensare” în loc de ”întărire”, ”recompensă” în loc de ”eveniment întăritor” și ”pedepsire” în loc de ”penalizare”, pentru ușurința în exprimare.

Pentru a complica și mai mult lucrurile, cele 2 concepte pot fi folosite în două moduri diferite: atât întăritorul (recompensa) cât și pedeapsa pot fi aplicate/aduse (pozitive) sau luate/oprite (negative), iar comportamentul afectat poate apoi să apară mai des sau mai rar.
Avem deci 4 moduri prin care câinele poate să învețe același lucru, voi da drept exemplu învățarea comenzii ”șezi” în fiecare dintre cele 4 cazuri:

Întărirea pozitivă (R+) apare atunci când comportamentul e întărit de aducerea sau prelungirea unor consecințe plăcute.
Câinele primește mâncare când se pune în ”șezi”: ”șezi” va fi oferit mai des în viitor deci are loc întărirea, pozitivă pentru că mâncarea e oferită/adusă.

Întărirea negativă (R-) apare atunci când comportamentul e întărit de eliminarea, micșorarea sau evitarea unor consecințe neplăcute.
Tragem de lesă în sus, până când câinele se pune în ”șezi”, apoi lăsăm lesa moale: ”șezi” va apărea mai des in viitor deci avem întărire, negativă pentru că învățarea are loc când tensiunea în lesă încetează deci ceva e oprit.

Penalizarea pozitivă (P+) apare când comportamentul e slăbit de apariția unor consecințe neplăcute.
Câinele nu face ”șezi”, așa că este corectat din lesă: refuzul de a se pune în ”șezi” nu va mai fi repetat deci are loc penalizarea, pozitivă pentru că am aplicat/adus corecția.

Penalizarea negativă (P-) apare când comportamentul e slăbit prin omiterea prezentării unei consecințe plăcute.
Câinele nu face ”șezi”, așa că nu primește mâncare: comportamentul, refuzul de a efectua ”șezi”, nu va mai fi repetat deci avem penalizare, negativă pentru că mâncarea e luată înapoi, omisă.


  ...apare ...dispare
Ceva plăcut...
(mâncare)
R+
Mâncare dacă șezi
P-
Nu mâncare dacă nu șezi
Ceva neplăcut...
(corecție)
P+
Corecție dacă nu șezi
R-
Oprim corecția dacă șezi


Aceste 4 procese stau la baza condiționării operante. O observație, termenii de pozitiv și negativ nu înseamnă ceva bun și ceva rău, se referă doar la aducerea/oferirea, respectiv luarea/oprirea unui stimul.

Teoretic, cu ajutorul întăririlor pozitive și negative R+ și R- câinele învață că e în avantajul lui să facă ceea ce îi cerem, iar cu penalizările negative și pozitive câinele învață că e pedepsit dacă nu face ceea ce-i cerem. Deci primele 2 sunt folosite pentru a-l invăța comanda, iar ultimele 2 sunt folosite când câinele nu ascultă.

Întărirea pozitivă (recompensa când face ceva bine) și penalizarea negativă (nu oferim recompensa daca nu ascultă) stau la baza așa-numitelor metode de dresaj ”pozitive”, care vor să evite celelalte 2 componente și se vor a fi corecte față de câine. Sunt foarte utile în special în fazele de început, când câinele învață ce vrem de la el.
Penalizarea pozitivă (corecție dacă nu ascultă) este folositoare atunci când câinele știe foarte clar ce are de făcut, dar alege să nu o facă. Întărirea negativă (corectăm până când câinele ascultă) este, poate, cea mai problematică dintre cele 4, pentru că are șanse mari de a speria câinele și de a-l bloca, dacă acesta nu știe ce are de făcut și nu știe cum să scape de o corecție continuă.

         II. Legătura dintre condiționarea operantă și condiționarea clasică

• Condiționarea clasică ajută câinele să prezică apariția sau absența unor evenimente; condiționarea operantă permite câinelui să le controleze.
• În mare parte, condiționarea clasică e involuntară; condiționarea operantă e voluntară, câinele acționează asupra mediului pentru a produce consecințe folositoare.
• Condiționarea clasică se bazează pe stimuli; deși poate fi pusă sub controlul unuia, condiționarea operantă nu necesită stimuli.
• În condiționarea clasică, stimulii influențează alți stimuli; în condiționarea operantă, răspunsurile câinelui influențează alte răspunsuri ale lui (vezi și principiul lui Premack).

Foarte multe dintre noțiunile folosite în condiționarea operantă se bazează pe asocieri, pe condiționarea clasică. Recompensa și pedeapsa funcționează deoarece câinele le asociază cu ceva ce el face (condiționare clasică 100%); condiționarea operantă apare după asta, când câinele ia o decizie.

Deși pot părea extrem de diferite, cele 2 concepte sunt, de fapt, adânc legate între ele. Câinele controlează mediul (condiționare operantă) în funcție de cât de bine reușește să-l prezică (condiționare clasică), iar acest proces e unul în continuă schimbare, în funcție de succesul câinelui.
Cu cât câinele reușește să prezică mai bine ceea ce se va întâmpla în jurul lui, cu atât va reuși să controleze mai bine mediul, lucru care, la rândul său, îl va ajuta să prezică mai corect ceea ce se va întâmpla. Acest proces de confirmare și/sau neconfirmare a ceea ce crede că știe este vital pentru învățare și performanță.

         III. Principiul lui Premack

Principiul lui Premack, enunțat de David Premack in 1965, spune că un comportament ce apare cu o frecvență ridicată are efect de întărire asupra comportamentelor cu frecvență de apariție mai mică, ce preced primul comportament.
Cu alte cuvinte, dacă după un comportament neplăcut apare unul plăcut, ultimul îl face și pe cel neplăcut să fie mai valoros (și reciproc). Ordinea in care apar cele 2 comportamente e esențială: primul comportament e cel care va fi influențat de cel de-al doilea.

Un exemplu concret: vrem să învățăm câinele să execute ”culcat”, iar câinelui îi place să meargă în ”pas”. Îl putem învăța că, dacă se pune în ”culcat”, va urma un ”pas”, ceea ce va face ca ”culcatul” să înceapă să fie mai important pentru câine decât înainte, pentru că îi va prezice ”pasul”.
Similar, dacă cerem câinelui sa execute comanda ”aici”, care îi place foarte mult, dar după ce o execută îi cerem un ”șezi”, care nu îi place, ”aici” își pierde din forță, câinele anticipează că, dacă vine, va trebui să facă ”șezi”.

         IV. Când nu are loc condiționarea operantă

Toate motivele de mai jos pentru care condiționarea operantă nu are loc sunt, de fapt, greșelile noastre, inclusiv dacă cerem câinelui să facă ceva ce nu poate.

Learned laziness (*lene învățată) este situația în care câinele e recompesat des, fără vreo legătură cu comportamentul său; respectivul comportament nu e învățat.
Learned helplessness (*neajutorare învățată) apare când câinele e corectat des, fără vreo legătură cu comportamentul său; câinele nu învață cum să evite corecțiile.

În ambele cazuri, câinele nu doar că nu face legătura pe care o vrem, știe deja că nu poate preveni sau controla corecția și/sau recompensa, așa că nici nu încearcă să înțeleagă ce vrem.
Câinii corectați excesiv și fără legătură cu ceva ce fac ei devin insensibili la corecții, nu au inițiativă, par să învețe lucruri noi extrem de greu, sunt retrași. Poate părea departe de orice situație reală, din păcate se întâmplă foarte des. Când corectăm câinele și el nu dă semne că își va schimba comportamentul, deseori dăm vina pe câine, e ”încăpățânat” sau credem că nu am folosit o corecție suficient de puternică; deși ambele situații pot fi adevărate, de cele mai multe ori vina este a noastră, câinele nu știa ce îi cerem să facă.

De exemplu, dacă certați câinele că sare în pat doar uneori, acesta poate să nu asocieze pedeapsa (cearta) cu comportamentul său (săritul în pat) și să continue să sară în pat. Similar, dacă recompensați câinele prea rar pentru un ”șezi” (mai ales în stadiul de achiziționare deci când încă nu știe ce vrem de la el), ”șezi” nu va apărea mai des.
Deci recompensa și pedeapsa trebuie aplicate mereu, la început, cel puțin până când comportamentul dorit e învățat (vezi mai jos, V. Sincronizarea).

Alte situații des întâlnite în care condiționarea operantă nu are loc sunt cele în care:
• cerem câinelui ceva prea dificil de făcut (comportamentul cerut e dificil fizic sau intelectual),
• îi pretindem să învețe ceva prea repede (nu are destule repetiții și asocierea nu a avut loc încă),
• nu are un motiv suficient de întemeiat să facă ceea ce îi cerem (recompensa și/sau pedeapsa nu-l motiveaza suficient),
• nu sincronizăm bine corecțiile și recompensele.

         V. Sincronizarea în condiționarea operantă

Pentru ca un anumit comportament al câinelui să fie întărit sau slăbit, e important să sincronizăm consecința acelui comportament (recompensă sau pedeapsă) cu apariția lui. Cu alte cuvinte, recompensele și pedepsele trebuie date imediat după comportament (la jumătate de secundă), pentru a avea efect.

Uneori însă acest lucru este dificil. De exemplu, când câinele lucreaza la distanță față de noi, e dificil să-l recompensăm, respectiv să-l corectăm, exact atunci când este necesar. Pentru asta, putem folosi stimulii de legătură.
Stimulul de legătură este unul care anunță (prin condiționare clasică) apariția a ceva plăcut sau a ceva neplăcut.
Stimulul terminal de legătură e folosit imediat cum câinele oferă comportamentul (de exemplu clickerul).
Stimulul intermediar de legătură e folosit ca semnal intermediar, după cum urmează:
Întăritorul condiționat (”bravo”), (conditioned reinforcer, bridge stimulus) e un stimul intermediar de legătură care unește emiterea comportamentului dorit de un întăritor pozitiv (R+) ce va veni cândva în viitor.
Pedeapsa condiționată (”nu”), (conditioned punisher, bridge stimulus) e un stimul (terminal sau intermediar) de legătură care unește emiterea sau încetarea comportamentului nedorit de o penalizare pozitivă sau de una negativă (P+ sau P-).

         VI. Frecvența de apariție a recompensei și a pedepsei si reducerea lor

Ca și în cazul condiționării clasice, frecvența de apariție a evenimentului întăritor (recompensei) și/sau a pedepsei va determina cum și ce învață câinele.

La început, trebuie lucrat cu recompensă și pedeapsă (acolo unde este cazul) continue, pentru a fixa comportamentul și a da câinelui ocazia de a înțelege foarte clar consecințele. Dacă rămânem însă în acest stadiu și eliminăm recompensa brusc, comportamentul va dispărea la fel de brusc.
Cât de curând, este de preferat să trecem la recompensare intermitentă, în care câinele primește recompensa doar uneori, nu mereu. Recompensarea intermitentă ne permite să imunizăm câinele pentru situația în care îi cerem ceva și nu avem recompensa la îndemână și face comportamentul câinelui să fie foarte puternic; în plus, recompensarea intermitentă ne permite să lucrăm mai mult cu câinele pentru aceeași cantitate de recompensă.

Recompensarea continuă generează bucurie, cea intermitentă generează speranță.
Factorii de care depinde cât de repede putem face asta sunt: cât de bine cunoaște câinele ceea ce-i cerem, cât de motivat este, cât de interesat este de alte lucruri din mediul lui, nivelul lui de experiență.

Concret, pentru a face recompesa intermitentă, putem proceda în câteva moduri:
• Putem cere câinelui să emită mai multe răspunsuri înainte de a primi recompensa. De exemplu, cerem câinelui să execute ”aici”, să treacă în ”pas”, să facă ”șezi”, apoi ”culcat” și abia acum primește recompensa. Diferă de la câine la câine cât de repede ajungem aici, câte comenzi putem asocia astfel și cât de des.
• Putem cere câinelui să execute o comandă și să nu o încalce pentru mai mult timp. De exemplu, îi cerem să facă ”culcat” și ”așteaptă” și nu-l recompensăm decât la final, după 15 minute.
• Putem cere câinelui să facă ceva într-un anumit interval de timp. De exemplu, îi cerem să nu-și facă nevoile în casă timp de 4 ore, iar recompensa vine după 4 ore, când ajungem acasă: îl scoatem afară.

Frecvența cu care câinele oferă un anumit comportament este strâns legată de cea în care a primit recompensa/pedeapsa (matching law, enunțată de Rachlin în 1976). În locul formulei matematice, am ales să dau 2 exemple care vor arată mai clar, sper, care este legătura.

Un studiu efectuat de Brunswick în 1939: un labirint avea o răscruce în formă de T; șobolanii care alegeau să meargă în stânga primeau mâncare în doar 50% din cazuri, iar cei care alegeau dreapta primeau mereu mâncare. După un timp, șobolanii au ales să meargă pe latura dreaptă de 2 ori mai des decât pe cea stângă, fără însă a renunța să meargă pe cea stângă.

Un studiu efectuat de Bitterman în 1965: când un porumbel ciugulea un disc în dreapta, primea mâncare la fiecare 20 de secunde, iar când ciugulea un alt disc în stânga primea la fiecare 120 de secunde. După un timp, porumbelul alegea să ciugulească în cel din dreapta de 6 ori mai des.

         VII. Probleme de interpretare ale termenilor ”pozitiv” și ”negativ”

Distincția dintre ce înseamnă un întăritor pozitiv (dacă face ”șezi” îi dăm recompensă), unul negativ (oprim corecția doar când face ”șezi”), o penalizare pozitivă (corecție dacă nu face ”șezi”) și una negativă (nu dăm recompensă dacă nu face ”șezi”) nu este atât de clară pe cât ar sugera-o definițiile.
Mulți oameni evită să aplice metode ”dure”, care înseamnă penalizarea pozitivă și întărirea negativă, considerând că astfel sunt corecți față de câine, dar lucrurile nu sunt atât de simple. Când câinele scapă de ceva rău (întărire negativă), poate fi interpretat ca învățare a siguranței (întărire pozitivă).

De exemplu, oferirea mâncării unui câine după ce face ”șezi” e exemplul clasic de întărire pozitivă (recompensă). Poate fi însă interpretată ca fiind terminarea/evitarea unei stări neplăcute, de foame, adică întărire negativă (am ținut câinele înfometat, până când a făcut ”șezi” si apoi am înlăturat foamea, oferind mâncare). Similar, aruncarea mingei este, parcă prin definiție, o recompensă (deci întărire pozitivă), însă o putem interpreta și altfel: câinele suferă că nu aleargă după minge și suferința se termină când face ”șezi” și o aruncăm, adică întăritor negativ.
Un alt exemplu: există câini extrem de motivați de aport, care adoră să alerge după minge. Dacă un astfel de câine se așteaptă să primească mingea într-o anumită situație, dar primește în schimb mâncare, o poate chiar refuza și o poate vedea ca pe o pedeapsă. Deci există câini și situații pentru care oferirea mâncării este o pedeapsă.

Pentru mine, aceste probleme sunt doar de ordin teoretic. Două lucruri contează pentru mine: rezultatul, câinele să învețe ceea ce-i cer și atitudinea lui, cu cât e mai fericit când lucrează, cu atât mai bine. Câinele crescut fără corecții nu e neapărat fericit și reciproc, câinele corectat nu e automat nefericit.

Noțiunile care au * sunt cele pentru care nu am găsit traduceri adecvate (nu sunt trecute în dicționar).

Articole legate de subiect:

Corecția întârziată
Condiționarea clasică

 
Home - Dresaj - Vreau câine! - Psihologie canină - Informaţii diverse - Media - Știri - Guestbook - Contact - Forum
by Lizzart