Tempistiche di rinforzo
20 febbraio 2014
9 min

Tempistiche di rinforzo

addestramento

Studi di laboratorio hanno rivelato una grande varietà di programmi di rinforzo. L’educazione del cucciolo ha rivelato che la maggior parte di questi sono notoriamente inefficaci o impossibili da gestire nella pratica, con l’eccezione del programma con rapporto variabile e, soprattutto, quello con rinforzo differenziale. Eppure, educatori e formatori persistono nell’uso di questi programmi relativamente inefficaci, quando si cerca di insegnare ai bambini o ai dipendenti e quando si cerca di addestrare i mariti e i cani. Sveglia! L’educazione del cucciolo ci ha insegnato che la maggior parte di questa roba non funziona un granché!

Rinforzo Continuo (CR) – Il cane viene ricompensato dopo ogni risposta corretta, per esempio dopo ogni “seduto”. Ironia della sorte, il rinforzo continuo oggi è il problema più grande nel campo dell’educazione e della formazione basata sulla ricompensa. Il cane riceve troppi premi, di solito cibo. Certamente aumenta temporaneamente la frequenza del comportamento, ma è non è indicato per mantenere una buona frequenza e un’alta qualità del comportamento stesso ed è assolutamente inadatto per migliorarne la qualità.

Se premiamo un cane per ogni risposta corretta, circa il 50% delle volte premieremo il cane per le risposte al di sopra della media, ma il restante 50% delle volte il cane sarà premiato per le risposte sotto la media. Di conseguenza, la qualità del comportamento non migliorerà. È semplicemente assurdo premiare un cane per le risposte sotto la media.

A peggiorare le cose, il rinforzo continuo provoca spesso una diminuzione della frequenza e della qualità del comportamento. Poiché il cane sa che sarà sempre premiato, non c’è bisogno che si affretti, così il cane esegue quanto richiesto a modo suo e con i suoi tempi e il comportamento sciatto viene comunque premiato. La sindrome del cane viziato. E diventa ancora peggio.

Premiare il cane per ogni risposta corretta rende molto difficile eliminare gradualmente le ricompense alimentari e di solito l’affidabilità della risposta diventa dipendente dal fatto che il proprietario abbia cibo in mano o nelle tasche. Il cane si degna di lavorare per voi se ne ha voglia e se avete il cibo, ma la prima volta che non arrivate con un premio scenderà in sciopero.

In sostanza, pensate a un distributore automatico di cibo. Si utilizza solo quando si vuole (quando si ha fame) e, se non funziona, per cui non si ottiene il cibo anche per una sola volta, ci si arrabbia con la macchina e si decide di non riutilizzarla più. MAI usare un programma di rinforzo continuo.

Tuttavia, non occorre confondere il rinforzo continuo con la classica relazione tra un rinforzo secondario e uno primario, per esempio, tra un click e una delizia. Se si clicca, si deve sempre premiare, ma si dovrebbero progressivamente definire i criteri in modo che si clicchino non più del 50% di risposte corrette. Inoltre, non si daranno mai troppe lodi, troppi abbracci o troppi premi quando si usa il condizionamento classico per fare in modo che al cane piacciano le persone, soprattutto bambini e uomini estranei o altri cani. Occorre però smettere quest’abitudine di premiare con il cibo, se si desidera insegnare ai cani a rispondere in modo affidabile alle indicazioni verbali.

Rinforzo a durata fissa (FD) – Il cane viene premiato dopo un tempo specifico, per esempio, dopo cinque secondi di seduto-resta (FD5). Questo tipo di rinforzo non va bene per migliorare la qualità delle prestazioni. In realtà, produce incongruenze nella qualità del comportamento: la qualità tende ad abbassarsi immediatamente dopo ogni ricompensa e a migliorare progressivamente man mano che il tempo previsto per il premio si avvicina, ma subito dopo che il cane viene premiato, l’attenzione e la qualità del comportamento diminuiscono nuovamente (perché il cane sa che la prossima ricompensa è in futuro).

Rinforzo a rapporto fisso (FR) – Il cane viene premiato dopo un determinato numero di risposte, per esempio, dopo ogni cinque volte che esegue un “seduto” (FR5). Inizialmente questo tipo di rinforzo è molto utile per aumentare la frequenza del comportamento. Tuttavia, la qualità cade spesso in picchiata e il cane esegue velocemente le ripetizioni per ottenere un altro premio. Inoltre, se il rapporto è allungato troppo e sono necessarie troppe risposte per un unico premio, il cane può rallentare dopo essere stato ricompensato. Se il rapporto è allungato ancora di più, il cane può rinunciare del tutto.

I programmi fissi sono abbastanza inutili nell’educazione del cane. Non servono per aumentare in modo affidabile la frequenza o la durata del comportamento e non ne migliorano in nessun caso la qualità, in quanto non istruiscono specificatamente il cane su come fare meglio e non lo rinforzano in modo da migliorare la qualità del comportamento. La qualità diventa incostante e di solito diminuisce nel tempo.

Non userei mai un qualsiasi programma di rinforzo fisso per educare un cucciolo. Tuttavia, incredibilmente, la forza lavoro del mondo intero è mantenuta su programmi fissi. Il premio (giorno di paga o bonus di fine anno) è previsto. FR può aumentare la velocità di produzione, ma il controllo di qualità di solito non è soddisfatto quando i lavoratori corrono per soddisfare le loro quote. E di contro, gli operai scioperano se la quota richiesta è troppo alta per un salario limitato. I programmi di rinforzo fisso non sono un modo per motivare e rinforzare i cuccioli o la forza lavoro del mondo.

Rinforzo a durata variabile (VD) – Il cane viene premiato dopo un periodo di tempo imprevedibile. Per esempio, per un VD5, il cane viene premiato dopo diverse richieste di seduto-resta che mediamente durano cinque secondi. 

Il rinforzo a durata variabile è ottimo per aumentare le prestazioni in termini di tempo e preparare il cane a lavorare senza la prospettiva del rinforzo. Inoltre, rende molto più facile eliminare gradualmente i premi di formazione. Poiché la ricompensa è imprevedibile nel tempo, il comportamento del cane non scenderà immediatamente dopo ogni premio, perché il prossimo potrebbe essere solo un secondo dopo.

Tuttavia, poche persone possono calcolare questo rapporto ed educare il cane allo stesso tempo. Ad esempio, per rafforzare il seduto-resta di un cane con un VD5, dovremmo premiare il cane dopo 5, 1, 7, 2, 6, 5, 9, 3, 4, e 8 secondi. Chi è bravo in calcolo orale può fare i conti a mente e calcolare il rapporto, ma qual è il punto? L’educazione del cane non dovrebbe comprendere un test di matematica! Educare un cane deve essere rilassante e piacevole.

Molto più facile sarebbe un programma di rinforzo con durata casuale. Basta premiare il cane dopo un tempo casuale di seduto-resta e aumentare progressivamente la durata media nel tempo. Ahh! Ora ci stiamo arrivando. Stiamo per aumentare rapidamente la durata dei “resta” e, allo stesso tempo, togliamo gradualmente i premi, Inoltre, il cane darà più attenzione. Ma…il rinforzo con durata casuale non aiuta la qualità delle prestazioni.

Rinforzo a rapporto variabile (VR) – Il cane viene premiato dopo un numero imprevedibile di risposte. Per esempio, per un VR10, il cane viene premiato dopo un numero variabile di “seduto” che risulta essere la media di 10 richieste di stare seduto per ogni premio.

Il rinforzo a rapporto variabile è meraviglioso per mantenere alte frequenze di un comportamento per periodi sempre più lunghi e sempre meno premi. VR rende molto più facile eliminare gradualmente i premi, perché il cane si abitua a lavorare per un numero crescente di ripetizioni senza ricompensa.

Pensate alle slot machine. Cosa si fa quando non si vince nulla dopo aver messo sette dollari? Si prende l’ottavo dollaro, lo si strofina e bacia, perché si è assolutamente certi che questo sarà quello buono. E poi, dopo tre dollari in più senza una vincita, si ottengono cinque dollari in premio e la macchina vi ha agganciato.

Naturalmente abbiamo lo stesso problema che abbiamo con tutti gli altri programmi di rinforzo variabile: che pochi cervelli umani potrebbero calcolare il programma ed educare il cane contemporaneamente. Ma sapete cosa? Un programma con rapporto casuale è altrettanto buono. Ricompensate i richiami e i “seduto” a caso e il vostro cane continuerà a venire e sedersi per sempre.

Adoro il concetto di rinforzo casuale, l’idea che possiamo essere del tutto casuali, coerentemente incoerenti, ma nonostante questo mantenere nei nostri cani un’alta frequenza di risposte motivate. Lo adoro. Tuttavia, anche questo rinforzo non migliora la qualità delle prestazioni, perché si sta ancora rinforzando le risposte ben al di sotto della media così come quelle sopra alla media.

Rinforzo differenziale (DR) – Al cane vengono dati diversi premi che riflettono la qualità delle prestazioni. Per esempio, si premia il cane solo per le risposte al di sopra della media e si danno premi migliori per le risposte migliori, ma lasciando il premio più buono per la risposta più buona.

Anni fa, sono andato a prendere mio figlio da una scuola Montessori e lui mi ha mostrato con gioia il voto che aveva preso nei compiti della sera precedente: una stella d’oro. Ero furioso. Ho spiegato al maestro che il lavoro non era buono e che non meritava una stella d’oro o una stella d’argento o una stella di bronzo o un rettangolo o un triangolo, o una qualsiasi forma geometrica di qualsiasi colore. Il lavoro meritava un’insufficienza. Volevo che fosse in grado di riflettere sulla qualità del lavoro. Volevo che Jamie si rendesse conto che un compito stellare valeva una stella d’oro, ma un pessimo compito valeva a malapena l’inchiostro del 5.

Fin dall’inizio, dalla prima lezione del cucciolo, il rinforzo differenziale è l’unico modo per andare ad aumentare continuamente e progressivamente l’affidabilità, la frequenza, il brio delle prestazioni. In sostanza, il valore del premio varia secondo gli aspetti quantitativi e qualitativi delle prestazioni. Come linea guida, non premiate un cane per più del 50 % di risposte corrette. Circa il 50% delle risposte sarà inferiore alla media e non c’è assolutamente alcuna ragione nel premiare il cane per queste risposte, a meno che non si voglia che il suo comportamento peggiori.

Ad esempio, richiamate il cane 10 volte e prendete il tempo che ci mette a fare ogni richiamo, poi calcolate il suo tempo medio di richiamo. Fatto questo, iniziate a premiare il vostro cane solo per i richiami più veloci rispetto alla media. Ricalcolate la sua media dopo ogni dieci richiami e troverete che sta costantemente migliorando man mano che le sessioni di training procedono. Per ogni dieci richiami, vi accorgerete che cinque o sei sono più veloci rispetto alla media.

 

Tradotto e pubblicato con il permesso dell’autore, dott. Ian Dunbar, e dell’editore  DogStarDaily.com
Traduzione Cristina Tirelli