le conditionnement opérant

Article original disponible sur : http://deliriumstudens.org/wiki/index.php

L’étude de Edward Thorndike (1898)

Figure 1. Le « puzzle box » d'Edward Thorndike (1874-1949). Ci-après le lien a une des nombreuses vidéos que l'on peut trouver sur Youtube à ce sujet: [1].

Un chat se trouve dans une cage munie d’un levier mécanique (le « puzzle box »); à l’extérieur, de la nourriture est placée bien en vue.
Le chat explore la cage. Par hasard, il trébuche sur le levier, la porte de la cage s’ouvre et le chat accède à la nourriture.
Que se passe-t-il si le chat est remis dans la cage?
Le chat devient de plus en plus expert pour manipuler le levier et quitte la cage dès que la nourriture est présentée.

C'est dans la cave de Mr. James qu'Edward Thorndike a inventé le « puzzle box ». Un chat affamé est placé dans cette boîte fermée. De la nourriture est placée bien en vue de l'animal. Tout d'abord le chat explore le terrain. Il n'est pas « équipé » pour savoir comment ouvrir la boîte, il n'est pas « équipé » pour suivre un but. Mais, au bout d'un certain temps, par accident il réussit à ouvrir la porte et accède à la nourriture. En remettant le même chat, dans la même boîte le jour suivant, le chat réussit à ouvrir la boîte un peu plus vite que la première fois. Chaque jour, ou presque, le chat ouvre la boîte un peu plus vite.

Loi de l'association, entre un stimulus neutre (SN) et inconditionné (SI).

La courbe d'apprentissage

Figure 2. Une courbe d'apprentissage typique. La forte hausse entre le dixième et vingtième essai est probablement dû au fait que le chat, repus, a préféré se reposer dans la boîte plutôt que de chercher à sortir.

Le conditionnement instrumentaire
- Dans un premier temps, le chat met un certain temps pour réussir à sortir par hasard de la boîte.
- Dans un second temps, le temps qu'il met pour sortir chute.
- Puis, typiquement, il y a un ralentissement.
- Finalement, le temps que le chat met à sortir réduit jusqu'à se stabiliser.
Courbe logarithmique.
- Après 4-5 essais, il y a une stabilisation du comportement.
- Ce n'est pas un comportement naturel, mais une adaptation.

La « loi de l’effet »

Sur la base de ses observations, Thorndike (1911) a proposé une importante loi de l’apprentissage: « la loi de l’effet ».
La loi de l’effet est la tendance d’un animal à reproduire un comportement en conséquence des effets de ce comportement sur l’environnement et de l’impact de ces effets sur l’animal - le comportement est donc une fonction de ces conséquences.
- La tendance d’un animal à reproduire un comportement dépend des effets de ce comportement sur l’environnement et de l’impact de ces effets sur l’animal - le comportement est donc une fonction de ces conséquences.
- Le comportement est un effet de ses conséquences (« Law of effect »). Tous les comportements on un effet sur d'autres comportements et ainsi de suite.
Thorndike a nommé ce processus de l’apprentissage le « conditionnement instrumental » parce que le comportement avait un caractère instrumental dans l’accomplissement d’un but – la satisfaction (p.ex. obtenir de la nourriture).
- Le conditionnement instrumental, d'ailleurs plutôt appelé « conditionnement opérant », est un comportement utile pour obtenir quelque chose, mais cela implique un apprentissage, ce qui n'est pas naturel.

Thorndike très influent, a réfléchi aux règles derrière ses observations. Il a formulé une loi appelée la « loi de l'effet » (« law of effect »). D'ailleurs, l'économie est basée là-dessus.

B.F. Skinner (1938, 1953): le conditionnement opérant

Figure 3. Burrhus Frederic Skinner at the Harvard Psychology Department, circa 1950.

Skinner (1904-1990) est resté « black box » (boîte noire), jusqu'à la fin de sa vie.

Sur la base de ses nombreuses expériences (surtout avec des pigeons et des rats), Skinner a systématisé la façon dont le comportement est contrôlé par l’environnement selon la « loi de l’effet ».
Position behavioriste radicale: explication du comportement sans utilisation de concepts mentaux.
- Pas d'attentes, pas de sentiments. Il a aussi changé la terminologie de Thorndike « conditionnement instrumental ». Il faut tout expliquer avec ce qu'on peut observer à la surface. Il a appelé ça le « conditionnement opérant ».
Introduction du terme « conditionnement opérant » qui signifie que le comportement opère sur l’environnement afin de produire une conséquence.
Les opérants sont des comportements émis (produits spontanément) plutôt que générés par l’environnement.

Skinner (1938): 3 suppositions fondamentales

Les animaux sont très fréquemment actifs – par conséquent les organismes manifestent des comportements d’une manière continue.
Les conséquences des comportements influencent la probabilité avec laquelle ces comportements seront répétés à l’avenir.
L’état motivationnel de l’organisme et son environnement physique et social influencent l’efficacité de ces conséquences.
- Par exemple, l’efficacité de la nourriture pour augmenter la probabilité d’un comportement dépend de la durée de la privation de la nourriture.

S'il n'y a pas un état qui pousse un organisme à avoir un comportement, il n'y aura pas d'apprentissage.

Le conditionnement opérant

Lors du conditionnement opérant, le comportement précède l’événement environnemental qui produit le futur comportement.
- (Rappelez que le stimulus environnemental précède la réaction lors du conditionnement classique).
L’idée principale est que tout le comportement est déterminé par ses conséquences (selon la « loi de l’effet »).
- Le stimulus neutre (SN) qui précède la réaction. Dans le « conditionnement opérant », le comportement précède l’événement environnemental qui produit le futur comportement.
En général, il y a deux types de conséquences:
- Le renforcement (qui augmente la probabilité qu’une réaction se produise).
- La punition (qui diminue la probabilité qu’une réaction se produise).

S'il y a une conséquence qui augmente la probabilité de faire quelque chose, c'est un renforçateur, sinon, c'est une punition.

D'après Skinner, il faut « conditionner les gens pour les rendre heureux ». Il dit qu'il n'est pas bien que les parents éduquent leurs enfants, que cela devrait être le travail d'experts en éducation parce qu'ils sont justes, objectifs, etc. Skinner vivait littéralement son béhaviorisme. La liberté, d'après lui, est trop chère, parce qu'elle amène le chaos.

L’équipement de recherche: la fameuse « Skinner box »

Skinner a développé la « Skinner box », qui est une boîte avec un fond en général métallique permettant d'envoyer des secousses électriques. Néanmoins Skinner n'a pas beaucoup travaillé avec la punition, il était un fervent utilisateur de la récompense. La « boîte de Skinner » est utilisée sans intervention de l'expérimentateur: machine et animal. Il faut juste définir la réaction voulue pour cause donnée. Un pigeon ou un rat peut être placé dans une de ces boîtes et, par exemple, un renforcement peut être créé lorsque l'animal appuie sur un levier (en général en obtenant de la nourriture).

Les renforcements

Il y a des renforçateurs positifs et négatifs.
Pour une simulation, voir le site suivant: [2]
Renforcement positif ou négatif ≠ agréable ou désagréable.
Je donne ou j'enlève quelque chose.

Renforcement positif

Un renforçateur (S^R) est une conséquence environnementale qui se produit après la réaction d'un organisme et qui rend la réapparition de cette réponse (R) plus probable.
Le renforcement positif est le processus par lequel la présentation d'un stimulus après un comportement augmente la probabilité que ce comportement se produise à nouveau.
Dans l'étude de Thorndike (1898), par exemple, la nourriture était le renforçateur pour appuyer sur le levier. (Skinner a répliqué l'étude avec des pigeons dans une « Skinner box »).

Renforcement positif ≠ agréable.

Un renforcement positif ne veut pas dire que c'est quelque chose d'agréable. Le renforcement augmente la probabilité de faire quelque chose, la punition diminue cette probabilité.

Il faut définir le comportement cible pour changer le comportement actuel. Le renforcement est positif parce que je « donne » quelque chose qui augmente la probabilité de faire quelque chose.

Renforcement négatif

Le renforcement négatif est le processus par lequel l’élimination d’un stimulus après un comportement augmente la probabilité que ce comportement se produise à nouveau.
L’apprentissage d’échappement est un renforcement par l’élimination d’un événement aversif déjà existant: si j'enlève quelque chose qui n'est pas agréable, ça fonctionne comme renforçateur. Élimination d'un élément aversif (dissuasif) déjà existant.
- Exemples:
  - Un rat apprend d’appuyer sur un levier pour interrompre une stimulation douloureuse comme un choc électrique ou du bruit.
  - Un enfant apprend à ranger sa chambre pour ne plus entendre ses parents rouspéter.
L’apprentissage d’évitement est un renforcement par l’élimination d’un événement qui est signalé par avance.
- Exemples:
  - Un rat apprend d’appuyer sur un levier si un son signale qu’un choc électrique va suivre.
  - Un enfant apprend de ranger sa chambre avant d’entendre ses parents rouspéter.

Renforcement négatif ≠ désagréable.

Un renforcement négatif ne veut pas dire que c'est quelque chose de désagréable. Le renforcement augmente la probabilité de faire quelque chose, la punition diminue cette probabilité.

Punition positive et négative

Une punition (S^P) est une conséquence environnementale d’un comportement qui diminue la probabilité d’une réponse (R).
Comme pour le renforcement, il y a des punitions positive et négative.
Dans la punition positive, un stimulus aversif est présenté.
- Exemples:
  - Le choc électrique. Un rat fait quelque chose d'appris ou par hasard, il y a une conséquence douloureuse. C'est ce qu'on appelle la punition positive: un stimulus aversif (dissuasif) est présenté.
  - Le rat évite d’appuyer sur un levier après avoir obtenu un choc électrique.
  - Un enfant ne fait plus de désordre dans sa chambre après avoir entendu ses parents rouspéter.
Dans la punition négative, un stimulus agréable est éliminé.
- par exemple un employé qui n’obtient pas d’augmentation de salaire à cause de ses fréquents retards.

Problèmes du renforcement et de la punition

L’organisme doit savoir exactement quel comportement est renforcé ou puni. Il faut connaître des « contingences ».
Un des problèmes de la punition est la difficulté à distinguer quel opérant a été puni.
- Par exemple, les « experts » qui appellent plusieurs fois de suite leur chien (ou un enfant) et lui crient dessus parce qu’il n’est pas venu tout de suite punissent le bon comportement – venir après l’appel.
À long terme, l’extinction et plus efficace que la punition positive^[1]. Après la punition positive est terminée, il y a fréquemment une récupération spontanée.

Skinner utilisait plutôt le renforcement. On peut contrôler le comportement, mais on ne peut pas vraiment effacer quelque chose.

Par exemple, avec un chien, il faut l'appeler et donner de la nourriture (le renforçateur) seulement s'il vient (même si cela prend du temps). Il ne faut jamais aller vers lui, parce que c'est ça qui va renforcer son comportement. Il faut savoir ce qu'il faut renforcer. Cela veut dire que même si le chien met du temps à venir (si c'est le comportement que l'on veut renforcer), il faut lui donner sa récompense (ce qui renforcera son comportement). Donc, la contingence s'il vient avec du « retard » est de le récompenser.

On peut confondre un organisme en punissant un comportement qu'il faudrait renforcer.

À long terme Skinner, qui était contre la punition, dit que l'extinction est plus efficace que la punition positive. La punition marche si on peut l'appliquer, mais il faudrait toujours être en mesure de punir (un peu comme les systèmes fasciste ou communiste).

Ça demande du courage (et de la patience) de ne rien faire. Un comportement complètement puni devient peu intéressant si on ne fait rien.

L’étude de Estes (1944): la punition et l’extinction

Fichier:Punition et extinction.gif

Figure 5.

Estes a comparé l'efficacité de la punition vs l'extinction.

D’abord, des rats sont renforcés avec de la nourriture pour appuyer sur un levier.
- Le rat: « si j'appuie sur ce truc, ça fait du bien. »
Puis, on forme deux groupes (on ne veut plus que le rat appuie sur le levier):
- Punition: au cours d’une session, des chocs électriques sont délivrés suite à appuyer sur le levier.
- Extinction: au cours d’une session, il n’y a plus de renforcement (il n'y a plus de nourriture).
Puis on observe les rats au cours de quatre jours d’extinction.
Mesure: fréquence d’appuyer sur le levier.
Résultat (figure 5): la punition réduit le comportement cible (appuyer sur le levier), mais puis il y a une récupération spontanée.

Au bout de quatre jours, donc, on arrive au même résultat avec les deux méthodes. La punition est efficace mais il faut toujours être en mesure de pouvoir punir. À court terme la punition marche, mais avec des frais élevés. Elle ne donne pas d'avantage à long terme. La punition ne peut pas effacer un comportement.

D'autres problèmes

Un autre problème de la punition est l’association de la peur de celui qui apprend avec la personne qui punit (via le conditionnement classique) plutôt qu’avec sa propre activité (via le conditionnement opérant).
- Le parent qui puni est associé avec la punition. Ça rend la vie sociale difficile. Les relations ambigües avec le maître, les parents, etc. Du coup, la punition est l’association de la peur de celui qui apprend avec la personne qui punit (via le conditionnement classique) plutôt qu’avec sa propre activité (via le conditionnement opérant).
La punition ne peut pas éliminer les récompenses déjà existantes pour un comportement (p.ex. punition d’un enfant qui suce son pouce).
- La punition ne peut jamais complètement éliminer le comportement une fois qu'il est établi.
- La punition peut seulement supprimer le comportement, mais pas l'éliminer.
- Si on a un enfant qui suce son pouce, la punition peut arrêter le comportement, mais pas éliminer le plaisir qu'il en tire.
« L’apprentissage secondaire » - un enfant puni apprend qu’on peut résoudre des problèmes par voie d’agression.
La punition est seulement efficace lorsqu’elle est accompagnée d’un raisonnement et d’un comportement alternatif qui est renforcé.

Renforcement et punition en bref

Tableau 1. Les renforcement et punition en bref.
	Renforcement	Punition



Positif	Présentation d'un stimulus « agréable »	Présentation d'un stimulus « aversif »

Négatif	Élimination d'un stimulus « aversif »	Élimination d'un stimulus « agréable »

Rappel: les termes « agréable » et « aversif » dépassent les concepts utilisés selon la perspective du behaviorisme classique.

Un regard plus détaillé

Tableau 2. Types of reinforcement and punishment.
Type	Definition	Effect	Example



Positive reinforcement	Delivery of a pleasant or appetitive stimulus following a behavioral response	Increase the frequency of the behavioral response	If studying is followed by a high grade on an exam, then the incidence of studying before exams will increase

Negative reinforcement	Removal of an unpleasant or aversive simulus following a behavioral response	Increase the frequency of the behavioral response	If leaving a study area removes you from a noisy classmate, then the time you spend away from the study area will increase

Positive punishment ("punishment")	Delivery of an unpleasant or aversive stimulus following a behavioral response	Decrease the frequency of the behavioral response	If your professor embarrasses you for asking a question in class, then the likelihood you will ask questions in class will decrease

Negative punishment ("omission training")	Removal of a pleasant or appetitive stimulus following a behavioral response	Decrease the frequency of the behavioral response	If your girl- or boyfriend withholds affection whenever you watch TV, the time you spend in front of the TV will decrease.

Comment peut-on changer une réaction conditionnée?

Il y a au moins trois stratégies pour changer ou éliminer des réactions conditionnées:

L'extinction: rien faire, mais ça demande beaucoup de patience (p.ex.: ignorer le mauvais comportement d'un enfant).
La punition: présenter une conséquence dissuasive (« aversive consequence ») ou éliminer une conséquence agréable du comportement.
Le contre-conditionnement: renforcer un comportement incompatible (p.ex. féliciter un enfant d’être assis afin d’éliminer son habitude de courir partout).

Notes & Références

↑ Estes, 1944; Skinner, 1938

[1] Estes, 1944; Skinner, 1938

[1]

Conditionnement opérant - Enseignement programmé

Sommaire

le conditionnement opérant

L’étude de Edward Thorndike (1898)

La courbe d'apprentissage

La « loi de l’effet »

B.F. Skinner (1938, 1953): le conditionnement opérant

Skinner (1938): 3 suppositions fondamentales

Le conditionnement opérant

L’équipement de recherche: la fameuse « Skinner box »

Les renforcements

Renforcement positif

Renforcement négatif

Punition positive et négative

Problèmes du renforcement et de la punition

L’étude de Estes (1944): la punition et l’extinction

D'autres problèmes

Renforcement et punition en bref

Un regard plus détaillé

Comment peut-on changer une réaction conditionnée?

Notes & Références

Menu de navigation

Conditionnement opérant - Enseignement programmé

le conditionnement opérant

L’étude de Edward Thorndike (1898)

La courbe d'apprentissage

La « loi de l’effet »

B.F. Skinner (1938, 1953): le conditionnement opérant

Skinner (1938): 3 suppositions fondamentales

Le conditionnement opérant

L’équipement de recherche: la fameuse « Skinner box »

Les renforcements

Renforcement positif

Renforcement négatif

Punition positive et négative

Problèmes du renforcement et de la punition

L’étude de Estes (1944): la punition et l’extinction

D'autres problèmes

Renforcement et punition en bref

Un regard plus détaillé

Comment peut-on changer une réaction conditionnée?

Notes & Références

Menu de navigation

Rechercher