Conditionnement opérant (Skinner) - Enseignement programmé

Conditionnement opérant

La contribution théorique majeure de B.F. Skinner (1904-1990) à la psychologie est le concept de conditionnement opérant, qu'il distingue du conditionnement classique pavlovien ou conditionnement répondant (terme qu'il invente lui-même). Une classe de comportement constitue un opérant si la probabilité d'apparition de ces réponses est modulable par la manipulation des contingences de renforcement. En clair, on dira qu'une action est conditionnée de manière opérante quand sa fréquence augmente dans le comportement d'un organisme du fait de ses conséquences positives pour l'organisme. Dans le conditionnement classique un stimulus entraîne une réponse, dans le conditionnement opérant, on renforce une réponse par la manipulation des contingences.

Reforcement et punition

L'apprentissage skinnerien repose sur deux éléments, le renforcement et la punition, pouvant chacun être soit positif soit négatif. Ces termes doivent être pris dans le sens précis du conditionnement opérant :

Renforcement : Conséquence d'un comportement qui rend plus probable que le comportement soit reproduit de nouveau.
Punition : Conséquence d'un comportement qui rend moins probable que le comportement soit reproduit de nouveau.

Un renforcement ou une punition peut être soit :

Positif : Par l'ajout d'un stimulus agissant sur l'organisme.
Négatif : Par le retrait d'un stimulus agissant sur l'organisme.

Les différents types de conditionnement opérant

Ainsi, il existe 4 types de conditionnement opérant :

Renforcement positif : Procédure par laquelle la probabilité de fréquence d'apparition d'un comportement tend à augmenter suite à l'ajout d'un stimulus appétitif contingent à la réponse. Ex: Ajout d'une récompense, félicitations...
Renforcement négatif : Procédure par laquelle la probabilité de fréquence d'apparition d'un comportement tend à augmenter suite au retrait d'un stimulus aversif contingent à la réponse. Ex: Retrait d'une obligation, d'une douleur...
Punition positive : Procédure par laquelle la probabilité de fréquence d'apparition d'un comportement tend à diminuer suite à l'ajout d'un stimulus aversif ou conséquence aversive contingente au comportement cible. Ex: Ajout d'une obligation, d'une douleur...
Punition négative : Procédure par laquelle la probabilité de fréquence d'apparition d'un comportement tend à diminuer suite au retrait d'un stimulus appétitif. Ex: Retrait d'un privilège, d'un droit...

Les renforçateurs

Il existe 2 sortes de renforçateurs (éléments de renforcement) :

Renforçateur primaire : Le renforçateur répond directement à un besoin essentiel de l'individu. Ex: Nourriture... On peut le comparer au stimulus inconditionnel de Pavlov (même si, là, il a un rôle a posteriori
Renforçateur secondaire : Le renforçateur est un renforçateur par un certain apprentissage fait au préalable. Ex: Jouet, argent...

Schéma du conditionnement opérant

Expérience

Le paradigme expérimental du conditionnement opérant est le suivant : Un animal affamé est placé dans un cage pourvue de deux mécanismes : un dispositif réponse pouvant être actionné par l’animal et un réceptacle destinée à recevoir une quantité déterminée de nourriture ou de liquide. Sur la base des réponses d’exploration du milieu présentées par l’animal, l’expérimentateur amène progressivement une unité de comportement sous le contrôle du renforcement. En d’autres termes, la réponse choisie par , l’expérimentateur, actionner le dispositif réponse, est suivi de l’octroi d’un peu de nourriture. Comme chez Thorndike, le hasard est un élément déterminant de la résolution de problème. En effet, le dispositif est actionné par hasard par l'animal. On verra ensuite l’animal répéter la réponse dont la probabilité d’apparition atteindra un niveau stable aussi longtemps qu’elle sera suivie d’un renforcement. L’unité de comportement ainsi installée, ou réponse opérante, est fonctionnellement reliée à ses conséquences, ou renforcement. Dans le paradigme expérimental du conditionnement opérant, il n’existe aucune relation de cause à effet entre la réponse et le renforcement avant le conditionnement, contrairement au conditionnement pavlovien. En effet, dans les expériences de Pavlov, stimulus inconditonnel (nourriture) et réponse inconditionnelle (salivation) sont liés avant le conditionnement. Ce n'est que par la suite qu'un lien artificiel va être créé en superposant un stimulus neutre au stimulus inconditionnel. En outre, dans le conditionnement pavlovien, l’organisme subit la réponse. Dans le conditionnement skinnerien, il agit sur son milieu, et obtient son renforcement grâce à son action. En d’autre termes une réponse de type classique ou pavlovien est contrôlée par les événements qui la précèdent ; une réponse de type opérant est contrôlée par ses conséquences.

vidéo de l'expérience de skinner

Et l’être humain ?

La théorie du conditionnement opérant de Skinner nous permet d'établir un lien direct entre béhaviorisme et pédagogie. Les autres théoriciens (Pavlov, Watson) s'étaient intéressés jusque-là aux mécanismes d'apprentissages, tant humains qu'animaux, mais n'en avaient pas tiré d'application concrète à destination de l'enseignement. Skinner, nous le verrons, tirera des applications pédagogiques de ses théories. Mais commençons d'abord par examiner ce que signifie l'apprentissage pour ce dernier.

Pour Skinner, l’efficacité de l’apprentissage est liée à six principes :

le principe de la participation active : le sujet doit construire sa réponse et non la choisir ;
le principe des petites étapes : il faut fragmenter la difficulté pour que même les plus faibles puissent répondre ;
le principe de progression graduée ;
le principe de l’allure personnelle : chacun doit pouvoir avancer à son rythme ;
le principe des réponses correctes : trop d’échecs découragent les élèves, il faut les guider.

L’enseignement programmé

Skinner critique l’enseignement classique. Ses travaux en psychologie du comportement soulèvent l’importance d’un renforcement pour l’apprentissage. Pour lui, ce renforcement est fondamental et doit être immédiat, or, dans les classes habituelles, le délai est très long, trop long. De plus, pour lui, le renforcement ne s’intègre pas dans une suite logique d’activités qui permettrait à l’élève d’apprendre un comportement complexe. Enfin, les renforcements sont trop rares, ceci étant lié essentiellement au fait que de nombreux élèves dépendent d’un même enseignant. Il propose donc de réformer cette école, en partant des résultats du conditionnement opérant, en tant que théorie du contrôle des mécanismes d'apprentissage. Il envisage ainsi la création d'une technologie scientifique de l'enseignement qui utilise l'enseignement programmé, susceptible d'être dispensé par une machine à enseigner. La machine à enseigner de Skinner est une boîte parallélépipédique dans laquelle se trouve un rouleau de papier. L’élève commande le déroulement de la bande par la molette se trouvant sur le devant. Les questions apparaissent ainsi une par une ouverture dans la fenêtre. L’élève inscrit sa réponse sur un espace blanc réservé à cet effet, puis tourne la molette. Ceci lui permet de voir la réponse. Il compare ainsi son résultat à la réponse fournie et, si elle est juste, il actionne un levier qui, par perforation de la feuille de programmation, enregistre les bonnes réponses. Puis, il passe à la question suivante. Dans la machine de Skinner, l’enseignement est apporté par la correction immédiate. Mais il s’agit avant tout de machines d’auto-évaluation et non de support de connaissances au sens où nous l’entendons habituellement. La machine propose en outre un enseignement linéaire, en aucun cas la réponse de l’élève ne peut influencer le choix de la question suivante. Pour Skinner (1968), « l’élève doit composer lui-même sa réponse, plutôt que de la choisir parmi plusieurs possibilités, comme c’est le cas dans les dispositifs à choix multiples ». En effet, il pense que le Q.C.M entraîne des erreurs que l’élève n’aurait jamais commises sans cette suggestion. De plus, dans la machine de Skinner c’est l’élève qui s’auto-corrige en comparant sa réponse à celle du programme. Enfin, dans ces machines, bien que Skinner prône le renforcement, il juge qu’un renforcement extérieur n’est pas nécessaire car les renforcements intrinsèques de la réussite et du progrès sont suffisants et inépuisables.

Vidéo sur la machine à apprendre

Ressources complémentaires

Skinner, B.F., Teaching Machines, Science 128:969-977 (1958).

Conditionnement opérant (Skinner) - Enseignement programmé

Sommaire