- Antécédents du conditionnement opérant
- Concepts de base du conditionnement opérant
- - Renforcement
- Renforcement positif
- Renforcement négatif
- Renforts primaires
- Renforts secondaires
- - contingence à trois termes
- - Châtiment
- Punition positive
- Punition négative
- - Extinction
- - Généralisation
- - La discrimination
- Programmes de renforcement
- Programmes de renforcement continu
- Programmes de renforcement intermittent
- Programmes à ratio fixe
- Programmes à ratio variable
- Programmes à intervalles fixes
- Programmes à intervalles variables
- Changement de comportement
- Approches successives ou mise en forme
- Chaînage
- Références
Le conditionnement opérant ou conditionnement instrumental est un type d'apprentissage où le comportement est contrôlé avec les conséquences. Elle repose sur l'idée que les comportements renforcés ont tendance à apparaître plus souvent, tandis que les comportements punis s'éteignent.
Quelle est la différence entre le conditionnement opérant et le conditionnement classique? Dans le conditionnement opérant, une réponse volontaire est suivie d'un renforçateur. De cette façon, une réponse volontaire (par exemple, étudier pour un examen) a plus de chances d'avoir lieu à l'avenir.
Boîte Skinner
En revanche, dans le conditionnement classique, un stimulus déclenche automatiquement une réponse involontaire. Par exemple, la nourriture qu'un chien voit lui fait produire de la salive.
Le conditionnement opérant peut être décrit comme un processus qui tente de modifier le comportement en utilisant un renforcement positif et négatif. Par le conditionnement opérant, un individu établit une association entre un comportement particulier et une conséquence. Exemples:
- Les parents récompensent les bonnes notes d'un enfant avec des bonbons ou une autre récompense.
- Un enseignant récompense les élèves calmes et polis. Les élèves constatent qu'en se comportant ainsi, ils reçoivent plus de points.
- Une nourriture est donnée à un animal chaque fois qu'un levier est enfoncé.
BF Skinner (1938) a inventé le terme conditionnement opérant. Skinner a identifié trois types de réponses ou opérants:
- Opérateurs neutres: réponses de l'environnement qui n'augmentent ni ne diminuent la probabilité qu'un comportement se répète.
- Renforceurs: réponses de l'environnement qui augmentent la probabilité de comportement répété. Les renforçateurs peuvent être positifs ou négatifs.
- Punitions: réponses de l'environnement qui diminuent la probabilité qu'un comportement se répète. La punition affaiblit le comportement.
Antécédents du conditionnement opérant
Thorndike a été le premier à reconnaître que le conditionnement comprend plus qu'une simple réponse et un renforçateur. La réponse se produit en présence de certains stimuli, en considérant trois événements: le stimulus, la réponse et la conséquence de la réponse ou renforçateur.
Edward Thorndike. Par: Popular Science Volume mensuel 80
Cette structure facilite l'association entre le stimulus et la réponse. Dans sa loi d'effet, Thorndike a déclaré que les réponses qui sont suivies de conséquences renforçantes auront une probabilité plus élevée d'occurrence lorsque le stimulus réapparaît.
Au contraire, les réponses qui sont suivies de conséquences négatives auront une probabilité plus faible d'occurrence lorsque le stimulus réapparaît. La loi de l'effet est l'antécédent du conditionnement opérant ou du conditionnement instrumental, comme l'a nommé Thorndike.
Pour Skinner, psychologue du comportement, le conditionnement était le renforcement des comportements en fonction des conséquences précédemment obtenues.
Skinner
Dans ce sens, il existe deux formes de conditionnement:
- Le classique ou pavlovien: il repose sur l'association de stimuli inconditionnés et conditionnés, les réponses étant contrôlées par les stimuli antécédents.
- Conditionnement opérant: des stimuli conséquents ou renforçateurs provoquent l'émission d'un certain comportement. Skinner explique que si le comportement est suivi par un renforçateur positif, cela augmenterait la probabilité d'émission dudit comportement dans le futur. Au contraire, si une réponse n'est pas suivie d'un renforçateur ou que ce renforçateur est négatif, la probabilité d'émettre ledit comportement dans le futur sera plus faible.
Rat en boîte de Skinner
Concepts de base du conditionnement opérant
- Renforcement
Il est responsable de l'émission des réponses, c'est-à-dire de la probabilité qu'elles se produisent, qu'elle soit supérieure ou inférieure à l'avenir. C'est un stimulus renforçant et conséquent, car il se produit une fois que la réponse s'est produite.
Il est impossible de savoir si un renforçateur particulier influence le comportement jusqu'à ce qu'il dépende d'une réponse et que le comportement change en conséquence du renforçateur.
Il existe deux types de renforcement: positif et négatif. Les deux ont le même objectif d'augmenter la probabilité que la réponse soit émise dans des situations futures. De plus, pour Skinner, les renforçateurs sont définis par des comportements observables et mesurables.
Renforcement positif
Le renforcement positif renforce un comportement en fournissant une conséquence qu'un individu trouve gratifiante. Par exemple, nourrir un chien après s'être assis. Dans ce cas, le comportement assis serait renforcé.
Renforcement négatif
La suppression d'un renforçateur désagréable peut également renforcer un comportement. Ceci est connu sous le nom de renforcement négatif car c'est la suppression d'un stimulus indésirable pour l'animal ou la personne qui conditionne le comportement.
Le renforcement négatif renforce le comportement en arrêtant ou en éliminant une expérience désagréable.
Par exemple, si un enfant est maltraité à la maison et lorsqu'il sort dans la rue, il n'est pas maltraité, le comportement de sortir serait renforcé.
Renforts primaires
Ce seraient tous ces renforçateurs de base qui n'ont pas besoin d'antécédents de conditionnement préalable pour fonctionner en tant que tels. Certains exemples seraient l'eau, la nourriture et le sexe.
Renforts secondaires
Les renforçateurs secondaires seraient basés sur des histoires antérieures de conditionnement grâce à l'association avec des stimuli inconditionnés. Certains exemples seraient l'argent et les qualifications.
- contingence à trois termes
Source: Joshua Seong / Verywell
C'est le modèle de base du conditionnement opérant et se compose de trois composants: le stimulus discriminant, la réponse et le stimulus renforçant.
Un stimulus discriminant serait celui qui indiquera au sujet que le renforçateur est disponible, indiquant que s'il réalise un certain comportement, il pourra obtenir ledit renforçateur. En revanche, nous avons le stimulus delta ou les stimuli qui indiquent que le comportement ne conduira à l'obtention d'aucun type de renforçateur.
La réponse serait le comportement que le sujet effectuera, dont l'exécution conduira ou non à obtenir le stimulus renforçant.
Un stimulus de renforcement est responsable de l'émission du comportement, car grâce à son apparition, la probabilité d'émission d'une réponse augmentera ou diminuera dans le futur.
- Châtiment
La punition se mesure également par ses effets sur le comportement du sujet. Au contraire, contrairement au renforcement, il s'agit de réduire ou de supprimer un certain comportement.
Une punition réduit la probabilité d'émettre un comportement dans des situations ultérieures. Cependant, cela n'élimine pas la réponse car si la menace de punition diminue, le comportement peut réapparaître.
Dans la punition, il existe également deux types ou procédures différents, la punition positive et la punition négative.
Punition positive
Cela implique la présentation d'un stimulus aversif après avoir effectué un certain comportement. Elle est donnée de manière contingente à la réponse donnée par le sujet.
Par exemple, lorsque du liquide est mis sur les ongles des enfants pour prévenir l'onychophagie. L'enfant savoure le mauvais goût du liquide (punition positive) et la probabilité qu'il se ronge à nouveau les ongles est réduite.
Punition négative
Il consiste en l'élimination d'un stimulus à la suite d'un certain comportement, c'est-à-dire qu'il consiste en le retrait d'un stimulus positif après l'exécution d'un certain comportement.
Par exemple, si un enfant est retiré de l'utilisation de la console de jeu après avoir échoué à un examen.
- Extinction
En extinction, une réponse est stoppée car le renforçateur n'apparaît plus. Ce processus est basé sur le fait de ne pas fournir le renforçateur correspondant qui devrait être obtenu et qui a entraîné le maintien de ce comportement au fil du temps.
Lorsqu'une réponse est éteinte, le stimulus discriminant devient le stimulus d'extinction. Ce processus ne doit pas être confondu avec l'oubli, qui se produit lorsque la force d'un comportement diminue du fait de ne pas avoir été émis dans un laps de temps.
Par exemple, si un enfant ne reçoit pas d'argent malgré des plaintes constantes, le comportement de plainte serait éteint.
- Généralisation
Face à une situation ou un stimulus donné, une réponse est conditionnée, qui peut apparaître avant d'autres stimuli ou situations similaires.
- La discrimination
Ce processus est à l'opposé de la généralisation, il répond différemment selon le stimulus et le contexte.
Programmes de renforcement
Skinner a également établi divers programmes de renforcement grâce à ses recherches, y compris des programmes de renforcement continu et des programmes de renforcement intermittent.
Programmes de renforcement continu
Ils sont basés sur le renforcement constant de la réponse à chaque fois qu'elle se produit, c'est-à-dire qu'à chaque fois que le sujet exécute le comportement souhaité, ils obtiendront un stimulus renforçant ou positif.
Programmes de renforcement intermittent
En revanche, ici le sujet n'obtient pas toujours le renforçateur en effectuant le comportement souhaité. Celles-ci sont définies en fonction du nombre de réponses données ou de l'intervalle de temps entre les réponses, conduisant à des procédures différentes.
Programmes à ratio fixe
Dans ces programmes, le renforçateur est fourni lorsque le sujet génère des réponses fixes et constantes. Par exemple, dans un programme de rapport 10, la personne obtient le renforçateur après avoir fait dix réponses lorsque le stimulus est présenté.
Programmes à ratio variable
Celle-ci est construite de la même manière que la précédente, mais dans ce cas, le nombre de réponses que le sujet doit donner pour obtenir le renforçateur est variable.
Le renforçateur continuerait à dépendre du nombre de réponses émises par le sujet mais avec un rapport variable, grâce auquel le sujet est empêché de prédire quand le renforçateur sera obtenu.
Programmes à intervalles fixes
Dans les programmes d'intervalle, l'obtention du renforçateur ne dépend pas du nombre de réponses que le sujet donne, mais est déterminé par le temps écoulé. Par conséquent, la première réponse produite après un certain laps de temps est renforcée.
Dans les programmes à intervalle fixe, le temps entre l'amplificateur et l'amplificateur est toujours le même.
Programmes à intervalles variables
Dans ces programmes, le renforçateur est obtenu après un certain temps, bien que le temps soit différent pour chaque renforçateur reçu.
Changement de comportement
Approches successives ou mise en forme
Le moulage consiste en un changement de comportement à travers la modélisation de comportements ou le renforcement différentiel d'approches successives.
Une série d'étapes est suivie pour façonner un comportement spécifique. En premier lieu, le comportement initial à modeler est identifié afin de savoir ce que l'on veut atteindre.
Ensuite, les renforçateurs possibles à utiliser sont délimités et le processus pour atteindre le comportement final est séparé en étapes ou étapes, renforçant chaque étape ou approche successives jusqu'à atteindre la dernière.
Avec cette procédure dynamique, les comportements et leurs conséquences sont transformés. En ce sens, les approches successives vers un comportement objectif sont renforcées.
Cependant, pour qu'elle soit réalisée, il est nécessaire de partir d'un comportement antérieur que le sujet réalise déjà, afin de renforcer progressivement ses comportements jusqu'à ce qu'il atteigne le but.
Chaînage
Avec lui, un nouveau comportement se forme à partir de la décomposition en étapes ou séquences plus simples, renforçant chaque réponse donnée à chacune des étapes pour conduire ainsi à l'établissement d'une réponse plus complexe dans le répertoire comportemental du sujet.
De longues chaînes de réponses peuvent être formées à l'aide de renforçateurs conditionnés, adoptant une unité fonctionnelle et dont l'établissement conduit à l'acquisition et à la définition d'une compétence particulière.
Références
- Conditionnement opérant. Récupéré de wikipedia.org
- Conditionnement opérant. Récupéré de e-torredebabel.com.
- Récupéré de biblio3.url.
- Loi d'effet. Récupéré de wikipedia.org.
- Extinction. Récupéré de wikipedio.org.
- Domjan, M. Principes d'apprentissage et de comportement. Salle. 5e édition.