¿Qué es el condicionamiento operante? Definición y ejemplos

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.

El condicionamiento operante se produce cuando hay una asociación entre un comportamiento determinado y una consecuencia de dicho comportamiento. Esta asociación se expresa en el refuerzo del comportamiento o en su castigo, para alentar o desalentar el comportamiento. El primero en definir y estudiar el condicionamiento operante fue el psicólogo conductista Burrhus Frederic Skinner, quien llevó a cabo varios experimentos con animales para desarrollar su teoría.

La teoría de Burrhus Skinner

Skinner era un sicólogo conductista, escuela de la sicología que se basa en el estudio del comportamiento de las personas. A diferencia de otros sicólogos conductistas que, como John B. Watson, se concentraron en el estudio del condicionamiento clásico, Skinner enfocó sus trabajos en el aprendizaje mediante el condicionamiento operante. El sicólogo observó que en el condicionamiento clásico las respuestas tienden a ser desencadenadas por reflejos innatos, que se producen automáticamente; lo llamó comportamiento demandado. He hizo una distinción entre el comportamiento demandado y el comportamiento operante. Skinner acuñó el término comportamiento operante para describir un comportamiento que se ve condicionado en su reproducción por las consecuencias que genera; así, las consecuencias del comportamiento juegan un papel clave en la reiteración del comportamiento.

La teoría de Skinner se basó en la ley del efecto de Edward Thorndike, que establecía que el comportamiento que provoca consecuencias positivas probablemente se repetiría mientras que, por el contrario, tendría menos posibilidades de repetirse el comportamiento que tuviese consecuencias negativas. Skinner introdujo el concepto de refuerzo en las tesis de Thorndike, estableciendo que el comportamiento que se refuerza tendrá mayores probabilidades de repetirse.

Burrhus Skinner llevó a cabo una serie de experimentos para estudiar el condicionamiento operante usando la denominada «caja de Skinner», una caja que tenía una palanca en un extremo que proporcionaba comida o agua cuando se presionaba. Un animal, una paloma o una rata, se colocaba en la caja donde podía moverse libremente. El animal podía presionar la palanca y entonces obtenía una recompensa. Skinner observó que en este proceso el resultado era que el animal presionaba la palanca con mayor frecuencia, y midió el grado de aprendizaje registrando la tasa de respuesta del animal asociada al refuerzo. A través de los experimentos que desarrolló, Skinner identificó los diferentes tipos de refuerzo y castigo, que alientan o desalientan el comportamiento.

El refuerzo

El refuerzo que surge como consecuencia de un comportamiento alentará y fortalecerá ese comportamiento. Hay dos tipos de refuerzos. El refuerzo positivo, que se da cuando un comportamiento genera en un resultado favorable; por ejemplo, un perro que recibe una gratificación después de obedecer una orden, o un estudiante que recibe un elogio del maestro después de tener un buen desempeño en clase. Este tipo de refuerzo aumenta la probabilidad de que el individuo repita el comportamiento deseado para recibir la recompensa de nuevo.

El otro tipo de refuerzo es el refuerzo negativo, que se produce cuando un comportamiento se traduce en la eliminación de una experiencia desfavorable; por ejemplo, un experimentador que cesa de dar a un mono descargas eléctricas cuando el mono presiona una cierta palanca. En este caso el comportamiento de presionar la palanca se refuerza porque el mono querrá eliminar las descargas eléctricas de nuevo.

Skinner clasificó los refuerzos en dos grupos. Los refuerzos primarios estimulan naturalmente el comportamiento porque son innatamente deseables, como por ejemplo los alimentos. Por su parte, los refuerzos condicionados ,son aquellos que incorporamos al asociarlos con los refuerzos primarios. Un ejemplo de refuerzo condicionado es la retribución monetaria, dado que el dinero no es un elemento innatamente deseable pero puede ser utilizado para adquirir bienes innatamente deseables, como alimentos o cobijo.

El castigo

Se entiende por castigo la respuesta al comportamiento opuesta al refuerzo. El castigo asociado a un cierto comportamiento implica el desaliento y debilita ese comportamiento.

Hay dos tipos de castigo. El castigo positivo o castigo por aplicación, que se produce cuando un comportamiento genera un resultado desfavorable; por ejemplo, un padre castiga a un niño después de que el niño usa una palabra inadecuada. El segundo tipo de castigo es el castigo negativo o castigo por remoción, que se asocia a la supresión de algo favorable como consecuencia de un comportamiento. Por ejemplo, un padre que no da a un niño su asignación semanal porque el niño se ha portado mal.

Aunque el castigo fuese usado ampliamente, tanto Burrhus Skinner como otros investigadores señalaron que no siempre es efectivo. El castigo puede suprimir un comportamiento por un tiempo, pero suele suceder que el comportamiento no deseado vuelva a producirse pasado un cierto tiempo. El castigo también puede tener efectos secundarios no deseados. Por ejemplo, un niño que es castigado por un maestro puede volverse inseguro y temeroso al no saber qué debe hacer para evitar castigos futuros en situaciones que no reproducen el comportamiento castigado. Burrhus Skinner y otros autores sugirieron que en lugar de poner énfasis en el castigo es preferible reforzar los comportamientos deseados e ignorar los comportamientos no deseados. El refuerzo le indica a un individuo cuál es el comportamiento deseable, mientras que el castigo sólo transmite al individuo cuál es el comportamiento no deseado pero no brinda una alternativa superadora.

Conformación de comportamiento

El condicionamiento operante puede conducir a comportamientos cada vez más complejos a través de la conformación, también conocida como el método de las aproximaciones. La conformación se produce a medida que se refuerza cada instancia de un comportamiento de estructura compleja. La conformación comienza por reforzar la primera parte del comportamiento. Una vez que se domina esa parte del comportamiento, el refuerzo sólo ocurre cuando se produce la segunda parte del comportamiento. Y así sucesivamente con los pasos que constituyen el comportamiento. Este patrón de refuerzo se continúa hasta que se domina todo el comportamiento.

Veamos un ejemplo. Cuando a un niño se le enseña a nadar, inicialmente puede ser elogiado sólo por meterse en el agua. Luego es elogiado cuando aprende a patear, y se repite el refuerzo cuando aprende a dar brazadas. Finalmente, el elogio se otorga por impulsarse en el agua mediante movimientos coordinado de brazadas y patadas. El resultado de todo el proceso es la conformación de un comportamiento.

La estrategia del refuerzo

En nuestra vida cotidiana el comportamiento no se refuerza constantemente. Skinner descubrió que la frecuencia del refuerzo puede afectar la rapidez y el éxito en el aprendizaje de un nuevo comportamiento. Especificó varias estrategias de aplicación de refuerzos, cada una con diferentes tiempos y frecuencias.

Una de estas estrategias es el refuerzo continuo, en el cual una respuesta particular se aplica sistemáticamente a cada resultado de un cierto comportamiento. El refuerzo continuo genera un rápido aprendizaje. Sin embargo, si se suprime el refuerzo el comportamiento se debilitará rápidamente y desaparecerá por completo, lo que se conoce como extinción.

Otra estrategia es la tasa constante de recompensa por la cual se otorga un refuerzo del comportamiento luego de un número dado de respuestas. Por ejemplo, un niño puede obtener un reconocimiento cada vez que completa cinco veces su tarea. En este tipo de estrategia la respuesta se ralentiza después de que se otorga la recompensa.

En la estrategia de tasa variable se modifica el número de respuestas para obtener una determinada recompensa. Esta estrategia genera una buenas respuestas que son difíciles de extinguir, dado que la variación en el requerimiento para obtener la recompensa sostiene el comportamiento. Ésta es la estrategia de refuerzo que utilizan las máquinas tragamonedas.

La estrategia de refuerzo a intervalos fijos asigna una recompensa una vez transcurrido un lapso dado. La retribución laboral por hora es un ejemplo de este tipo de estrategia de refuerzo. Al igual que la estrategia por tasa constante, la respuesta aumenta a medida que se acerca el momento de la recompensa, pero se ralentiza tras recibirla.

La última estrategia a considerar es el refuerzo a intervalos variables, en la que el lapso se asignación del refuerzo es variable. Un ejemplo es el caso de un niño que recibe una asignación en varios momentos de la semana, pero siempre y cuando haya exhibido ciertos comportamientos considerados positivos; el niño mantendrá su comportamiento positivo para recibir el refuerzo en un lapso menor.

Ejemplos

Es común observar la aplicación de condicionamiento operante para entrenar una mascota o para inculcar un cierto comportamiento a un niño. El condicionamiento operante se utiliza frecuentemente en las escuelas, o como parte de terapias.

Por ejemplo, un maestro podría asignar un refuerzo a los estudiantes que hacen sus tareas regularmente tomando pruebas periódicamente con cuestionarios con preguntas incluidas en las tareas recientes. Otro ejemplo es el caso en el que un niño tiene un berrinche para llamar la atención; el padre puede ignorar el comportamiento y luego dar un refuerzo al niño una vez que el berrinche haya cesado.

El condicionamiento operante también se utiliza en la modificación del comportamiento, un enfoque usado en el tratamiento de numerosos problemas sicológicos en adultos y niños, como por ejemplo fobias, ansiedad o enuresis. Una forma en la que se puede implementar la modificación del comportamiento es a través del otorgamiento de distinciones, en la que los comportamientos deseados se refuerzan con distinciones tales como insignias, botones u otros objetos.

Críticas

Si bien el condicionamiento operante puede explicar muchos comportamientos y todavía se utiliza, ha recibido numerosas críticas. Una de estas críticas señala que el condicionamiento operante brinda una explicación incompleta al proceso de aprendizaje, dado que no considera el papel de los aspectos biológicos y cognitivos.

Además, el condicionamiento operante se sustenta en una figura de autoridad para reforzar el comportamiento, e ignora el papel de la curiosidad y de la capacidad de un individuo para hacer sus propios descubrimientos. Los críticos objetan el énfasis del condicionamiento operante en controlar y manipular el comportamiento, argumentando que puede conducir a prácticas autoritarias. Skinner creía que los ambientes controlan naturalmente el comportamiento y que las personas pueden elegir cómo usar ese conocimiento, en forma positiva o negativa.

Debido a que las observaciones sistemáticas de Skinner sobre el condicionamiento operante se basaron en experimentos con animales, se le critica el haber extrapolado el comportamiento observado en animales a los seres humanos, dado que existen diferencias sustanciales en el comportamiento y en la capacidad cognitiva.

Fuentes

Kendra Cherry. What is Operant Conditioning and How Does it Work? Verywell Mind, 2018. https://www.verywellmind.com/operant-conditioning-a2-2794863

William Crain. Theories of Development: Concepts and Applications. Quinta edición, Pearson Prentice Hall, 2005.

Jason G. Goldman. What is Operant Conditioning? (And How Does It Explain Driving Dogs?). Scientific American, 2012. https://blogs.scientificamerican.com/thoughtful-animal/what-is-operant-conditioning-and-how-does-it-explain-driving-dogs/

Saul McLeod. Skinner – Operant Conditioning. Simply Psychology, 2018. https://www.simplypsychology.org/operant-conditioning.html#class

Sergio Ribeiro Guevara (Ph.D.)
Sergio Ribeiro Guevara (Ph.D.)
(Doctor en Ingeniería) - COLABORADOR. Divulgador científico. Ingeniero físico nuclear.

Artículos relacionados