Adquisicion del palanqueo en ratas con reforzamiento ...

17
Revista Latinoamericana de Psicología ISSN: 0120-0534 [email protected] Fundación Universitaria Konrad Lorenz Colombia Avila, Raúl; Bruner, Carlos A. Adquisicion del palanqueo en ratas con reforzamiento demorado en un procedimiento de ensayo discreto Revista Latinoamericana de Psicología, vol. 31, núm. 1, 1999, pp. 49-64 Fundación Universitaria Konrad Lorenz Bogotá, Colombia Disponible en: http://www.redalyc.org/articulo.oa?id=80531104 Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org Sistema de Información Científica Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

Transcript of Adquisicion del palanqueo en ratas con reforzamiento ...

Revista Latinoamericana de Psicología

ISSN: 0120-0534

[email protected]

Fundación Universitaria Konrad Lorenz

Colombia

Avila, Raúl; Bruner, Carlos A.

Adquisicion del palanqueo en ratas con reforzamiento demorado en un procedimiento de ensayo

discreto

Revista Latinoamericana de Psicología, vol. 31, núm. 1, 1999, pp. 49-64

Fundación Universitaria Konrad Lorenz

Bogotá, Colombia

Disponible en: http://www.redalyc.org/articulo.oa?id=80531104

Cómo citar el artículo

Número completo

Más información del artículo

Página de la revista en redalyc.org

Sistema de Información Científica

Red de Revistas Científicas de América Latina, el Caribe, España y Portugal

Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

REVISTA LATINOAMERICANA DE PSICOLOGIA1999 VOLUMEN 31 N° I 49-64

ADQUISICION DELPALANQUEOEN RATASCON REFORZAMIENTO

DEMORADO EN UN PROCEDIMIENTODE ENSAYO DISCRETO1

RAÚL AVILA

y

CARLOS A. BRUNER *Laboratorio de Condicionamiento Operante

Facultad de PsicologiaUniversidad Nacional Autonoma de México

ABSTRACT

The acquisition of behavior with delayed reinforcement. has been studied in trial bytrial and free-operant situations, Different rnethods and dependent variables. however,have hitherto prevented their comparison. In the present study, a modified trial by trialprocedure was used for the acquisition of leverpressing by rats, to assess the viability ofa system of variables comrnon to both types of situations, With a constant 8 secopportunity to leverpress in each trial, the effect of 8- or 24 sec delays of reinforcernentand of 32- or M-sec intertrial intervals were explored, using a 2 x 2 factorial design, with3 naive rats per cell. For most subjects, the overall and running rate of leverpressing werehigher under 8- that under 24 sec delays, regardless of intertrial interval duration. Thesetwo variables were also higher under the 32- than under the M-sec intertrial interval.regardless of del ay duration. The proportion of trials with responding and the latency ofthe first leverpress, were significantly related to the overall and running rares. lt was

l El experimento se realizó con el apoyo del subsidio número 4677-H otorgado porCONACYT a Carlos A. Bruner y Kennon A. Lattal, Los autores agradecen a Ayme Pacheco, Luis M.Gallardo y Rogelio Escobar por su valiosa ayuda en la conducción del experimento y la preparacióndel reporte final.

* Correspondencia: Carlos A. Bruner, Laboratorio de Condicionamiento Operante, Facultadde Psicología, UNAM, Ave. Universidad 3004, Col. Copilco Universidad, México, D. F. 04510.

50 AVILA y BRUNER

concluded that trial by trial and free-operant procedures can be viewed as different casesof the same continuum of independent variables.

Key words: Response acquisition, trial by trial procedure, free-operant procedure,delayed reinforcement. reinforcement cycle, leverpressing, rats.

RESUMEN

La adquisición de conducta bajo reforzarniento demorado se ha estudiado ensituaciones de ensayo por ensayo y de operante libre. Sin embargo, sus diferen-cias de método y de variables dependientes han evitado su comparación. Paraevaluar la viabilidad de un sistema de variables comunes a ambos tipos desituaciones, en el presente estudio se usó un procedimiento modificado deensayo por ensayo para la adquisición del palanqueo en ratas. Manteniendoconstante en 8 segundos la oportunidad de presionar la palanca en cada ensayo,se empleó un diseño factorial 2 x 2, con 3 ratas ingenuas por celda, para explorarlos efectos de demoras de reforzamiento de 8 y 24 segundos y de intervalos entreensayos de 32 y 64 segundos. Para la mayoría de los sujetos, la tasa global y latasa de carrera de la respuesta de presión a la palanca fueron mayores bajo lasdemoras de 8 segundos que bajo las demoras de 24 segundos, independienternen-te de la duración del intervalo entre ensayos. Estas dos variables dependientestambién fueron más altas bajo el intervalo entre ensayos de 32 segundos que bajoel intervalo entre ensayos de 64 segundos, independientemente de la duración dela demora. La proporción de ensayos con respuesta y la latencia de la primerapresión a la palanca se relacionaron significatí vamente con la tasa global y la tasade carrera. Se concluyó que los procedimientos de ensayo por ensayo y deoperante libre se pueden ver como diferentes casos del mismo continuo devariables independientes.

Palabras clave: Adquisición de respuestas, procedimiento de ensayo porensayo, procedimiento de operante libre, demora de reforzamiento, ciclo dereforzamiento, presión de palanca, ratas.

INTRODUCCION

La adquisición de nuevas conductas fue uno de los principales tópicos deinvestigación de las teorías clásicas del aprendizaje (por ejemplo, Hull, 1943;Tolman, 1932). Paradigrnáticamente, en estos estudios se empleaban procedi-mientos de ensayo discreto, donde la conducta especificada sólo podía ocurrirunayez en cada ensayo, antes de que se presentara el reforzador. También, seusaban diferentes aparatos; por ejemplo, laberintos, corredores, cajas de salto ycámaras de condicionamiento con palancas retráctiles. Las variables dependien-tes que se registraban eran la velocidad, la precisión, la latencia o el porcentaje

REFORZAM lENTO DEMORADO 51

de respuestas correctas (véase Renner, 1964 y Tarpy y Sawabini, 1974, para unarevisión del área). A pesar de las ostensibles diferencias entre los aparatos y lasvariables dependientes que se empleaban en esta clase de investigaciones, eldemorar la entrega del reforzador consistentemente resultaba en el deterioro dela adquisición de la nueva conducta (por ejemplo, Wolfe, 1934; Perin, 1943 a yb; Logan, 1952).

Recientemente, en la literatura del condicionamiento operante, se renovó elinterés por estudiar la adquisición de nuevas respuestas bajo reforzamientodemorado; empleando el más moderno procedimiento de operante libre, dondela respuesta puede ocurrir en cualquier momento de la sesión experimental.Lattal y Gleeson (1990) mostraron la adquisición del picoteo a una tecla enpalomas y la presión de una palanca en ratas, sin entrenamiento explícito(moldeamiento de la respuesta) y bajo demoras no señaladas de reforzamientotan largas como 30 s. En estudios posteriores se mostró la generalidad de esteprocedimiento a través de una serie de respuestas, especies y procedimientosdiferentes (Critchfield y Lattal, 1993; Dickinson, Watt y Griffiths, 1992; Lattaly Metzger, 1994; Lattal y Williams, 1997; Van Haaren, 1992; Wilkenfield,Nickel, Blakely y Poling, 1992).

Una característica común de los procedimientos de los estudios sobreadquisición de operantes libres con reforzamiento demorado, es que han emplea-do programas tipo tándem de dos componentes. En el primer componente deestos programas se identifica la respuesta por reforzar y en el segundo compo-nente, se programa una demora de reforzamiento. En la mayoría de los estudiosiniciados por Lattal y Gleeson, se ha empleado un programa de reforzamientocontinuo para identificar la respuesta por reforzar. En el laboratorio de losautores también se han usado programas tándem de dos componentes paraestudiar la adquisición de respuestas, pero empleando principalmente progra-mas de reforzamiento demorado intermitente; específicamente, programastándem del tipo Intervalo al Azar (lA) x s Tiempo Fijo (TF) x s.

En una primera investigación Bruner, Avila y Gallardo (1994) estudiaron elefecto de programas tándem lA 30 s TF 6, 12 o 24 s durante la adquisición de larespuesta de presión a la palanca en ratas. Encontraron que la tasa de respuestafue más alta bajo las demoras más cortas (a la manera de un gradiente de demorade reforzamiento).

En un segundo estudio, Bruner, Lattal y Acuña (1994) evaluaron los efectosdel reforzamiento independiente de la respuesta sobre el mantenimiento de larespuesta adquirida bajo reforzamiento dependiente pero demorado. En unprimer experimento, expusieron a palomas a un programa tándem intervalovariable 30 s reforzamiento diferencial de otras conductas (RDO) 10 s. En la

52 AVILA y BRUNER

segunda fase de este experimento, se expuso a las palomas a un programa tándemde Tiempo Variable (TV) 30 ROO lOs. En el segundo experimento se expuso ados grupos de ratas a un programa tándem lA 30 s Tiempo Fijo (TF) 12 o 24 s yen la segunda fase los programas cambiaron a un Tiempo al Azar (TA) TA 42 so un TA 54 s, respectivamente. En el tercer experimento, durante la primera fase,se expuso a cuatro grupos de ratas a un programa tándem lA 60 s TF O, 6, 12 Y24 s. En la segunda fase se expuso a los mismos cuatro grupos a un programa deTA 60, 66, 72 o 84 s, respectivamente. En los tres experimentos se adquirió elpicoteo a la tecla en las palomas y el palanqueo en las ratas expuestas a losdiferentes programas de reforzamiento demorado. También, en los tres experi-mentos se encontró que al cambiar el programa de reforzamiento independientede la respuesta resultó en el mantenimiento prolongado de la respuesta para todoslos sujetos.

En un siguiente estudio, Avila y Bruner (1995) mostraron la adquisición delpalanqueo en ratas bajo un programa tándem lA 30 s TF 60 s; i.e., usando unademora de reforzamiento más larga que en cualquier otro estudio anterior. Enotra investigación, Bruner, Avila y Gallardo (1996) expusieron a ratas a unprograma tándem lA 30 s TF x s, donde para cada una de tres duraciones de lademora (TF 6, 12 o 24 s) se varió la proporción de reforzamiento independientede la respuesta (25, 50 o 75%), mezclado con el reforzamiento demorado perodependiente que proporcionó el programa de lA. Encontraron que el aumentar laproporción de reforzamiento independiente (y concomitanternente, disminuir laproporción de reforzamiento dependiente de la respuesta) en los diferentesgrupos de ratas, causó disminuciones correspondientes en la tasa de respuesta.

También, Avila y Bruner (1997) compararon la adquisición de la respuestabajo reforzamiento intermitente inmediato en tres ratas (Tándem lA 30 s TF Os),con la adquisición de la respuesta bajo reforzamiento intermitente demorado enotras 3 ratas (Tándem lA 30 s TF 24 s). En una segunda fase, manteniendoconstante el programa lA 30 s en el primer componente de los programas tándempara los sujetos inicialmente expuestos a reforzamiento inmediato, se alargó laduración del TF a 3, 6, 12Y24 s y para los sujetos expuestos por primera vez alTF 24 s, la demora se acortó a 12,6,3 y Os. Encontraron para ambos grupos quela tasa de respuesta fue más alta bajo las demoras más cortas, como un gradientede demora de reforzamiento. Sin embargo. ante cualquier duración de la demora,la tasa de respuesta fue más alta para los sujetos con los que se adquirió larespuesta bajo reforzarniento inmediato que para los sujetos inicialmente ex-puestos a reforzamiento demorado, a la manera de un efecto de historia.

En otro estudio, Burner, Avila, Acuña y Gallardo (1998) estudiaron laadquisición del palanqueo en diferentes grupos de ratas (3 ratas en cada grupo),expuestos a programas tándem que diferían en la tasa o en la demora dereforzamiento. El programa que se usó en el primer componente de los progra-

REFORZAMIENTO DEMORADO 53

mas tándem fue RF I o lA 15,30,600 120 s. El programa del segundo componentede los programas tándem fue un TF O, 1, 3, 6, 12 o 24 s. Se encontró que la tasade respuesta fue más baja conforme se alargó la demora, tanto en las condicionesde reforzamiento continuo como de reforzamiento intermitente. Mientras que latasa de respuesta fue una función decreciente de disminuir la frecuencia delreforzamiento inmediato, la tasa de respuesta no varió sistemáticamente con lafrecuencia de reforzamiento demorado.

Aun cuando se han explorado los efectos de la demora de reforzamientosobre el establecimiento de nuevas conductas tanto usando procedimientos deensayo discreto como de operante libre, las diferencias ostensibles entre ambostipos de procedimientos han dificultado una comparación entre sus hallazgos.Logan y Ferraro (1970) sugirieron que es posible integrar los procedimientos deensayo discreto y de operante libre a un mismo continuo de variables indepen-dientes, manteniendo constante la duración del intervalo entre ensayos yalargando o acortando la duración del ensayo y viceversa. En el presente estudiose conceptual izó al período de disponibilidad de una palanca como equivalentea la duración del ensayo y manteniendo este período constante en una duracióncorta, se intentó la adquisición de la respuesta de presión a la palanca en ratas bajoreforzamiento demorado, empleando diferentes intervalos entre ensayos. Seexploraron los efectos de estas dos variables independientes porque son típicasde los estudios tradicionales de ensayo discreto (por ejemplo, Hull, 1943).Además, se registraron variables dependientes comunes, tanto a procedimientosde ensayo discreto como a procedimientos de operante libre. Mientras que lasituación de ensayo por ensayo permite el registro de una latencia de la primerarespuesta y de una proporción de ensayos con respuesta, la terminación delensayo contingente a la ocurrencia de la respuesta, no permite registrar una tasade respuesta. En el presente estudio, este problema se resolvió permitiendo quela palanca permaneciera presente durante un breve período de tiempo después deocurrir la respuesta procuradora del reforzamiento.

ME¡ODO

Sujetos

Doce ratas Wistar machos, de seis meses de edad y sin experiencia experi-mental, sirvieron como sujetos. Todos los sujetos se mantuvieron al 80% de supeso en alimentación libre y se les alojó en cajas habitación individuales, conacceso continuo al agua.

Aparatos

Se usó una caja experimental estándar para ratas (BRS/LVE, Mod. No. 143-04). La caja estaba equipada con un dispensador de pellas (BRS/LVE, Mod. No.

54 AVILA y BRUNER

PDH-020), un comedero y una palanca de respuesta retráctil (BRS/LVE Mod. No.RRL-015). La palanca se colocó en el centro de la pared frontal de la caja, a 4 cma la derecha del comedero y a 3 cm del piso de la caja; era de 2.5 cm de anchoy sobresalía 2 cm hacia el interior de la caja. Una presión de aproximadamente0.10 N activaba el interruptor de respuestas. Un foco de 24 voltios, colocado alcentro de la pared frontal de lacaja ya 10 cm del piso, proporcionó la iluminacióngeneral. Como reforzador se emplearon pellas de comida de 25 miligramos. Laspellas se manufacturaron en este laboratorio remoldeando comida molida pararatas (Nutricubos de Purina). La caja experimental se encontraba dentro de uncubículo sonoamortiguado, hecho de madera y en un cuarto separado dellaboratorio principal. El experimento se controló automáticamente medianteuna microcomputadora 18M, acoplada a la caja experimental mediante unainterfase Advantech (Mod. No. PCL-725).

Procedimiento

Se expuso a todas las ratas a una sesión de entrenamiento en comer queconsistió en la presentación de pellas de comida, independientemente de laconducta de los sujetos, hasta que estos se aproximaron confiablemente alcomedero y consumieron 50 pellas. En esta sesión-la palanca estaba ausente enla caja experimental.

Se usó un diseño factorial 2 x 2, donde una variable independiente fue lademora de reforzamiento, de 8 o 24 s. La otra variable independiente fue laduración de un ciclo de tiempo fijo entre reforzadores sucesivos, que seestableció en 32 o 64 s. Se asignaron al azar tres ratas a cada una de lascombinaciones de las dos variables independientes. Para todas las condiciones,el ensayo consistió en introducir la palanca en la caja experimental durante 8 s.Dependiendo de la duración de la demora programada la palanca se presentó 8o 24 s antes del final de cada ciclo. Así, la duración de los dos ciclos dereforzamiento se convirtieron en análogos de dos diferentes intervalos entreensayos. La primera respuesta a la palanca resultó en la entrega de una pella decomida al final del ciclo; se registraron las respuestas adicionales pero notuvieron consecuencias. Para todas las condiciones se condujeron 40 sesiones deuna hora o 30 reforzadores, lo que ocurriera primero.

RESULTADOS

Las variables dependientes que se calcularon en el presente estudio fueronlas siguientes: una tasa de respuestas durante el ensayo (número de respuestas ala palanca entre el tiempo total que la palanca estuvo disponible en la sesión), laproporción de ensayos con respuesta y la latencia promedio, durante cada sesión,de la primera respuesta en cada ensayo (sólo las presentaciones de la palanca

REFORZAMIENTO DEMORADO 55donde ocurrió una respuesta se consideraron para calcular la latencia). Tambiénse calculó una tasa de carrera por ensayo, que se definió como el número derespuestas a la palanca dividido entre el tiempo de disponibilidad de la palanca,restándole las latencias de la primera respuesta (sólo las presentaciones de lapalanca donde ocurrieron respuestas se consideraron para calcular esta variabledependien te).

En la Figura l se muestran las cuatro variables dependientes, sesión porsesión, para cada sujeto en la condición de demora 8 s (columna izquierda) y dedemora 24 s (columna derecha), con un ciclo de reforzamiento constante en 32s. Para las tres ratas expuestas a la demora de 8 s, la tasa de respuesta y laproporción de ensayos con respuesta fueron muy bajas durante las primeras 5sesiones y posteriormente aumentaron gradualmente conforme trascurrieronlas sesiones. Para las ratas A7 YA91a latencia de la primera respuesta fue muyvariable en las primeras 10 sesiones y posteriormente se estabilizó entre 3 y 4s de duración. Para el sujeto A8 la latencia se acortó conforme progresó laexposición a esta condición. Para estas tres ratas, la tasa de carrera aumentódurante las 40 sesiones. Para los sujetos expuestos a la demora de 24 s seencontró lo siguiente: para la rata AI la tasa de respuesta y la proproción deensayos con respuesta fueron muy bajas durante las 40 sesiones de la condición.Para los sujetos A2 y A3 la tasa de respuesta y la proporción de ensayos conrespuesta fueron muy bajas en las primeras 20 sesiones y posteriormenteincrementaron gradualmente. Para las tres ratas expuestas a la demora de 24 s,la latencia fue muy variable pero se alargó ligeramente en las últimas 20sesiones. Para los sujetos A2 y A3 la tasa de carrera fue relativamente baja enlas primeras 10 sesiones e incrementó en las siguientes 30 sesiones. La tasa decarrera de la rata A1 fue muy variable y sin tendencia aparente.

En la Figura 2 se muestran las mismas cuatro variables dependientes para lasratas expuestas a la demora de 8 s (columna izquierda) y a la demora de 24 s(columna derecha), con el ciclo de reforzamiento constante en 64 s, para las 40sesiones del procedimiento. Para los sujetos AI4 y AI5 la tasa de respuestaaumentó en las primeras 15 sesiones y disminuyó ligeramente en las siguientes25 sesiones. La tasa de respuesta de la rata A13 fue muy variable pero aumentódel principio al final del experimento. Para estos tres sujetos, la proporción deensayos con respuesta incrementó de cero a niveles entre 80 y 100% en lasprimeras 5 sesiones y se mantuvo en este nivel en las siguientes 35 sesiones. Lalatencia de la primera respuesta para A13 se acortó en las 40 sesiones. Para A14YA151a latencia se acortó en las primeras 10 sesiones y posteriormente se alargóhasta el final del experimento. Para las tres ratas, la tasa de carrera aumentó enlas primeras 10 sesiones y permaneció en un nivel estable durante las siguientes30 sesiones de la condición. En el caso de los tres sujetos expuestos a la demorade 24 s se encontró lo siguiente:

56 AVILA y BRUNER

DEMORA =8 s

CICLO DE REFORZAMIENTO = 32 S

DEMORA =24s

40- A 7+ A ~• Al)

• Al.¡: A 2• A.1

40

30

+

20

10

0 ......""-- _

100

80604020

+

+ • +++• ++++ ....• l' 11I .~ ...

.) .+••• ".. + • a....,.

+ 1.+:"-:-.a +

+. + ....

a aa + a

+ ++ .. ~+ "'a'. aa a + a.

+ + + + +..:... +

a a .¡-I' .. ++a a a.* • +.... aa.. a +'

++t t . +... ++++ •

40 O 20 30

Figura 1. Variables dependientes (hileras) para los sujetos individuales durante las 40sesiones de exposición a cada duración de la demora (columnas) con el ciclo dereforzamiento constante en 32 s.

O

8'

6 •

4+

+ ~ ' ••• '... +~ aa ".,.,. a

• +. ~+ ••• :a ~ .. + ; ..... +. +~-.:

+ +++++ + ...+++++++

2

0..1...- _

80

60+ ++' +' + t.;.

.. +.. +~.' .++.+it+ t' ++140" .....+ • a~ ~ .t-. +

+ _.a.:- .a ++.+' ....

20 + •• '+.¡."..

O 10 20 30

SESIONES CONSECUTIV AS

10

REFORZAMIENro DEMORADO 57

DEMORA = 8 s

CICLO DE REFORZAMIENTO = 64 S

DEMORA=24s

40, .)\ 1:1

+ A 14

30, • A 15

20

,1 • A 16'.. + A 17• A 18

+

+... + +.. +1+·+.. ++ •+' + • +

t, + *:.+ .+. +.. ' 1,+ .+.~. +

+

100 ........ _

100806040

20

+, ++*+ . ,

40

O

8 •

• +

• + +++ :++..,t. +

+ • ,+.' : + • " ",+ ....

II ••

Figura 2. Variables dependientes (hileras) para los sujetos individuales durante las 40sesiones de exposición a cada duración de la demora (columnas) con el ciclo dereforzamiento constante en 64 s.

6 +!. + ..

4• ~...... + + +.. +.++ ..... '1. r'.~ + + +++ +++..... ;lt +"+. ..

• • '. ',, ••••• I'2

O

'2 80'El:s< 60I:>:lUJ¡:¡:: 40¡:¡::<r:uUJ 20el<r:'"<r: Of-

O

++ • ,+ •

+ ... +++++ l' ..... '+.;..... .+ + +.. ~.+•• + , ~"T __

+ ~ • .". .' ++*l.. • + w:-++ -, • +'. ,I

10 20 30

SESIONES CONSECUTlV AS

+ + •

.. ++ + + +... ..... .•

+'...t .. • •

40 O 10 20 30

58 AVILA y BRUNER

Para el sujeto A 18 la tasa de respuesta y la proporción de ensayos conrespuesta fueron muy bajas durante las 40 sesiones de la condición. Para lasratas A 16YA 171a tasa de respuesta y el número de ensayos con respuesta fueronmuy bajas en las primeras 25 sesiones y aumentaron en las últimas 15 sesiones.para los tres sujetos la latencia de la primera respuesta y la tasa de carrera fueronmuy variables y sin tendencia.

Con el propósito de resumir los resultados pertinentes al estado estable,posterior a la adquisición de la respuesta de palanqueo, en la Figura 3 se muestrala tasa de respuesta promedio de los 3 sujetos expuestos a cada combinación dela demora y del ciclo de reforzamiento durante las últimas cinco sesiones decada condición.

40

o 30f-::JZsQ<:;

~20CIl-e

f-¡fl::Je,CIl

~10

oDemora 8 s

~ Demom24 s

Figura 3. Promedio de la tasa de respuesta y la desviación estándar (línea vertical) paracada grupo de tres ratas que se expusieron a la demora de 8 s o 24 s, con el ciclo dereforzamiento constante en 32 s o 64 s. Estos promedios están basados en las últimas cincosesiones de exposición a la condición.

32 64CICLO DE TIEMPO (s)

REFORZAMIENTO DEMORADO 59

Para las dos duraciones del ciclo de reforzamiento, la tasa promedio derepuesta fue más alta bajo la demora de 8 s que bajo la demora de 24 s.Independientemente de la duración de la demora, la tasa promedio derespuesta fue mas alta bajo el ciclo de 32 s que bajo el ciclo de 64 s. Serealizó un análisis de varianza de dos factores para efectos fijos 2x2 (dosdemoras: 8 y 24 s x dos duraciones del ciclo: 32 y 64 s) sobre las tasaspromedio de respuesta presentadas en la figura 3. Se encontró un efectoprincipal por demora significativo (F (1,56)= 40. 58, p<0.05). Es decir,independientemente' de la duración del ciclo de reforzamiento la tasa derespuesta fue confiablemente más alta en la demora de 8 s que en la demorade 24 s. También se encontró un efecto principal por la duración del ciclo(F (1,56)= 11.21, p<0.05). bajo las dos duraciones de la demora dereforzamiento, la tasa de respuesta fue confiablemente más alta bajo el ciclode 64 s. No se encontró interacción entre las dos variables.

En la tabla l se presentan las correlaciones entre las cuatro variablesdependientes del experimento. Como se mencionó antes, la latencia y la tasade carrera solo se pueden calcular para las presentaciones de la palancadonde ocurrió al menos una respuesta. Por lo tanto, en las correlacionesentre estas variables dependientes y la tasa de respuesta y con la proporciónde ensayos con respuesta únicamente se consideraron las sesiones dondeocurrió al menos una respuesta. Para los sujetos expuestos a las demoras de8 y 24 s, con el ciclo de reforzamiento constante en 32 s, la correlación entrela tasa de respuesta y la proporción de ensayos con respuesta fue mayor a.86. También para todos estos sujetos, la correlación entre la tasa derespuesta y la tasa de carrera varió entre .69 y .96. La relación entre laproporción de ensayos con respuesta y la tasa de carrera fue confiable paralos tres sujetos expuestos a la demora de 8 s y para dos sujetos expuestos ala demora de 24 s. La relación entre las otras combinaciones de las variablesdependientes fue inconsistente. Para las ratas expuestas a la demora de 8 y24 s con un ciclo de reforzamiento constante en 64 s, la correlación entre latasa de respuesta y la proporción de ensayos con respuesta varió entre .82y .99. Para los tres sujetos expuestos a la demora 8 s, la tasa de respuestacorrelacionó negativamente con la latencia y positivamente con la tasa decarrera. También para las tres ratas expuestas a la demora de 8 s laproporción de ensayos con respuesta y la latencia correlacionaron negativa-mente. Para las otras combinaciones de las variables dependientes no seencontraron relaciones consistentes.

60 AVILA y BRUNER

TABLA 1Correlaciones entre las variables dependientes registradas

en el presente estudio. Para cada correlación' se muestra entreparéntesisel número de sesiones consideradas

CICLO DE REFORZAMIENTO = 32 s

DEMORA Ss DEMORA24sSUJETO A7 A8 A9 Al A2 A3

TASA-R>ü 0:95* (40) 0.92* (40) 0.94* (40) 0.86* (40) 0.94* (40) 0.97* (40)

TASA-LA TENClA -0.33* (38) -0.81* (38) -0.19 (39) -0.22 (14) 0.41* (38) 0.27 (40)

TASA-TASA

DE CARRERA 0.76* (38) 0.77' (38) 0.69* (39) 0.69* (14) 0.81* (38) 0.96* (40)

R>O-LATENCIA -0.36* (38) -0.73* (38) -0.02 (39) -0.15 (14) 0.46* (38) 0.30 (4()

R>O-TASA

DECARRERA 0.6,7* (38) 0.72* (38) 0.64* (39) 0.33 (14) 0.72* (38) 0.92*(40)

LATENCIA-TASA

DE CARRERA 0.26 (38) -0.36* (38) 0.27 (39) -0.03 (14) 0.80* (38) 0.37* (40)

CICLO DE REFORZA MIENTO = 64 s

DEMORA8s DEMORA24s

SUJETO A 13 A 14 AI5 A 16 A 17 A 18

TASA-R>O 0.82* (40) 0.75* (40) 0.90* (40) 0.9S* (40) 0.99* (40) 0.96*(40)

TASA-LA TENCíA -0.69* (40) -0:78* (40) -0.58 (39) -0.17 (32) -0.28* (36) 0.25 (13)

TASA-TASA

DE CARRERA 0.67* (40) 0.36* (40) 0.59* (39) -0.12 (32) 0.45* (36) 0.35 (13)

R>O-LATENCIA -0.72* (40) -0.50* (40) -0.37* (39) -0.14 (32) 0.27 (36) 0.39 (13)

R>O-TASA

DECARRERA 0.27 (40) -0.08 (40) 0.52* (39) -0.14 (32) 0.43* (36) 0.20 (13)

LATENCIA-TASA

DE CARRERA -0.01 (40) 0.05 (40) or» (39) 0.75* (32) 0.61* (36) 0.81*(13)

* p <0.05

REFORZAMIENTO DEMORADO 61

DISCUSION

Los resultados del presente estudio muestran la adquisición del palanqueoen todos los sujetos bajo reforzamiento demorado y empleando un procedimien-to comparable, tanto a los de ensayo discreto como a los de operante libre. Acontinuación se discutirá la pertinencia de estos resultados a la literatura deensayo discreto y posteriormente a la literatura de operante libre.

Para las dos duraciones del ciclo de reforzamiento (32 o 64 s) la proporciónde ensayos con respuesta fue mayor para los sujetos expuestos a la demora de 8s que para los sujetos expuestos a la demora de 24 s. La latencia pareció serligeramente más corta y con menor variabilidad bajo la demora de 8 s que bajola demora de 24 s. Estos resultados son congruentes con los reportados enestudios sobre la adquisición de la respuesta bajo reforzamiento demorado en losprocedimientos de ensayo discreto. Por ejemplo, Wolfe (1934) expuso a ratas aun laberinto en T, donde al principio de cada ensayo se varió el color de la cajade salida, de blanco a negro o viceversa. Un giro a la caja meta correcta (la quetenía el mismo color que la caja de salida en ese ensayo) fue seguido por laentrega demorada de comida.

Específicamente, una vez los sujetos llegaban a la caja meta la comida sepresentaba con una demora que se varió de 5 a 60 s. Wolfe encontró que elporcentaje de giros correctos disminuyó conforme se alargó la demora dereforzamiento.

Perin (1943 b) expuso a ratas a un procedimiento donde los sujetos teníanque mover una barra a la derecha o a la izquierda y después de cada respuesta seretraía la barra y se entregaba el reforzador después de una demora dereforzamiento. El número de respuestas correctas (movimientos laterales) fueuna función decreciente de alargar la demora de reforzamiento de O a 2, 5, 10,20 y 30 s. El porcentaje y el número de respuestas correctas reportadas en losestudios de Wolfe y de Perin son equivalentes al número de ensayos conrespuesta registrado en el presente estudio. En los estudios de Wolfe y de Perinasí como en el presente estudio se encontró que las respuestas correctasdisminuyeron conforme se alargó la demora de reforzamiento.

En otro estudio, Perin (1943 a) expuso a ratas a un procedimiento de ensayodiscreto donde después de una presión a la palanca, esta última se retraía y seentregaba comida después de una demora de O, 2, 5, 10 y 30 s. La latencia seprolongó conforme se aumentó la duración de la demora de reforzamiento.Logan (1952) entrenó a ratas a responder a dos palancas donde una respuesta auna de las palancas era seguida por una demora de I s y una respuesta a la otrapalanca era seguido por una demora de 5 s. Los sujetos respondieron con una

62 AVILA y BRUNER

latencia más corta a la palanca con una demora de reforzamiento de 1 s que a lapalanca con una demora de 5 s. Tombaugh y Tombaugh (1969) encontraron quela latencia de la respuesta de presión a la palanca fue más corta para sujetosexpuestos a una condición de reforzamiento inmediato que en sujetos expuestosa reforzamiento demorado lOs. En estos tres estudios, como en el presentetrabajo, la latencia fue más corta bajo demoras de reforzamiento más cortas.

En relación con la literatura de operante libre, en el presente estudio seencontró que la tasa de respuesta fue más alta para los sujetos expuestos a lademora de 8 que para los sujetos expuestos a la demora de 24 s. Este resultadoes congruente con los hallazgos reportados en otros experimentos sobre laadquisición de la respuesta bajo reforzamiento demorado, en situaciones deoperante libre. Por ejemplo, Bruner et al. (1994) estudiaron la adquisición delpalanqueo en ratas bajo un programa Tándem lA 30 s TF 6, 12o 24 s. Encontraronque la tasa de respuesta fue más baja conforme se alargó la duración de la demorade reforzamiento. Bruner eral. (1998) expusieron a diferentes grupos de ratas aprogramas Tándem RF 1 TF x s y Tándem lA 60 TF x s, donde el TF se establecióen O, 1, 3, 6, 12 Y24 s. Encontraron, como en el estudio de Bruner et al. (1994)que la tasa de respuesta fue más alta bajo las demoras de reforzamiento máscortas. Por lo tanto, los resultados del presente estudio son congruentes con losreportados en procedimientos de operante libre.

En el presente estudio se encontró que independientemente de la duraciónde las demoras (8 o 24 segundos), la tasa de respuesta fue más alta para los sujetosexpuestos al ciclo de 32 s que para los sujetos expuestos al ciclo de 64 s. Encontraste, en unade las condiciones del estudio de Bruner et al. (1998), se expusoa diferentes grupos de ratas a un programa Tándem RF 1 TF 12 s o a prograf!1asTándem lA x s TF 12 s, donde el intervalo al azar se estableció en 15, 30, 60 o1~0 s. Encontraron que la tasa de respuesta fue similar bajo las diferentesfrecuencias de reforzamiento demorado' 12s. Esta diferencia entre los resultadosde ambos estudios puede deberse a que el programa tándem de reforzamientointermitente del estudio anterior ejerce un menor control sobre la frecuencia dereforzamiento que el procedimiento empleado en el presente estudio. Al añadiruna demora de reforzamiento, necesariamente se altera la frecuencia dereforzamiento que se prescribe en el primer componente de cualquier programatándem. Por ejemplo, en un programa tándem lA 30 s TF lOs y en un tándem lA

30s, la frecuencia de reforzamiento programada por el lA es la misma, pero porla duración de la demora de reforzamiento, el intervalo entre reforzadorespromedio es diferente en cada caso, de 40 y 60 s, respectivamente. En contraste,en el presente estudio la duración del ciclo de reforzamiento mantuvo constantela frecuencia de reforzamiento programada, independientemente de la duraciónde la demora añadida al programa. Por lo tanto, el último procedimiento espreferible al uso de programas tándem, para determinar los efectos de lafrecuencia de reforzamiento.

REFORZAMIENTO DEMORADO 63

Como se mencionó en la introducción, en los procedimientos de ensayodiscreto y los de operante libre se registran variables dependientes diferentes. Encontraste, en el presente estudio se registraron variables dependientes comunesa ambos tipos de procedimiento. Por lo tanto, se pudo establecer algunasrelaciones que hasta ahora no se habían documentado. Por ejemplo, para los dosgrupos de ratas expuestos a la demora de 8 s, la variable dependiente que mejorcorrelacionó con la tasa de respuesta fue la proporción de ensayos con respuesta.Las correlaciones entre la tasa de respuesta y la latencia y entre la tasa derespuesta y la tasa de carrera también fueron significativas, aunque menores queT el caso anterior. Para los dos grupos de sujetos expuestos a la demora de 24s, sólo la proporción de ensayos con respuesta correlacionó con la tasa derespuesta. La tasa de carrera correlacionó con la tasa de respuestas sólo en los tressujetos expuestos a la demora de 24 s, con un ciclo de reforzamiento de 32 s.

Las covariaciones entre la tasa de respuesta (la variable dependiente típicade los procedimientos de operante libre), y la proporción de ensayos conrespuesta y la latencia (las variables dependientes típicas de las situaciones deensayo discreto), muestran la viabilidad de integrar estos dos tipos de procedi-miento en términos de sus variables independientes y dependientes comunes.Por ejemplo, en términos de las variables independientes, el procedimientoempleado en el presente estudio hubiera podido convertirse en un prototipo deprocedimiento de operante libre, extendiendo el período de disponibilidad de lapalanca para que fuera accesible durante todo el ciclo de reforzamiento. Entérminos de la variable dependiente, es innegable que la conducta está ocurrien-do continuamente, independientemente de que un experimentador permita quela respuesta ocurra solamente una vez en cada ensayo y evite su ocurrencia encualquier otro momento del ciclo de reforzamiento (por ejemplo, retirando eloperando o removiendo al sujeto de la caja meta de un laberinto). Por lo tanto,parece apropiado concluir que, como lo sugieren Logan y Ferraro (1970), losprocedimientos de ensayo discreto y de operante libre representan los extremosde un continuo de variables independientes comunes a ambos.

REFERENCIAS

Avila, S. R. y Bruner, C. A. (1995). Adquisición de la respuesta bajo demoras largas de reforzarnientoseñalado y no señalado. Revista Mexicana de Análisis de la Conducta. 21. 117-127.

Avila, S. R. y Bruner, C. A. (1997). Efectos de historia en gradientes obtenidos alargando y acortandola demora de reforzarniento. Revista Mexicana de Análisis de la Conducta. 23. 85·96.

Bruner, C. A., Avila, S. R. y Gallardo, L. M. (1994). La adquisición del palenqueo en ratas bajo unprograma intermitente de reforzarniento demorado. Revista Mexicana de Análisis de laConducla.20.119·129.

Bruner, C. A., Avila, S. R. y Gallardo; L. M. (1996). Acquisition with delayed reinforcement undercombinarions 01' response dependent reinforcernent. Revista Mexicana de Análisis de laConducta, 22. 29·39.

64 AVILA y BRUNER

Bruner, C. A., Avila, S. R., Acuña, L. y Gallardo, L. M. (1998). Effects of reinforcement rate anddelay on the acquisition of lever pressing by rats, Journal of the Experimental Analysis ofBehavior, 69. 59-75.

Bruner, C. A., Lattal, K .A. Y Acuña, L. (1994). Los efectos del reforzamiento independiente de larespuesta sobre el responder adquirido con reforzamiento demorado. Acta Comportamental¡a.2, 172-191.

Critchfield, T. S. y Laual, K. A. (1993). Acquisition of a spatially defined operant with delayedreinforcement. Journal of the Experimental Analysis of Behavior, 59. 373-387.

Dickinson, A., Watt, A. y Griffiths, W. J. H. (1992). Free-operant acquisition with delayedreinforcement. The Quarterly Journul of Experimental Psychology, 3, 241-258.

Hull, C. L. (1943). Principlesofbehavior: An introductiontobehavior theory.New York: Appleton-Century-Crofts.

Lattal, K. A. Y Gleeson, S. (1990). Response acquisition with delayed reinforcement. Journa/ ofExperimenta/ Psychology: Animal Behavior Processes, /6.27-39.

Lanal, K. A. Y Metzger, B. (1994). Response acquisition by siamese fighting fish (Betasplendens)with delayed visual reinforcement. Journal of the Experimenta/ Analysis of Behavior. 6/. 35c44.

Lattal, K. A. Y Williams, A. M. (1997). Body weight and response acquisition with delayedreinforcernent. Joumal of the Experimental Analysis of Behavior, 67. 131-143.

Logan, F. A. (1952). The role of delay of reinforcement in determíning reaction poten tial. Journalof Experimental Prychoiog», 43. 393-399.

Logan, F. A. Y Ferraro, D. P. (1970). From free responding to discrete trials. En W. N. Schoenfeld(Ed.), The theory of reinforcement schedules (pp. I 11-138). New York: Appleton-Century-Crofts.

Perin, C. T. (1943 a). A quantitative investigation of the delay-of-reinforcement gradient. Journa/of Experimental Psychology, 32. 37-51.

Perin, C. T. (1943 b), The effect ofdelay reinforcernent upon the diferentiation ofbar responses inwhite rats, Jouma/ of Experimental Psychology. 32. 95-109.

Renner, K. E. (1964). Delay of reinforcement: A historical review. Psychological Bulletin, 6/. 341-361.

Tarpy, R. M. Y Sawabini, F. L. (1974). Reinforcement delay: A selective review ofthe last decade ..Psychological Bulletin, 81. 984-997.

Tolman, E. C. (1932). Purposive behavior in animals and meno New York: Appleton-Century-Crofts. .

Tombaugh, T. N. Y Tombaug, J. W. (1969). Effects of delay of reinforcement and cues uponacquisition and extinction performance. Psychological Reports. 25. 931-934.

Van Haaren, F. (1992). Response acquisitioo with fixed and variable resetting delays ofreinforcementin male and female wistar rats, Physiology and Behavior, 52. 767-772.

Wilkenfield, J.. Nickel, M., Blakely, E. y Poling, A. (1992). Acquisition of lever-press respondingin rats with delayed reinforcement. A cornparison of three procedures. Journal of theExperimenta/ Analysis of Behavior, 58. 431-443.

Wolfe.J. B. (1934). Theeffectofdelay reward upon learningin the white rat.Jouma/ ofCompurativePsychology, /7, 1-2L