Investigación Clínica. Guía de estudio. Felipe Recalde, Enrique Morosini

Prof. Dr. Felipe RecaldeProf. Lic. Enrique Morosini

Programa académicoy Guía de Estudio

de la asignaturaINVESTIGACION CLINICA

Del 2do. CicloMaestría en Psicología Clínica

Facultad de Filosofía Universidad Nacional de Asunción

Año 2013

Maestría en Psicología Clínica – Año 2013

Metodología de la Investigación Clínica Prof. Dr. Felipe Recalde | Prof. Lic. Enrique Morosini Pág. 1

Índice

1. Programa

2. Tareas de control de lectura

3. Material de lectura

Contenido 1: La investigación en Psicología Clínica.

Castro, J. J. (S/F) Metodología de la investigación I: Metodología cuantitativa.

Montero, I. y León, O.G. (2007). Guía para nombrar los estudios de investigación

en Psicología. International Journal of Clinical and Health Psychology, 3, 847-862.

- Tarea 1: Clasificación de estudios clínicos.

Contenido 2: Diseños de investigación.

Silva, L. C. y Benavides, A. (1999) Causalidad e inobservancia de la premisa de

precedencia temporal en la investigación biomédica. Methodologica 7: 1-14.

- Tarea 2: El principio de precedencia temporal (PPT).

Contenido 3: La validez de la investigación científica.

Kerlinger, F. N. y Lee, H. B. (2002) Diseño de Investigación: Propósito y Principio.

En Kerlinger, F. N. y Lee, H. B. Investigación del Comportamiento. México: McGraw-

Hill.

- Tarea 3: Aplicación del principio MAX-MIN-CON.

Contenido 4: Estrategias para la atención a las amenazas a la validez.

Kazdin, A. (2001) Formulando Inferencias Válidas I. En Kazdin, A. Métodos de

Investigación en Psicología Clínica. México: Pearson.

Contenido 5: Evaluación de impacto de la intervención clínica.

Kazdin, A. (2001) Evaluación del impacto de la manipulación experimental. En

Kazdin, A. Métodos de Investigación en Psicología Clínica. México: Pearson.

Contenido 6: Estudios de caso.

Kratochwill, Th. R., Stacey, E. M., Dodson, C. L. (1989) Estudio de caso e

investigación de caso único en psicología clínica y aplicada. En Hersen M. y Bellack,

A. S., Métodos de Investigación en Psicología Clínica. Bilbao: Desclée de Brouwer.



Contenido 7: Métodos de investigación cualitativa.

Martínez, M. (2006) La Investigación Cualitativa (síntesis conceptual). Revista IIPSI,

Vol. 9, N° 1, pp. 123-146.

Contenido 8: Métodos estadísticos para la evaluación de resultados.

Schoenbach, V. J. (1999/2004) Análisis e interpretación de datos, Cap. 14 de

Comprendiendo los fundamentos de la epidemiología – un texto en desarrollo.

www.epidemiolog.net.

- Tarea 4: Ejercicio de análisis de datos.

Contenido 9: Medición en Psicología Clínica.

Carretero-Dios, H. y Pérez, C. (2007) Normas para el desarrollo y revisión de

estudios instrumentales: consideraciones sobre la selección de tests en la

investigación psicológica. International Journal of Clinical and Health Psychology,

Vol. 7, No. 3, pp. 863-882

- Tarea 5: Análisis de instrumentos de evaluación clínica.

Contenido 10: Selección de temas críticos en la interpretación de datos.

Kazdin, A. (2001) Selección de temas críticos en la interpretación de datos. En

Kazdin, A. Métodos de Investigación en Psicología Clínica. México: Pearson.

4. Guía de Lectura (preguntas)

5. Trabajo final de Investigación

Estarán disponibles vía web en el repositorio: [http://bit.ly/invcli]:

Guía para la elaboración de Informes de Investigación

Guía para el análisis de datos

6. Cuadernillo de análisis de datos

Estará disponibles vía web en el repositorio: [http://bit.ly/invcli]

7. Anexo especial para análisis de datos

Base de datos [vía web en el repositorio: http://bit.ly/invcli]

Diccionario de datos y guía para la transformación de puntajes

Números aleatorios

Hoja milimetrada para gráficos

http://www.epidemiolog.net/

Dirección de Postgrados


Maestría en Psicología Clínica

Módulo: Metodología de la Investigación Clínica

1. Identificación:

Maestría : Psicología Clínica.

Ciclo : Segundo.

Módulo : Metodología de la Investigación Clínica.

Docente : Dr. Felipe Recalde.

Docente de apoyo : Lic. Enrique Morosini.

Tiempo : 74 hs.

2. Fundamentación:

Una de las principales preocupaciones del quehacer clínico es la acumulación de evidencia

científica que de crédito de los resultados obtenidos en la atención. La perspectiva científica

como visión del ejercicio profesional pretende generar una comunidad científica conectada con

un lenguaje común y un punto de objetividad sumamente importante para el desarrollo

progresivo de cualquier disciplina.

En el presente módulo se focalizan los aspectos críticos de la Investigación Científica aplicada

a la Psicología Clínica que acostumbran estar ausentes o, en el mejor de los casos, son

superficialmente abordados en los cursos de Investigación. Estos temas inciden profundamente

sobre la calidad de la producción científica y, en consecuencia, con el avance de los

conocimientos válidos en su ámbito de aplicación.

Aspectos críticos como el diseño, la validez científica, la selección de diseños de investigación,

el análisis estadístico de los resultados, la acumulación de evidencia científica, los procesos de

medición aplicados al ámbito clínico, además de un par de aspectos más específicos, constituyen

la apuesta medular del curso.

3. Objetivos:

3.1. Objetivo General

Que los participantes del curso afiancen su capacidad investigativa con un enfoque crítico y

consciente de las implicancias metodológicas de tal o cual opción y, fundamentalmente,

problemática objeto de estudio. Igualmente se intenta realizar una actualización en el sentido

de transmitir técnicas y enfoques actualmente utilizados y que son objeto de debate.



3.2. Objetivos Específicos

Conocimiento de los supuestos que sostienen la lógica de la investigación científica

y consideración de la Psicología en el conjunto de las Ciencias.

Análisis crítico de un informe de investigación, identificando sus elementos

fundamentales: variables, diseño, técnicas de recogida de datos, técnicas de control

aplicadas y valorando la validez del estudio así como el alcance de los resultados.

Valoración de las características y diferentes aportaciones de diversas técnicas de

recogida de datos: observación, entrevista y tests psicológicos.

Planificación adecuada una investigación, determinando el diseño y los

procedimientos más adecuados al problema de estudio y la naturaleza de las

variables.

4. Organización de Contenidos:

4.1. La investigación en Psicología Clínica.

4.1.1. El método científico.

4.1.2. Alcance de las posibilidades de investigación.

4.1.3. El trabajo de otros investigadores.

4.1.4. Naturaleza programática de la investigación.

4.1.5. Cuestiones multidisciplinares: o enfoque de trabajo en equipo.

4.1.6. Psicología clínica y su contexto.

4.1.7. Cuestiones éticas.

4.2. Diseños de investigación.

4.2.1. El concepto de causalidad.

4.2.2. Diseños de investigación clínica más utilizados.

4.2.3. Problema central en las decisiones referente a diseños.

4.3. La validez de la investigación científica.

4.3.1. Validez y confiabilidad en los diseños de investigación.

4.3.2. Tipos de validez en la investigación.

4.3.3. Amenazas a la validez.

4.3.4. La varianza sistemática y la varianza error.

4.3.5. El diseño de investigación como control de varianza.

4.4. Estrategias para la atención a las amenazas a la validez.

4.4.1. Amenazas a la validez interna

4.4.2. Amenazas a la validez externa

4.4.3. Amenazas a la validez por conclusión estadística

4.4.4. Amenazas a la validez de constructo



4.5. Evaluación de impacto de la intervención clínica.

4.5.1. Revisión conceptual y problemas interpretativos más frecuentes

4.5.2. Problemas de evaluación

4.5.3. Influencia de variables no manipulables

4.5.4. Exclusión de sujetos del estudio

4.5.5. Establecimiento de intervenciones eficaces

4.6. Estudios de caso.

4.6.1. El estudio de caso en Psicología Clínica

4.6.2. Diseños experimentales de caso único

4.6.3. Principales estrategias de diseño experimental

4.6.4. Análisis de datos en diseños de caso único

4.6.5. Cuasi experimentos en diseños de caso único

4.7. Métodos de investigación cualitativa.

4.7.1. Estrategias, métodos y técnicas cualitativas.

4.7.2. Datos verbales y datos visuales.

4.7.3. Análisis de datos cualitativos.

4.7.4. Interpretación de los resultados.

4.7.5. Utilización de programas informáticos.

4.7.6. La calidad de la investigación cualitativa.

4.8. Métodos estadísticos para la evaluación de los resultados.

4.8.1. Pruebas de significancia y la hipótesis nula

4.8.2. Análisis que implican comparaciones múltiples

4.8.3. Análisis de datos y diseño del estudio

4.8.4. Objeciones a la prueba de significancia: Alternativas o complementos

4.8.5. Significancia clínica: efectos de intervención

4.9. Medición en Psicología Clínica.

4.9.1. Criterios para la selección de instrumentos de evaluación psicológica.

4.9.2. Necesidad de adaptación / construcción de instrumentos de evaluación.

4.9.3. Alcances de la confiabilidad y el error en la medición.

4.9.4. La validez de la evaluación psicológica: tipificación y procedimientos.

4.10. Selección de temas críticos en la interpretación de datos.

4.10.1. Patrones de datos y tipos de efectos

4.10.2. Resultados negativos o resultados sin diferencias

4.10.3. Replicación

4.10.4. Errores de medición y errores de estimación



5. Evaluación:

La calificación en el módulo será el resultado de una combinación de la calificación del proceso,

el producto y el aprendizaje final.

5.1. 25% de la calificación será asignada a la correcta entrega de tareas de cada unidad.

5.2. 25% a la elaboración de un reporte de investigación, tipo “Paper”, con una extensión

mínima de 3 págs. y máxima de 5 págs. El escrito deberá presentar la siguiente

estructura:

Introducción.

Metodología.

Resultados.

Discusión y conclusiones.

Referencias bibliográficas.

Para la realización de este trabajo deberán utilizar el material entregado en clase en

donde se ofrecen 5 bases de datos con temáticas diferentes.

5.3. El 50% de la calificación será asignada a una prueba escrita elaborada a partir de un

banco de preguntas anticipadamente distribuido.

La calificación se ajustará al Reglamento General de la Escuela de Postgraduación Académica de la Universidad Nacional de Asunción: Art. 28° "Pautas de Evaluación y Cuantificación" en donde se establece como criterio mínimo aceptable del 70% del total de rendimiento, el cual será traducido en la siguiente escala de calificación numérica:

Porcentaje Calificación

01 – 69 = 1

70 – 77 = 2

78 – 85 = 3

86 – 94 = 4

95 – 100 = 5

6. Metodología y materiales:

Tres estrategias constituirán los pilares del módulo:

6.1. Clases expositivas-participativas en las que se desarrollará el contenido de cada

unidad.

6.2. Lectura dirigida-activa durante todo el módulo sobre temas de cada unidad.

6.3. Estudio sistemático de informes de investigación publicados en revistas científicas.

Los materiales de lectura básica serán entregados en versión impresa y, además, estarán

disponibles en un repositorio virtual desde el cual se podrá acceder a material básico y

complementario. Adicionalmente se contará con espacios de interacción virtual para

consultas y discusiones; preguntas guía para la lectura y el estudio de cada unidad, ejercicios

complementarios. Se podrá acceder a software estadístico de distribución libre, los cuales

serán utilizados en el periodo de análisis de datos.

http://es.wikipedia.org/wiki/Art%C3%ADculo_cient%C3%ADfico



7. Bibliografía:

Alvira, F. (2011). La encuesta: una perspectiva general metodológica. Madrid: CIS.

APA (2010). Manual de estilo de publicaciones de la American Psychological Association. México: Manual Moderno.

Balluerka, N. (2011). Planificación de la investigación. La validez del diseño. 2ª edición. Salamanca: Amarú.

Banister, P., Burman, E., Parker, I., Taylor, M. y Tindall, C. (2004) Métodos Cualitativos en Psicología: Una Guía Para la Investigación. Guadalajara: Universidad de Guadalajara.

Becker, H. (2011). Manual de escritura para científicos sociales. Cómo empezar y terminar una tesis, un libro o un artículo. Buenos Aires: Siglo veintiuno.

Behar, R. y Grima, P. (2011). 55 respuestas a dudas típicas de estadística. 2ª edición. Madrid: Díaz de Santos.

Bellac, A. (1989). Métodos de investigación en psicología clínica. Bilbao: Desclée de Brouwer.

Botella, J. y Gambara, H. (2012). Qué es el meta-análisis. 2ª ed. Madrid: Biblioteca Nueva.

Campbell, D. y Stanley, J. (1966/2011). Diseños experimentales y cuasiexperimentales en la investigación social. Buenos Aires: Amorrortu.

Carretero-Dios, H. y Pérez, C. (2007) Normas para el desarrollo y revisión de estudios instrumentales: consideraciones sobre la selección de tests en la investigación psicológica. International Journal of Clinical and Health Psychology, Vol. 7, No. 3, pp. 863-882

Castro, J. J. (S/F) Metodología de la investigación I: Metodología cuantitativa.

Clark-Carter, D. (2002). Investigación Cuantitativa en Psicología. Del diseño experimental al reporte de investigación. Oxford: México.

Elousa, P. y Etxeberria, J. (2012). R Commander. Gestión y análisis de datos. Madrid: La Muralla.

Fernández, A. y Fernández, I. M. (2009). Crítica y alternativas a la significación estadística en el contraste de hipótesis. Cuadernos de Estadística. Madrid: La muralla.

Flick, U. (2012). Introducción a la investigación cualitativa. 3ª edición. Madrid: Morata/Paideia.

García, M. V., Cáceres, P. A. (2007). Diseños experimentales de series temporales. Madrid: UNED.

Gil, J. A. (2011). Metodología cuantitativa en educación. Madrid: UNED.

Guisande, C. (2011). Tratamiento de datos con R, Statistica y SPSS. Madrid: Díaz de Santos.

Hulley, S. B., Cummings, S. M., Browner, W. S., Grady, D. G. y Newman, T. B. (2007). Diseño de investigaciones clínicas. Philadelphia: Wolters Kluwer / Lippincott / Williams y Wilkins.

Kazdin, A. E. (2001). Métodos de investigación en psicología clínica. 3ª edición. México: Prentice Hall.

Kerlinger, F. (1979/1981). Enfoque Conceptual de la Investigación del Comportamiento. México: Nueva Editorial Interamericana.

Kerlinger, F. N. y Lee, H. B. (2002). Investigación del Comportamiento. Métodos de Investigación en Ciencias Sociales. 4°ed. México: McGraw-Hill/Interamericana.

Kish, L. (1995). Diseño estadístico para la investigación. CIS: Madrid.

Montero, I. y León, O.G. (2007). Guía para nombrar los estudios de investigación en Psicología. International Journal of Clinical and Health Psychology, 3, 847-862.



Morales, P. (2006). Medición de actitudes en psicología y educación: Construcción de escalas y problemas metodológicos. Madrid: Comillas.

Morse, J. M. (Ed.) (1994/2006). Asuntos críticos en los métodos de investigación cualitativa. Reimpresión de la edición de 2003. Medellín: Universidad de Antioquia.

Nicol, A. A. M. y Pexman, P. M. (2007). Cómo crear tablas. México: El Manual Moderno.

Nunnally, J. C. (1987/2009). Teoría Psicométrica. México: Trillas.

Prieto, L. y Herranz, I. (2005). ¿Qué significa “Estadísticamente significativo”? La falacia del criterio del 5% en la investigación científica. Madrid: Díaz de Santos.

Prieto, L. y Herranz, I. (2011) Bioestadística sin dificultades matemáticas. Madrid: Díaz de Santos.

Ramos, M. M., Catena, A. y Trujillo, H. M. (2004). Manual de métodos y técnicas de investigación en ciencias del comportamiento. Madrid: Biblioteca Nueva.

Rodríguez, J. (1991). Método de muestreo. Colección Cuadernos Metodológicos N° 1. Madrid: CIS.

Schoenbach, V. J. (1999/2004) Análisis e interpretación de datos, Cap. 14 de Comprendiendo los

fundamentos de la epidemiología – un texto en desarrollo. www.epidemiolog.net.

Silva, L. C. (2009). La investigación biomédica y sus laberintos. En defensa de la racionalidad para la ciencia del siglo XXI. Madrid: Díaz de Santos.

Silva, L. C. y Benavides, A. (1999) Causalidad e inobservancia de la premisa de precedencia temporal en la investigación biomédica. Methodologica 7: 1-14.

Sternberg, R. J. (1996). Investigar en Psicología. Una guía para la elaboración de textos científicos dirigida a estudiantes, investigadores y profesionales. Madrid: Paidos.

Stevens, S. S. (1946). Sobre la teoría de las Escalas de Medición, Science, Nueva Serie, Vol. 103, N° 2684, pp. 677-680.

Wainerman, C. (1976). Escalas de medición en ciencias sociales. Bs. As.: Nueva Visión.

8. Cronograma (ajustado)

Tema Fecha

Tema 1. La investigación en Psicología Clínica. 05/07/2013

Tema 2. Diseños de investigación. 12/07/2013

Tema 3. La validez de la investigación científica. 19/07/2013

Tema 4. Estrategias para la atención a las amenazas a la validez. 26/07/2013

Tema 5. Evaluación de impacto de la intervención clínica. 02/08/2013

Tema 6. Estudios de caso. 09/08/2013

Tema 7. Métodos de investigación cualitativa. 16/08/2013

Tema 8. Métodos estadísticos para la evaluación de los resultados. 23/08/2013

Tema 9. Medición en Psicología Clínica. 30/08/2013

Tema 10. Selección de temas críticos en la interpretación de datos. 06/09/2013

EXAMEN FINAL 13/09/2013

http://www.epidemiolog.net/



Universidad Nacional de Asunción Facultad de Filosofía

Dirección de Postgrados Maestría en Psicología Clínica

Metodología de la Investigación Clínica

TAREAS DE CONTROL DE LECTURA

Las tareas de control de lectura tendrán un peso final de 25 puntos. Cada tarea tiene una

puntuación asignada de 5 puntos. Las mismas deberán ser remitidas por correo electrónico en

el plazo establecido para cada caso; posteriormente, en un plazo final, los cinco trabajos

deberán ser entregados en formato impreso. La asignación de la puntuación se realizará

conforme a los siguientes criterios:

1. El envío, por correo electrónico, dentro del plazo previsto 1 punto.

2. La suficiente y adecuada respuesta a cada ítem 1 punto.

3. La entrega en plazo, con las correcciones correspondientes y en formato impreso en

una carpeta en la que se incorporen la totalidad de las tareas, 3 puntos.

Tarea 1: Clasificación de estudios clínicos

Utilizando el repositorio virtual de la asignatura [http://bit.ly/invcli], se deberán seleccionar

TRES investigaciones del ámbito de la Psicología Clínica y de la Salud, luego:

1. Leer cada una de las investigaciones.

2. Identificar los principales aspectos metodológicos de los estudios.

3. Utilizando la clasificación de León y Montero (2007), indicar en qué tipo de

investigación puede ser clasificado el estudio.

Tarea 2: Principio de precedencia temporal (PPT)

Lee atentamente el artículo de Silva, referente al principio de precedencia temporal y luego

responde a las indicaciones siguientes:

Para cada una de las preguntas marcar encerrar en círculo la alternativa que considere correcta.

1) La premisa de precedencia temporal en un estudio significa:

a) La exposición y el efecto se observan simultáneamente

b) La exposición es independiente del efecto

c) Es posible que el efecto se dé primero que la exposición

d) La exposición debe haberse dado antes de que el efecto aparezca



2) Considerando como X la exposición y como Y el efecto, la premisa de precedencia

temporal en un estudio implica que:

a) X debe ser una condición necesaria pero no suficiente para Y

b) X debe ser una condición suficiente pero no necesaria para Y

c) X haya actuado antes de que Y se haya modificado

d) X y Y pueden haber ocurrido simultáneamente

3) Con respecto a causalidad y conceptos anexos:

a) Se denomina causa cuando la supresión de ella elimina la posibilidad de que se

produzca el efecto

b) Se denomina factor de riesgo cuando su presencia aumenta o disminuye la

probabilidad de que se produzca el efecto

c) Causas y factores de riesgo epidemiológicamente significan lo mismo

d) Solamente a) y b) son correctas

4) El manejo temporal de los diseños indica que:

a) Con cualquier diseño de estudio se pueden identificar causas o factores de riesgo

b) Es posible que X sea una variable de confusión mas no una causa o factor de riesgo

c) La asociación observada entre X y Y puede darse por simple azar

d) Solamente la opción a) no es correcta

5) Con respecto a la asociación entre variables:

a) En cualquier diseño que se utilice es posible calcular asociación entre X y Y sin

afectar la validez interna del estudio.

b) Evaluar causalidad o factores de riesgo asociados a un efecto exige encarar multitud

de sesgos especialmente si el estudio no es experimental

c) En el cálculo de asociaciones entre X y Y, en los estudios transversales, se viola el

principio de precedencia temporal

d) En el cálculo de asociaciones en los estudios de casos y controles no es posible

violar el principio de precedencia temporal.

6) Indicar si el enunciado es verdadero (V) o falso (F)

1) El carácter prospectivo de un estudio garantiza el cumplimiento de la PPT ------------------ [___]

2) Los estudios de casos y controles son vulnerables al cumplimiento de la PPT --------------- [___]

3) Los estudios transversales son totalmente vulnerables al cumplimiento de la PPT ---------- [___]

4) En los estudios retrospectivos lo que interesa es identificar claramente es si existía

la presencia del factor de riesgo antes de que apareciera el efecto ------------------------------ [___]

5) En los estudios de prevalencia es posible identificar factores de riesgo asociados

a un efecto ----------------------------------------------------------------------------------------------- [___]

6) En muchos estudios es imposible determinar cuándo se inició el efecto ---------------------- [___]

7) En los estudios de casos y controles se debe garantizar que los factores de riesgo

estudiados se habían presentado antes de que ocurriese el efecto ------------------------------- [___]

8) En los estudios retrospectivos donde la información recolectada solo se refiere

al momento de la encuesta no es posible establecer la secuencia temporal entre

factores de riesgo y efecto ----------------------------------------------------------------------------- [___]



Tarea 3: Aplicación del principio MAX-MIN-CON

Selecciona una de las investigaciones de la Tarea 1 e indica:

1. De qué manera se aplicó en el estudio el principio MAX.

2. Qué aspectos relacionados con el instrumento las características de los participantes

pueden afectar, en el estudio, al principio MIN.

3. Cuáles fueron los métodos de control de variables extrañas que se indican en el

estudio y si las mismas han controlado toda la varianza sistemática secundaria posible.

Tarea 4: Ejercicio de análisis de datos

[Para esta tarea se deberá remitir al cuadernillo de ejercicios de datos]

Tarea 5: Análisis de instrumentos de evaluación clínica

Utilizando el repositorio virtual de la asignatura [http://bit.ly/invcli], selecciona UNA

investigación de tipo instrumental (carpeta Investigación Instrumental), luego indique:

1. ¿Se expone claramente el/los constructo/s que evalúa/n el test?

2. ¿Cuál es el índice de confiabilidad que se reporta?

3. ¿Qué método se utilizó para su cálculo?

4. ¿Qué métodos se utilizaron para estimar la validez del tests?

5. ¿Qué valores de validez se reportan en el estudio?

https://www.dropbox.com/sh/b7f08whbcqcdoil/xeFOf2nFdr

Material�de�lectura

CONTENIDO 1

EXPOSICIÓN DE LOS CONTENIDOS

1. INTRODUCCIÓN

La Psicología como disciplina científica comparte la estrategia general delmétodo científico. Sin embargo, dadas las peculiaridades de su objeto deestudio desarrolla un conjunto de métodos y técnicas particulares adecuadostanto a la naturaleza de su objeto como a su grado de desarrollo como ciencia.

No redundaremos en lo que entendemos por metodología, método y téc-nica, exponiéndolo muy brevemente:

a) Metodología es el estudio de las estrategias y tácticas de investigación uti-lizadas para obtener conocimiento.

b) Método es una expresión concreta del procedimiento general que cons-tituye el método científico.

c) Técnica son los modos específicos de realizar las diferentes etapas par-ticulares de cualquier investigación (Moreno, 1984, 1988a). Así, los métodos

JOSÉ JUAN CASTRO SÁCHEZ

62 MÉTODOS, DISEÑOS Y TÉCNICAS DE INVESTIGACIÓN PSICOLÓGICOS

ESQUEMA DE LOS CONTENIDOS

Metodologías cuantitativas

Modalidadexperimental

Modalidadselectiva

Modalidadobservacional

Concepto ConceptoConcepto

Características Características Características

Diseños Diseños Diseños

Experimentales Cuasiexperimentales De caso único Comparativo-causales

Metodología de la investigación I: Metodología cuantitativa

METODOLOGÍA DE LA INVESTIGACIÓN I: METODOLOGÍAS CUANTITATIVAS

y las técnicas son formas de actuación científica que se diferencian, esencial-mente, en su amplitud. De esta manera, podemos hablar de diferentes métodos(estrategias de investigación) y de diversas técnicas (de documentación, derecogida de datos, de análisis de datos, etc.).

Con relación a los métodos de investigación en Psicología, y, dada la com-plejidad de su objeto de estudio y la diversificación interna de la Psicología,cada vez son más los autores que consideran que para llegar a comprendernuestra disciplina, ésta debe ser multimetodológica (Arnau, 1989; Mayor,1989; Mayor y Pérez 1989; Aiken, West, Sechrest y Reno, 1990; Gómez,1990; Anguera, 1991a, 1995; Ato, 1991, 1995; Pascual, 1991).

Conscientes de esa necesidad, el problema que se nos plantea es la bús-queda de un criterio que sirva para organizar y presentar la amplia gama demétodos utilizados en Psicología.

En nuestro país, parece que se está llegando a cierto consenso en aceptar,como criterio de clasificación de las estrategias de investigación científica enPsicología, el de manipulabilidad o grado de control interno. Atendiendo aeste criterio podemos distinguir los siguientes métodos: experimental, selec-tivo y observacional (Anguera, 1981a, 1983, 1990, 1991a, 1991b; MartínezArias, 1983, 1986; Gómez, 1990; Arnau, 1995). Así, los métodos se distri-buirían a lo largo de un continuum:

63MÉTODOS, DISEÑOS Y TÉCNICAS DE INVESTIGACIÓN PSICOLÓGICOS

Método Métodos MétodoExperimental Selectivos Observacional

Máximo Grado medio Controlcontrol de control mínimo

Algunos autores definen el diseño de investigación como un conjunto dereglas a seguir para obtener observaciones sistemáticas y no contaminadasdel fenómeno que constituye el objeto de estudio (Pereda, 1987; García,1992).

En este sentido, nosotros consideramos en la línea de Kerlinger, 1981;Martínez Arias, 1983; AnderEgg, 1990 y Arnau, 1995; entre otros, que eldiseño de una investigación es un plan estructurado de ación elaborado enfunción de unos objetivos básicos y que se orienta a la obtención de datosrelevantes que permitan resolver el problema inicialmente planteado. Elloimplica tomar una serie de decisiones: operativización de las variables, esta-blecimiento de muestras de sujetos, condiciones y tiempo de recogida dedatos, etc.

En la elección de un criterio de clasificación de los diferentes métodos deinvestigación en Psicología nos hemos decantado por el criterio de grado decontrol interno. Este planteamiento es también aplicable a los diseños deinvestigación, pudiendo así, hablar de diseños experimentales, diseños selec-tivos y diseños observacionales.

Por otra parte, existen una serie de diseños que, comparten la lógica delmétodo experimental y no cumplen los requisitos de aleatorización y controlque esta estrategia impone; nos estamos refiriendo a los diseños cuasiexpe-rimentales. De esta manera, y en el continuum antes expuesto, se encontraríanlos diseños experimentales, los cuasiexperirnentales, los selectivos y losobservacionales.

2. MODALIDAD EXPERIMENTAL

El método experimental es el procedimiento de investigación que mayorgrado de intervención presenta sobre la situación y, en consecuencia, menorgrado de naturalidad.

2.1. Concepto y características

El método experimental tiene como objetivo fundamental el estableci-miento de relaciones de causalidad entre las variables implicadas; esto es, tratarde establecer hasta qué punto la manipulación de unas determinadas variable/s(denominada/s variable/s independientes), es responsable de los cambiosobservados en otras variable/s (llamada/s variable/s dependiente/s). Además,otra característica básica y diferenciadora de este método, es que ello se llevaa cabo mediante la realización de experimentos. Por experimento entende-mos una situación en la que el investigador provoca el fenómeno objeto deestudio, bajo unas condiciones de control previamente establecidas, en la quehace variar los valores de una o más variables y las restantes permanecenconstantes (Anguera, 1991; García, 1991).

Para poder estudiar la posible relación de causalidad existente entre estos dostipos de variables, el método experimental debe partir de tres supuestos básicos:

a) La aleatorización hace referencia tanto a la asignación aleatoria de lossujetos a los distintos grupos como a la asignación aleatoria de los diferentesniveles de la/s variable/s independiente/s.

b) El control de las posibles variables contaminadoras que puedan incidirsobre los resultados.




c) La manipulación de la variable independiente.

Ligado al concepto de control se encuentra el concepto de varianza y elloes así porque la variabilidad observada en la variable dependiente, entre lasdiferentes condiciones experimentales, puede deberse a distintas causas:

a) Varianza primaria, debida a los efectos de la manipulación de la variableindependiente, siendo por lo tanto la deseada por el investigador.

b) Varianza secundaria, la variabilidad de las medidas pueden deberse a lainfluencia de alguna variable contaminadora.

c) Varianza error, debida al resultado de factores aleatorios imprevistos einconsistentes.

El investigador, a la hora de planificar su experimento, debe tener pre-sente lo que Kerlinger (1981) ha denominado “principio MAXMINCON”,esto es:

1. MAXimizar la varianza primaria haciendo que el efecto de la variablemanipulada sobre la conducta objeto de estudio, sea lo más puro y fuerteposible.

2. MINimizar la varianza de error; es decir, intentar que los efectos de lasfluctuaciones aleatorias sean mínimas.

3. CONtrolar la varianza secundaria, es decir controlar los efectos de lasvariables contaminadoras, ya sea por medio de técnicas asociadas al diseño(eliminación, constancia, aleatorización, contrabalanceo, etc.) o utilizandotécnicas no asociadas al diseño.

En definitiva, y como señala Anguera (1991a), el control tiene por objetivo:

• Conseguir que la manipulación de la variable independiente sea la únicacausa.

• Controlar las variables extrañas que intervienen en el experimento.

• Informar las variables individuales y los métodos para obtener, cuanti-ficar y analizar los datos.


2.2. Diseños experimentales

La finalidad básica del método experimental es el estudio de la relacióncausal existente entre las variables. En consecuencia, el diseño experimentalpuede ser definido como un plan estructurado de acción tendente a la demostraciónde relaciones de carácter causal (Arnau, 1990a, 79).

Diferentes autores entienden al diseño experimental como un modeloparticular de variación y constancia. Es un modelo de variación porque seespecifican las condiciones de variación de la variable independiente (pro-duciéndose un cambio sistemático en las condiciones de producción de losfenómenos). Por otro lado, es un modelo de constancia porque en el diseñose pretenden mantener constantes los efectos de las potenciales variablescontaminadoras. Si el diseño experimental se ajusta a este modelo, el inves-tigador podrá inferir, con un alto grado de probabilidad, relaciones de caráctercausal entre la variable independiente y la variable dependiente.

Por su parte, Arnau (1989, 1990a, 1195) y Salvador (1991), entre otros,consideran que el diseño experimental constituye un proceso de toma dedecisiones, referidas a los sujetos, los grupos, las variables y las pruebas esta-dísticas a emplear.

Como podemos apreciar, en todo diseño experimental están implicadoslos supuestos básicos del método experimental; esto es, manipulación, controly aleatorización. Ahora bien, éstos pueden ser manejados de diferentesmaneras, siendo éstas las que determinen la estructura concreta de cada unode los diseños adaptando, en definitiva, las condiciones del diseño a las exi-gencias de la hipótesis experimental planteada.

En la exposición de los diseños experimentales hemos optado por consi-derar cuatro criterios referidos a su estructura básica y que, al ser consideradosconjuntamente, darán lugar a diseños más específicos:

a) Estructura univariable o estructura multivariable; al utilizar este criterio estamoshaciendo referencia al número de variables dependientes incluidas en el diseño.En este sentido, cuando utilizamos el término univariable o univariado estamosaludiendo a una situación en la que tan sólo hay una variable de medida oregistro y cuando incluimos más de una variable dependiente damos lugar alos diseños multivariables o multivariados.

b) Estructura intergrupos o estructura intragrupo; que hace referencia a la posi-bilidad de utilizar varios grupos o un único grupo de sujetos. Si los diferentesniveles de la variable independiente son aplicados a distintos grupos de sujetoso, lo que es lo mismo, si cada grupo de sujetos pasa por una única condición




experimental, entonces el diseño se denomina diseño intergrupos. Cuando seutiliza un único grupo de sujetos y cada uno de estos recibe todos los nivelesde la variable independiente hablamos de un diseño intragrupos.

c) Estructura unifactorial o estructura factorial; que hace referencia al númerode variables independientes manipuladas. Este es un criterio de clasificaciónclásico que distingue diseños en los que tan sólo se manipula una variable,diseños unifactoriales o diseños simples, de aquellos otros en donde se manipulandos o más variables independientes o factores, diseños factoriales.

d) Estructura de aleatorización completa o estructura de aleatorización restringida;que hace referencia al procedimiento seguido en la asignación de los sujetosa los grupos o lo que es lo mismo, a la técnica de control empleada en la for-mación de los grupos, de esta manera, pueden diferenciarse diseños con unaaleatorización completa de otros diseños con la aleatorización restringida. En una inves-tigación experimental la aleatorización está presente en dos momentos dife-rentes: en la selección de la muestra y en la formación de los grupos.

2.3. Diseños cuasiexperimentales

En el diseño experimental, la aleatorización juega un papel fundamental;no obstante, hay ocasiones en las que, por razones de diversa índole, no esposible asignar aleatoriamente los sujetos a los diferentes grupos, por lo queno se tiene un control total sobre la situación. En estos casos los diseñoscuasiexperimentales sustituirán a los verdaderos experimentos (Achen, 1986;Campbell y Stanley, 1988). En consecuencia, la diferencia básica entre ambosprocedimientos hace referencia a la selección y asignación de los sujetos; porlo demás, los diseños cuasiexperimentales comparten la lógica del procedi-miento experimental.

El término cuasiexperimento comienza a utilizarse a partir de la obra deStouffer (1950) y de Campbell (1957) para aludir a un experimento en el quehay una intervención específica (variable independiente o tratamiento),medidas de la conducta objeto de estudio y unidades experimentales pero nohay formación aleatoria de los grupos.

Se pueden señalar cuatro características de las investigaciones cuasiexpe-rimentales:

1. El empleo de escenarios naturales.

2. La carencia de un control experimental completo.


3. La utilización de diferentes procedimientos para subsanar la ausenciade un control total.

4. Su disponibilidad para explotar alguna situación social dada.

Los diseños cuasiexperimentales utilizan diferentes procedimientos parasuplir la ausencia de un control total sobre la situación, como puede ser lainclusión de un grupo de control no equivalente o la medición repetida de laconducta bajo condiciones idénticas, entre otros. Estos serán los criteriosque Cook y Campbell (1976, 1979, 1985) utilicen al clasificar estos diseños en:

a) Diseños de grupo control no equivalente que se caracterizan porincluir dos grupos formados naturalmente (y, en consecuencia, no equiva-lentes), a los cuales se les hace un registro antes y otro después de incluir eltratamiento.

b) Diseños de series temporales interrumpidas que se caracterizan porincrementar el número de registros, tanto antes como después de la intro-ducción del tratamiento; es decir, se trata de diseños en los que se incluyenuna amplia serie de medidas a lo largo de un determinado período de tiempo.

2.4. Diseños de caso único

Los diseños de caso único también denominados diseños de replicaciónintrasujeto hacen referencia a la aplicación sistemática a lo largo del tiempo de unaserie de tratamientos o de un mismo tratamiento, a cada uno de los sujetos (Arnau, 1984, 8).

Se destaca la utilización de la medición de un único organismo bajo condi-ciones controladas a lo cual denominaba análisis experimental de la conducta.

De los diferentes criterios de clasificación de los diseños de replicaciónintrasujeto, el más utilizado es el que hace referencia a la reversibilidad o noreversibilidad de la conducta una vez que se ha procedido a la intervención;dicho en otras palabras, a la posibilidad de que el tratamiento tenga efectospasajeros o efectos permanentes. Atendiendo a este criterio, los diseños dereplicación intrasujeto se pueden clasificar en:

a) Diseños de reversión (en los cuales el efecto del tratamiento, una vezretirado éste, desaparece con el paso del tiempo).

b) Diseños de no reversión (en los cuales el tratamiento tiene efectosreversibles sobre la conducta tratada).




2.5. Diseños comparativo-causales

Los estudios comparativo-causales se utilizan cuando el investigadorintenta explicar relaciones de causalidad comparando grupos de datos, perola variable que el investigador estudia como posible causa de los cambiosobservados no es manipulable. También puede ocurrir que, siendo una variablemanipulable, no pueda provocarse el fenómeno por razones de carácterético, economía de tiempo o distorsión de la situación educativa.

Psicológicamente no sólo interesa saber cómo es un fenómeno, sinotambién de qué manera y por qué ocurre. En consecuencia, se comparan lassemejanzas y diferencias que existen entre los fenómenos para descubrir losfactores (variables o condiciones) que parecen acompañar o contribuir a laaparición de ciertos hechos y situaciones en su propio contexto natural.

En general, si se tiene en cuenta cuándo ocurrió la relación entre las variablesy la posibilidad de manipular la variable independiente, pueden darse dossituaciones de investigación que pueden analizarse mediante el métodocomparativo-causal:

1. Cuando la posible influencia de la variable independiente sobre la variabledependiente ya se ha producido al comenzar la investigación. Por ejemplo, siqueremos medir el efecto de la educación infantil en el desarrollo de lamadurez lectora, la variable independiente es susceptible de manipulación ysería posible realizar un experimento. Sin embargo, además de que seríainviable asignar cada niño a una de las dos categorías de la variable indepen-diente, tendríamos que prolongar la investigación durante un curso escolar.

La investigación es mucho más breve si pretendemos estudiar la cuestióncon niños que actualmente ingresan en primaria. Es evidente que la influen-cia de los cursos previos de educación infantil ya se ha producido con ante-rioridad y sólo podemos seleccionar dos muestras de niños (una que hayarecibido educación infantil y otra no) y comparar actualmente su madurezlectora.

2. Cuando se desea investigar la influencia de variables no susceptibles demanipulación como el sexo, el ambiente familiar, la motivación, la inteligencia,los hábitos de lectura de los padres y de otras personas, es imposible asignar lossujetos aleatoriamente a diferentes categorías de dichas variables. Se pueden elegiral azar sujetos que posean determinados valores de la variable independiente,pero la relación de cada sujeto con el valor de la variable independiente noes el azar porque ya se había producido cuando seleccionan los sujetos, esdecir, sus manifestaciones ya acontecieron.


Si la variable independiente es manipulable puede aplicarse la metodologíaexperimental o cuasiexperimental; pero cuando las variables no son manipulableso no interesa manipularlas, hay que utilizar el método comparativo-causal.

Mientras que en el método experimental provocamos la ocurrencia de lavariable dependiente, en el método comparativo-causal observamos la ocu-rrencia de la variable dependiente y comprobamos si se ha dado anterior-mente la ocurrencia de la variable independiente.

En un experimento el investigador puede suponer que si se somete a lossujetos a la variable independiente se observará el resultado en la variabledependiente. En consecuencia, decide manipular la variable independiente;para ello, expone a un grupo experimental a nivel o categoría de variableindependiente y compara los resultados con respecto a un grupo control.

En un estudio comparativo-causal, el proceso es inverso: parte de laobservación o medición de la variable dependiente cuando ya ha recibido laposible influencia de la variable independiente. Para ello selecciona dos omás grupos según el número de categorías o niveles de la variable indepen-diente y trata de hallar entre las múltiples causas posibles o posibles variablesindependientes, cuáles se relacionan con la variable dependiente o contribuyena determinar el cambio observado. El investigador analiza una situación vitalen la cual los sujetos han experimentado el fenómeno que quiere investigar.

Es evidente que el método experimental aplicado al ámbito educativo noproporciona una garantía absoluta sobre el grado de control, pero en el com-parativo-causal la incertidumbre es aún mayor. Así, en el ejemplo planteado,además de diferir los sujetos en haber recibido o no la educación infantil,también pueden diferir en otras variables que potencialmente hubieran podi-do provocar el cambio observado en la madurez lectora.

Por otra parte, no siempre es fácil establecer la dirección de la relación decausalidad. Por ejemplo, supongamos que se pretende analizar si el hecho dedesempeñar una profesión está relacionado con el autoconcepto y al compararel autoconcepto de los sujetos que trabajan y los que no trabajan compro-bamos que aquéllos presentan significativamente un mayor nivel en el men-cionado rasgo psicológico. Sin embargo, cabe plantearse: ¿el hecho de ejerceruna profesión ha provocado el cambio en el autoconcepto? o, por el contrario,¿el hecho de poseer un mayor autoconcepto ha provocado que los sujetoshayan conseguido una profesión? o ¿ha sido el mayor nivel de aptitudes ocapacidades personales el que determina una profesión?; es decir, existe laposibilidad de que tanto el autoconcepto como el ejercer una profesióndependan a la vez de las aptitudes o capacidades personales y por ello apa-recían relacionados.




Dado que el método comparativo-causal es muy utilizado en educaciónconviene disminuir en la medida de lo posible estas ambigüedades. Para ello,además de realizar réplicas o repeticiones de la misma investigación puedentenerse en cuenta una serie de condiciones necesarias para poder inferir rela-ciones de causalidad (Ary y otros, 1987, 286):

1. Ha de existir una relación estadística entre las variables implicadas yuna determinada secuencia temporal. La relación entre dos o más variablesdebe ser constatada a través de un coeficiente de correlación o bien compa-rando las medias de la variable dependiente en función de las categorías dela supuesta variable independiente. La variable independiente precede a ladependiente en el tiempo. En el caso de que el cambio de la variable depen-diente ocurra antes de que la presunta variable independiente estuviera pre-sente, habrá que concluir que dicha variable no podrá ser la causa de los cambiosobservados en la variable dependiente. Se toman decisiones acerca de la relacióntemporal entre ambas sobre una base lógica o como resultado de medicionesque muestren que los grupos no diferían en la variable dependiente antes desu exposición a la variable independiente.

2. Es conveniente examinar la independencia en relación con otras variablesy la posible existencia de hipótesis alternativas como pueden ser la causacomún y la causalidad inversa. Para que exista relación de causalidad entre lavariable independiente y la variable dependiente ha de ocurrir que la variabledependiente no dependa de otras variables. Tendremos que examinar si, ademásde la variable independiente, otras variables causan las diferencias detectadasen la variable dependiente. Para verificar esta posibilidad se introducen otrasvariables dentro del análisis y se observa en qué forma afectan a la relaciónentre la variable independiente y la variable dependiente. Quizá se descubraque tal relación perdura aún si se introducen otras variables. En este caso, sise ha recurrido a las variables más relevantes se dispone de pruebas que apoyanuna inferencia de causalidad. Por otra parte, tal vez se descubra que la pre-sencia de las otras variables puede cambiar la relación entre las variablesindependiente y dependiente o incluso eliminarla. De ser así, se saca laconclusión de que la variable independiente no influye en la variable depen-diente o la relación entre ambas es causal o aparente (espuria) porque vienedeterminada por una tercera variable. Además pueden plantearse hipótesisalternativas con respecto a la variable independiente o con respecto a lavariable dependiente. Esto exige un cuidadoso análisis del problema y delas posibles causas relacionadas con un efecto y de los posibles efectos


relacionados con una causa, así como de las interacciones entre distintasvariables. Estas hipótesis han de formularse teniendo en cuenta la posibilidadque exista:

a) Una causa común. Las variables independiente y dependiente puedenaparecer relacionadas sólo porque ambas sean afectas de una terceravariable. Por ejemplo, en el caso de la profesión y el autoconcepto, la aptitudo capacidad personal sería una causa común si pudiera provocar a la vezque los sujetos consiguieran una profesión y mejoraran su autoconcepto,lo que origina una relación entre las dos últimas variables. En un estudiocomparativo-causal, el investigador siempre ha de sospechar la posibilidadde que una causa o causas comunes hayan originado la relación observada.

b) Causalidad inversa. En lugar de afirmar que la variable independientees causa de la variable dependiente, quizá ocurra lo contrario. Las inves-tigaciones sobre prácticas educativas han revelado que los niños que soncastigados con frecuencia muestran una conducta más agresiva. Ademásde la hipótesis de que el castigo provoca mayor agresividad, hay que teneren cuenta la hipótesis inversa: el hecho de que los niños sean más agresivosprovoca que los padres les castiguen más.

c) Otras variables independientes. Aparte de la variable independiente queestudiamos pueden haber otras variables independientes que ocasionen elefecto observado en la variable dependiente. Hay que enumerar todas lasposibles variables independientes alternativas. Se procurará mantenertodas constantes menos una para constatar si se relaciona con la variabledependiente. Si logramos eliminar las variables independientes alternativasdemostrando que no se relacionan con la variable dependiente, obten-dremos apoyo para la hipótesis original de la relación de causalidad entre lavariable independiente y la variable dependiente. Por ejemplo si estamosinteresados en explorar la posible incidencia de la clase social en el ren-dimiento de los estudiantes, tendremos que seleccionar sujetos quepertenezcan a las distintas clases sociales con el fin de comparar surendimiento respectivo. Sin embargo, al seleccionar los sujetos según laclase social también han podido quedar seleccionados según otras variablesextrañas o ajenas a la investigación, pero que han podido influir en lavariable dependiente, como pudiera ser la inteligencia.




3. MODALIDAD SELECTIVA

Como hemos indicado, la metodología selectiva ejerce un grado medio decontrol sobre la situación.


Los métodos selectivos son una serie de procedimientos que estudian losfenómenos bajo su presentación natural, por lo que tienen en común el nomanipular intencionalmente los niveles de la variable independiente. En estecaso, se estudia la relación existente entre las variables seleccionando las unidadesde observación; esto es, los sujetos, en virtud de que posean en distintogrado o nivel la/s variable/s de interés así como observando su manifestaciónespecífica en otra/s.

Entre los métodos más relevantes se encuentran el método correlacionaly el método de encuestas por muestreo. Por lo que se refiere al métodocorrelacional hemos de decir que esta denominación es cada vez menosempleada debido a que nos puede llevar a una posible confusión entre sucarácter metodológico y su carácter estadístico. El método de encuesta pormuestreo hace referencia a un aspecto de la investigación que no es exclusivo deesta forma de proceder: el muestreo. El muestreo es importante cuandohacemos una investigación de encuestas debido a que, en este caso, el objetivoque se busca es el de describir determinadas características de una poblacióntotal a partir de los datos obtenidos en una muestra relativamente pequeñade esa población. La encuesta por muestreo es la estrategia a seguir cuandolo que se busca es la representatividad.

Los objetivos del método selectivo son:

a) Describir una realidad determinada

b) Identificar regularidades en el conjunto de los datos

c) Cuando una o más variables pueden considerarse como antecedentesde otras, hacer predicciones de éstas o intentar establecer algún tipo de relaciónfuncional o causal (Martínez Arias, 1983, 1986; Delgado y Prieto, 1997).

Además de las características que hemos señalado, hay otros tres aspectosfundamentales dentro de la estrategia selectiva como son:


1. El muestreo. Hacer un muestreo consiste en seleccionar un númerolimitado de unidades, de entre una totalidad o universo, lo cual se hacesiguiendo una serie de reglas con el fin de poder hacer inferencias del valormuestral al poblacional.

2. La recogida de información. La entrevista y el cuestionario constituyenlos instrumentos de recogida de información más ampliamente utilizados. Laentrevista es un procedimiento en el que los datos se recogen a partir de lasmanifestaciones orales de los sujetos y en el cuestionario la información quese obtiene se limita a las respuestas escritas de los sujetos ante preguntas yapreparadas de antemano.

3. La codificación consiste en asignar números iguales a respuestas iguales o acaracterísticas iguales de las personas. El proceso de codificación incluye:

a) Asignación de códigos a las respuestas de cada pregunta; es decir,asignar números a las posibles respuestas de cada pregunta.

b) Elaboración del libro de códigos o de codificación, en donde seregistran los códigos establecidos previamente.

c) Comprobación de los códigos, que consiste en revisar el fichero dedatos para asegurar que no ha habido errores de transcripción de losdatos.

3.2. Diseños selectivos

Las diferentes clasificaciones de los diseños selectivos tienen como puntode partida aquellos aspectos que el investigador puede controlar y variar conel fin de adaptar las características del estudio a los objetivos que se persiguen.En este sentido, uno de los criterios de clasificación más utilizado es el quehace referencia a la dimensión temporal en la recogida de datos, según el cual losdiseños se pueden clasificar en transversales y en longitudinales (Baltes, Reesey Nesselroade, 1981; Dwyer, 1983; Martinez Arias, 1983; Gómez, 1990):

1. Los diseños transversales son adecuados para el estudio de variables quepermanecen estables en el tiempo; es decir, no susceptibles de cambio odesarrollo. Dentro de los diseños transversales podemos hacer referencia:




a) Diseño intracultural es que la recogida de datos se hace sobre gruposde sujetos que pertenecen a un mismo entorno cultural.

b) Diseño transcultural consiste en realizar un estudio de comparaciónentre grupos de sujetos pertenecientes a diferentes culturas o a diferentesnaciones.

2. El diseño longitudinal es el estudio del desarrollo o del cambio a lo largodel tiempo. Los diseños longitudinales se caracterizan porque la entidad bajoestudio es observada de forma repetida y ordenada a lo largo del tiempo. Deesta manera, la variación en el tiempo y la observación repetida de una entidad(sujeto o grupo), hace que este tipo de diseño sea especialmente adecuadopara los estudios sobre cambio o desarrollo. Dentro de los diseños longitu-dinales se incluyen diseños más específicos:

a) Diseño de panel o diseño longitudinal simple es el más sencillo. Este diseñose caracteriza porque la recogida de datos se realiza sobre el mismo grupode sujetos, en las mismas variables y en dos o más momentos temporales.La facilidad y la simplicidad de este diseño tiene como contrapartida ladificultad que entraña localizar al mismo grupo de sujetos para ser obser-vados en diferentes momentos.

b) Diseño de tendencias se caracteriza por hacer comparaciones de datosrecogidos en muestras seleccionadas para cada ocasión, es decir, se siguen loscambios en la población haciendo un muestreo de nuevo en cada medición.

c) Diseño de cohortes se caracteriza por estudiar los efectos debido a lapertenencia a una determinada cohorte. El término cohorte es definidocomo una generación de personas nacidas en el mismo punto temporal (Baltes,Reese y Nesselroade, 1981, 150). No obstante, esta interpretación gene-racional del término cohorte se amplía para hacer referencia a un grupode personas que han vivido un mismo evento en un mismo intervalo detiempo (Hagenaars, 1990).

Por otra parte, y haciendo referencia a los estudios correlacionales, sabemosque muchos fenómenos educativos no actúan siempre con independencia,sino que se relacionan y se influyen mutuamente. Para explicar mejor losfenómenos es necesario analizar las relaciones entre las variables implicadas


mediante coeficientes de correlación. A partir de una matriz de correlaciones se puede tener una visión global de

la relación mantenida por los distintos pares de variables y puede identifi-carse la estructura subyacente a un grupo de variables a través del denomi-nado análisis factorial.

El coeficiente de correlación, como veremos en el módulo 6 dedicado al análisisde datos, está comprendido entre -1 y 1 y en la medida que el coeficiente seaparta significativamente de cero y se aproxima a uno, podemos afirmar quelas variables están midiendo una característica común o compartida entreambas. Las variables implicadas ofrecen prácticamente una misma informaciónpuesto que casi están midiendo una misma característica. Por ejemplo, elnúmero de libros que un grupo de alumnos toma en préstamo de la bibliotecay las horas de lectura que dedican son variables que suelen mantener un altogrado de correlación porque, en definitiva, ambas variables aportan esen-cialmente una información común que podría denominarse la afición por lalectura. Es decir, la afición lectora puede ser la estructura subyacente de lasdos variables anteriores.

Conviene no confundir correlación y causalidad. La existencia de corre-lación significativa entre dos variables es una condición necesaria pero nosuficiente para concluir que entre ellas existe una relación de causalidad.

Dentro de los estudios correlacionales figuran los estudios predictivos. Lapredicción consiste en estimar posibles valores de una variable dependienteo variable criterio a partir de los que toma otra independiente o predictora.

Técnicas como la regresión y la predicción son técnicas importantes por suaplicación en el ámbito educativo. La regresión consiste en aproximar ohacer regresar los puntos de un diagrama de dispersión a una línea recta conel fin de poder predecir valores a partir de la ecuación de dicha recta o ecuaciónde regresión. La predicción es una conjetura que se formula sobre el valor quetomará una variable a partir de la relación que existe con otra variable.

Con esta breve caracterización de los diseños selectivos más utilizados,hemos intentado poner de manifiesto que constituyen una alternativa válidaen aquellos casos en los que no es posible una asignación aleatoria de losdiferentes niveles de la variable independiente o en aquellos casos en los queel objetivo fundamental es la generalización de los resultados de una muestraa una población.

4. MODALIDAD OBSERVACIONAL

La modalidad observacional es aquella que menor grado de intervenciónpresenta sobre la situación y, en consecuencia, la de mayor grado de naturalidad.





La ciencia comienza con la observación, el más antiguo y el más modernoprocedimiento de recogida de datos (Anguera, 198la; 1989a). Así planteado,creemos que es necesario recordar la diferenciación hecha por diversos autoresentre observación como técnica y observación como método (Anguera, 198la,1989a, 1990; Riba, 1991). Como técnica, la observación tiene como finalidadcaptar la realidad de los hechos posibilitando la recogida de información rele-vante para la contrastación empírica de los postulados teóricos (Sarriá yMaciá, 1990a). De acuerdo con Anguera (198la, 279), la observación comotécnica es una estrategia a seguir subordinada a las directrices de una línea de investigacióna través de un método concreto. En consecuencia, como técnica de recogida dedatos, la observación entra a formar parte de cualquier tipo de diseño, ya seaexperimental, cuasiexperimental, selectivo u observacional; en cualquiercaso, ha de adecuarse a los objetivos generales de la investigación y ha decumplir unos requisitos de rigor con el fin de que la información que pro-porcione sea relevante, válida y fiable.

Cuando hacemos referencia a la observación como método se produce loque Riba denomina un cambio de nivel (1991, 92). Bajo esta conceptualización,se hace referencia a un procedimiento general sistemático que se caracterizapor la no intervención, el registro sistemático y el análisis riguroso de la con-ducta generada de forma espontánea.

La no intervención en la producción de conductas perceptibles que van aser registradas constituye un aspecto fundamental (Anguera, 1986b), asícomo el hecho de que el comportamiento se estudia en su entorno real, natural,lo cual permite conocer el para qué o el por qué de dicho comportamiento(Bakeman y Gottman, 1989; Anguera, 1991; Martin y Bateson, 1991).

En la actualidad, el método observacional se plantea como un proceso siste-mático encaminado a un estudio cuantitativo de la conducta espontánea a partir de unarecogida de datos caracterizada por su replicabilidad y la elaboración “ad hoc” de sistemasde codificación como medio que posibilita el registro (Anguera, 1991c, 109).

4.2. Diseños observacionales

Antes de entrar en los diseños observacionales quisiéramos mencionar laimportancia de los medios técnicos, es decir de los instrumentos. Ellos posi-bilitarán o facilitarán el registro y/o almacenamiento de los datos incremen-tando la precisión de los registros efectuados. Losada (1993) apunta que unafuente de error asociada a los instrumentos de medida es la reactividad. Con


este término se hace referencia a que el sujeto que está siendo observadopuede modificar su conducta como consecuencia del procedimiento de eva-luación empleado (entre otras posibles causas). De ahí la importancia de elegirbien el instrumento a emplear en la investigación.

En el método observacional el observador es el instrumento fundamen talpero además necesita de instrumentos externos, accesorios que ayuden alobservador en su trabajo de registrar la conducta del sujeto en su medio natural.En la actualidad, se dispone de una amplia gama de instrumentos ya seanmecánicos (sistemas de codificación y plantillas de registro), tecnológicos(soportes magnéticos y memorias portátiles) o accesorios (cronómetro,metrónomo y espejo unidireccional) (Anguera, 1990; Sarriá y Maciá, 1990b;Martin y Bateson, 1991; Losada, 1993).

Cuando utilizamos el término de método observacional estamos inclu-yendo tres fases que Bakeman (1991) resume de la siguiente manera:

1. Se observa la conducta objeto de estudio y se elaboran las categoríascorrespondiente.

2. Se categorizan dichas conductas y se miden mediante la utilización delsistema de categorías desarrollado en la primera fase .

3. Se contabilizan y se someten a análisis los datos registrados.

Por lo que se refiere a la tipología de los diseños observacionales, suestructura se define básicamente por el cruce de dos dimensiones bipolares:idiográfico-nomotético (la posibilidad de observar a un sujeto o de observar a ungrupo de sujetos) y sincrónico-diacrónico (el carácter puntual o de seguimiento



Indiográfico

2 1Puntual Seguimiento

3 4

Nomotético

en la observación y registro) (Anguera, 1989a, 1990). Cuadro 1: Cruzamiento de dimensiones ideográfico/nomotético y puntual/seguimiento

(Anguera, 1989, 171; 1990, 200).


Como podemos observar, resultan cuatro cuadrantes:

Primer cuadrante se refiere al seguimiento de un solo sujeto observado.A partir del sistema de categorías previamente elaborado, se efectúan registrossistemáticos que permitirán estudiar la secuencialidad de la serie de datosobtenidos.

Segundo cuadrante se caracteriza por una recogida de datos puntual y a partirde un solo sujeto. No ofrece resultados válidos para ser analizados poste-riormente.

Tercer cuadrante se caracteriza por la recogida de datos puntual de un grupode sujetos. Permite conocer la distribución de un grupo de sujetos con rela-ción a los diferentes niveles de dos o más sistemas de categorías.

Cuarto cuadrante contempla el seguimiento de un grupo de sujetos lo cualresulta difícil, por lo que se proponen varias alternativas.

El cruzamiento de las dimensiones mencionadas permite diferenciar trestipos de diseños observacionales:

1. Diseños sincrónicos o transversales tienen como objetivo fundamental estudiarlas relaciones entre diversas variables de estudio medidas sincrónicamente.

2. Diseños secuenciales o diacrónicos. Su principal objetivo es el estudio de lascontingencias internas de los sucesos o estados de las conductas de los sujetosposibilitando la detección y, en su caso, interpretación, de patrones secuen-ciales de conducta (Anguera et al., 1993). En un diseño secuencial todos lospasos están dirigidos a obtener una información adecuada para el estudiosecuencial de la conducta. Dentro de este tipo de diseños existen diferentestipos de datos secuenciales según la estructura de las unidades de conductaempleadas y la naturaleza de las unidades de tiempo empleadas:

• Datos tipo I: contienen la mínima información, es decir, secuencia.

• Datos tipo II: contienen información sobre secuencia y co-ocurrencia,pero no sobre tiempo físico.

• Datos tipo III: contienen información sobre secuencia y tiempo físico,


pero no sobree co-ocurrencia.• Datos tipo IV: son los que contienen mayor cantidad de información:

secuencia, co-ocurrencia y tiempo físico.

3. Diseños mixtos o secuenciales transversales. En estos diseños se partede la codificación de sucesivos eventos o intervalos en dos o más dimensionescon el fin de estudiar la relación entre conductas adyacentes o casi adyacentes.

4.3. Cuestiones importantes en la investigación observacional

A) Elaboración de un sistema de categorías:

Para establecer un adecuado sistema de categorías es preciso delimitar lasunidades de conducta siguiendo el criterio de molecularidad y de molaridad. Sise emplean unidades de conducta moleculares se tiene la ventaja de una mayorobjetividad y una menor inferencia por parte del observador. El inconve-niente es que se puede dejar vacías de sentido dichas unidades. Si se empleanunidades de conducta más molares se tiene la ventaja de dar una visión más globalde la conducta, pero lo inconvenientes es que exigen un mayor nivel deabstracción y el riesgo de inferencia es mayor. El grado de molecularidad o mola-ridad de las unidades de conducta dependerá de los objetivos de la investigación.

El sistema de categorías debe cumplir dos condiciones:

a) Exhaustividad se refiere a que dentro del ámbito de estudio, cualquierconducta pueda asignarse a una de las categorías.

b) Mutua exclusividad se refiere a que no exista solapamiento entre lascategorías que componen el sistema.

B) Sistematización de la observación:

Hace referencia al grado de control externo con el fin de facilitar las situa-ciones relevantes para los objetivos de la investigación, cómo proceder a larecogida de datos, la posibilidad o no de utilizar instrumentos técnicos, etc.(Anguera, 1981a). Si el objetivo de estudio es una conducta compleja y noestán bien delimitados sus marcos teóricos se recomienda una observaciónsistematizada. Esta observación “es la única que le interesa en la inverstigaciónobservacional” y se pretende descubrir con exactitud los elementos conduc-tuales que tienen una valor predictivo.




C) Muestreo observacional:

Se refiere a qué conductas se van a observar, cuándo, si existen variossujetos a cuál de ellos debemos observar, (Anguera, 1990; Quera, 1991).

Las técnicas de muestreo pueden clasificarse atendiendo a dos criterios, elcomportamental o cronométrico y en función del nivel de control externo o grado deestructuración de los datos. Ambos criterios pueden cruzarse entre si, dando


Comportamental Cronométrico

Bajo control externo “Ad libitum” Focal

Muestreo de eventos

Elevado control externo Muestreo temporal

lugar al cuadro que propone Anguera (1990, 173). Como se puede apreciar, atendiendo al criterio comportamental encontrarnos

el muestreo “Ad libitum” y el muestreo de eventos; atendiendo al criteriocronométrico es preciso mencionar el muestreo focal y el muestreo temporal.

La elección de la técnica de muestreo a emplear en una determinadainvestigación va a depender de una serie de factores. Entre ellos es precisodestacar: las características conductuales a estudiar, las características delsujeto o sujetos a observar, así como los objetivos planteados en la investi-gación.

Hasta ahora hemos aludido al registro de la ocurrenciano ocurrencia delas categorías tratándose, en este caso, de un registro cualitativo. No obstante,y como apunta Carreras, la conducta puede y debe ser cuantificada (1991, 170).Estamos ante un registro continuo de la conducta que requiere que el obser-vador preste atención de forma constante con el fin de conocer la frecuenciade una conducta, su duración y los instantes en los que comienza y termina.

Aspectos como frecuencia, duración, latencia e intensidad constituyenmedidas o indicadores conductuales básicos del registro observacional. Deellos se derivan otros que no dependen del tiempo total invertido en lasesión de observación y que facilitan la comparación entre los registros desesiones diferentes; entre estas medidas o indicadores, denominados secun-darios, podemos mencionar la frecuencia relativa, la tasa, la duración relativay la duración media, entre otros. No nos detendremos en ellos por encon-trarse claramente detallados y especificados en el trabajo de Carreras (1991)



y de Anguera, Behar, Blanco, Carreras, Losada, Quera y Riba (1993). E) Fiabilidad:

Anguera et al. (1993) definen la fiabilidad como el aspecto de la calidad de losdatos que se propone verificar si coinciden los juicios cuantitativos emitidos por un obser-vador en dos momentos diferentes sin interrupción temporal o por dos observadores en elmismo momento temporal. La fiabilidad se puede calcular a través de registrosefectuados por un mismo observador en dos momentos diferentes de lamisma sesión de observación (fiabilidad intraobservador) o a través de registrosefectuados por diferentes observadores en el mismo período temporal (fia-bilidad interobservadores).


BIBLIOGRAFÍA

BIBLIOGRAFÍA COMPLEMENTARIA

ANGUERA, M.T., J. ARNAU, M. ATO, R. MARTÍNEZ, J. PASCUAL yG. VALLEJO (1995). Métodos de investigación en psicología. Síntesis: Madrid.

BUENDÍA, L., M.P. COLÁS y F. HERNÁNDEZ (1997). Métodos de investi-gación en psicopedagogía. McGraw-Hill: Madrid.

DELGADO, A. y G. PRIETO (1997). Introducción a los métodos de investigaciónde la psicología. Pirámide: Madrid.

LEÓN, O. y I. MONTERO (1997). Diseño de investigaciones (2ª ed.). McGraw-Hill: Madrid.

REFERENCIAS BIBLIOGRÁFICAS

ACHEN, C.H. (1986). The statistical analysis of quasiexperirnents. University ofCalifornia Press: Berkeley, CA.

AIKEN, L. S., S.G. WEST, L. SECHREST y R.R. RENO (1990). “Graduatetraining in statistics, methodology and measurement in psychology”.American Psychologist, 45 (6), 721-734.

ANDER-EGG, E. (1990). Técnicas de investigación social. Humanitas: BuenosAires.

ANGUERA, M.T. (1981a). “La observación (I). Problemas metodológicos”.En R. FERNÁNDEZ BALLESTEROS y J. A.L. CARROBLES (eds.),Evaluación conductual: metodología y aplicaciones (pp. 292-333). Pirámide:Madrid.

— (1981b). “La observación (II). Situaciones naturales y de laboratorio”. EnR. FERNÁNDEZ BALLESTEROS y J. A.L. CARROBLES (Eds.),Evaluación conductual: metodología y aplicaciones (pp. 334-363). Pirámide:Madrid.

— (1982). “Fiabilidad de la codificación en estudios naturales”.Comunicación presentada en el VII Congreso Nacional de Psicología.Santiago de Compostela.

— (1983). Manual de prácticas de observación. Trillas: México.


— (1985). Metodología de la observación en las ciencias humanas. Cátedra: Madrid. — (1986a). “La investigación cualitativa”. Educar, 10, 23-50. — (1986b). “Observación”. En S. MOLINA (dir.), Diccionario temático de edu-

cación especial (pp. 466-483). C. E. P. E.: Madrid. — (1986c). “Niveles descriptivos en metodología observacional”. Apuntes de

Psicología, 16, (1), 29-32. — (1986d). “Posibilidades de la metodología cualitativa vs. Cuantitativa”.

Revista de Investigación Educativa, 3 (6), 127-144. — (1988a). Observación en la escuela. Graó: Barcelona. — (1988b). “Observación de conductas”. En G. SASTRE y M. MORENO

(Dirs.), Enciclopedia práctica de pedagogía (pp. 349-358). Planeta: Barcelona. — (1989a). Metodología de la observación en las ciencias humanas (4ª ed.). Cátedra:

Madrid. — (1989b). “Hacia una representación conceptual: teorías y modelos”. En J.

ARNAU y H. CARPINTERO (coords.). Tratado de psicología general, vol. 1:historia, teoría y método. (J. MAYOR y J. L. PINILLOS, dirs.) (pp. 543-580).Alhambra: Madrid.

— (1989c). “La observación de la conducta en el ámbito hospitalario: prin-cipios, clases, ventajas y limitaciones”. En A. POLAINO-LORENTE(Ed.), Introducción a la modificación de conducta para profesionales de enfermería(pp. 39-71). P. P. U.: Barcelona.

— (1990). “Metodología observacional”. En J. ARNAU, M.T. ANGUERAy J. GÓMEZ. Metodología de la investigación en ciencias del comportamiento (pp.125-236). Secretariado de Publicaciones de la Universidad de Murcia:Murcia.

— (1991a). “Análisis del experimento desde la metodología científica”. En J.PASCUAL, M. T. ANGUERA, G. VALLEJO y F. SALVADOR. Psicologíaexperimental (pp. 107-155). NAU: Valencia.

— (1991b). Metodología observacional en la investigación psicológica. Vol. 1: funda-mentación (1). P. P. U.: Barcelona

— (1991c). “Proceso de categorización”. En M. T. ANGUERA (ed.),Metodología observacional en la investigación psicológica. Vol. 1: fundamentación (1).(pp. 115-168). P. P. U.: Barcelona

— (1995). “Metodología cualitativa”. En M. T. ANGUERA y otros. Métodosde investigación en psicología. (pp. 513-522). Síntesis: Madrid.

— (1993). Metodología observacional en la investigación psicológica. Vol. II:Fundamentación (2). P. P. U.: Barcelona

ANGUERA, M.T., J. ARNAU, M. ATO, R. MARTÍNEZ, J. PASCUAL, yG. VALLEJO (1995). Métodos de investigación en psicología. Síntesis: Madrid.




ANGUERA, M. T., J. BEHAR, A. BLANCO, M.V. CARRERAS, J. L.LOSADA, Y. QUERA y C. RIBA (1993). “Glosario”. En M. T.ANGUERA (ed.) Metodología observacional en la investigación psicológica (pp.587-617). P. P. U.: Barcelona.

ANGUERA, M. T., A. BLANCO, J. L. LOSADA y M. D. MONTILLA(1993). “Incidencias de nuevos recursos tecnológicos en el registroobservacional”. Actas del III Simposium de Metodología de las Ciencias Socialesy del Comportamiento. Santiago de Compostela, 12 - 17 julio.

ARNAU, J. (1982). Teoría de la detección de señales. Ediciones Universitad deBarcelona: Barcelona.

— (1984). Diseños experimentales en psicología y educación. Vol I. Trillas: México. — (1986). Diseños experimentales en psicología y educación. Vol II. Trillas: México.— (1989). “Metodología de la investigación y diseños”. En J. ARNAU y H.

CARPINTERO (Coords.), Tratado de psicología general. Historia, teoría y méto-do. Vol. I (J. MAYOR y J. L. PINILLOS, dirs.) (pp. 581-615). Alhambra:Madrid.

— (1990a). “Metodología experimental”. En J. ARNAU, M. T. ANGUERAy J. GÓMEZ. (eds.), Metodología de la investigación en ciencias del comportamiento(pp. 7-122). Universidad de Murcia: Murcia.

— (1990b). Diseños experimentales multivariables. Alianza Psicología: Madrid. — (1991). “Diseños de investigación. Tendencias actuales y líneas futuras de

desarrollo”. Ponencia presentada en el II Symposium de metodología delas ciencias humanas. Tenerife.

— (1994). “Diseños experimentales de caso único”. En R. FERNÁNDEZBALLESTEROS (ed.), Evaluación conductual hoy: un enfoque para el cambio enpsicología clínica de salud, pp 40-86. Pirámide: Madrid.

— (1995). “Metodología de la investigación psicológica”. En M. T.ANGUERA, J. ARNAU, M. ATO, R. MARTÍNEZ, J. PASCUAL y G.VALLEJO. Métodos de investigación en psicología (pp. 23-43). Síntesis: Madrid.

ARNAU, J., M. T. ANGUERA y J. GÓMEZ (1990). Metodología de la investi-gación en ciencias del comportamiento. Secretariado de Publicaciones de laUniversidad de Murcia: Murcia.

ARY, D., L.C. JACOBS y A. RAZAVIEH (1987). Introducción a la investigaciónpedagógica. Interamericana: México.

ATO, M. (1991). Investigación en ciencias del comportamiento. I. Fundamentos. P. P. U.:Barcelona.


— (1995). “Conceptos básicos”. En M. T. ANGUERA, J. ARNAU, M.ATO, R. MARTÍNEZ, J. PASCUAL y G. VALLEJO. Métodos de investigaciónen psicología (pp. 45-72). Síntesis: Madrid.

ATO, M. y J. J. LÓPEZ (1994). Fundamentos de estadística con systat. Ra-Ma:Madrid.

ATO, M. y R. RABADÁN (1991). Validez de la investigación psicológica. Torreta:Murcia.

BAKEMAN, R. (1991). “Prólogo”. En M. T. ANGUERA (Ed.), Metodologíaobservacional en la investigación psicológica. Vol. I: Fundamentación (1) (pp- 13-17). P. P. U.: Barcelona.

BAKEMAN, R. y J.M. GOTTMAN (1989). Observación de la interacción.Introducción al análisis secuencial. Morata: Madrid.

BALTES, P. B., H. W. REESE y J. R. NESSELROADE (1981). Métodos deínvestigación en psicología evolutiva: enfoque del ciclo vital. Morata: Madrid.

CAMPBELL, D. T. (1957). “Factors relevant to the validity of experimentsin social settings”. Psychological Bulletin, 54 (4), 297-312.

CAMPBELL, D. T. y J. C. STANLEY (1988). Diseños experimentaies y cuasi-experimentales en la investigación social. Amorrortu: Buenos Aires.

CARRERAS, M. V. (1991). “Métrica del registro observacional”. En M. T.ANGUERA (ed.), Metodología observacional en la investigación psicológica. Vol.I: Fundamentación (1) (pp. 169-192). P.P.U.: Barcelona.

COOK, T.D. (1985). “Post-positivist critical multiplism”. En R. L.SHOTLAND y M. M. MARK, (ed.), Social Science and Social Policy, p. 21-62. Sage: Beverly Hills, CA.

COOK, T. D. y D. T. CAMPBELL (1976). “The design and conduct of qua-siexperiments and thrue experiments in field settings”. En M.DUNNETTE (ed.), Handbook of Industrial and Organizational Research (pp.223-326). Rand McNally: New York.

— (1979). Quasi-experimentation: design and analysis Issues for Field Settings. RandMcNally: Chicago, IL.




— (1986). “Tha causal assumptions of Quasi-Experimental practice. Theorigins of Quasi-Experimental practice”. Synthese, 68, 1-180.

DELGADO, A.R. y G. PRIETO (1997). Introducción a los métodos de investiga-ción de la psicología. Pirámide: Madrid.

DWYER, J. H. (1983). Statistical models for the social and behavioral sciences.Oxford University Press: New York.

GARCÍA JIMÉNEZ, E. (1991). Una teoría práctica sobre la evaluación. Estudioetnográfico. Mido: Sevilla.

GARCÍA, M. V. (1992). El método experimental en la investigación psicológica. P. P. U.:Barcelona

GÓMEZ, J. (1990). “Metodología de encuesta por muestreo”. En J.ARNAU, M. T. ANGUERA y J. GÓMEZ (eds.), Metodología de la investi-gación en ciencias del comportamiento (pp. 237-310). Universidad de Murcia:Murcia.

HAGENAARS, J. (1990). Categorical longitudinal data. Sage: Beverly Hills, CA.

KERLINGER, F. N. (1981). Enfoque conceptual de la investigación del comporta-miento. Interamericana: México.

LOSADA, J. L. (1993). “Instrumentos de la observación”. En M. T.ANGUERA (ed.), Metodología observacional en la investigación psicológica, Vol.II: Fundamentación (2). P. P. U.: Barcelona

MARTIN, P. y P. BATESON (1991). La medición del comportamiento. Alianza:Madrid.

MARTÍNEZ ARIAS, M. R. (1983). “Métodos de investigación en psicolo-gía evolutiva”. En A. MARCHESI, M. CARRETERO y J. PALACIOS(eds.), Psicología evolutiva. 1. Teoría y métodos (pp. 354-368). Alianza: Madrid.

— (1986). “Métodos de investigación en la psicología ambiental”. En F.JIMÉNEZ BURILLO y J. I. ARAGONÉS (comp.). Introducción a la psico-logía ambiental (pp. 331-366). Alianza Editorial: Madrid.

MAYOR, J. y J. PÉREZ (1989). “¿Psicología o psicologías? Un problema deidentidad”. En J. ARNAU y H. CARPINTERO (coords.). Tratado de psicología


general I. Historia, teoría y método. (J. MAYOR y J. L. PINILLOS, dirs.) (pp.3-69). Alhambra Universidad: Madrid.

MORENO, R. (1984). “Métodos y técnicas de investigación: diferenciacio-nes terminológicas”. Apuntes de Psicología, 6, 9-11.

— (1988a). “Sobre el estatus de la metodología como disciplina científica”.Revista de Psicología General y Aplicada, 42 (2), 103-108.

PASCUAL, J. (1991). “Sentido de la experimentación”. En J. PASCUAL, M.T. ANGUERA, G. VALLEJO y F. SALVADOR (ed.), Psicología experimental(pp. 5-20). NAU: Valencia.

PEREDA, S. (1987). Psicología experimental I. Metodología. Pirámide: Madrid.

QUERA, V. (1991). “Muestreo y registro observacional”. En M. T.ANGUERA (ed.), Metodología observacional en la investigación psicológica, Vol.I: Fundamentación (1) (pp. 241-329). P. P. U.: Barcelona.

RIBA, C. (1991). “El método observacional. Decisiones básicas y objetivos”.En M. T. ANGUERA (ed.), Metodología observacional en la investigación psico-lógica, Vol. I: Fundamentación (1) (pp. 29-114). P. P. U.: Barcelona.

SALVADOR, F. (1991). “Técnicas de control en diseños experimentales”.En J. PASCUAL, M. T. ANGUERA, G. VALLEJO y F. SALVADOR.Psicología experimental (pp. 21-40). NAU: Valencia.

SARRIA, E. y A. MACIA (1990a). “Metodología observacional y psicologíaevolutiva (I). Concepto, aplicación y planificación del estudio”. En J. A.GARCÍA MADRUGA y P. LACASA (dir.). Psicología evolutiva, Vol. I (pp.213-239). UNED: Madrid.

— (1990b). “Metodología observacional y psicología evolutiva (II). Recogiday análisis de datos”. En J. A. GARCÍA MADRUGA y P. LACASA (dir.).Psicología evolutiva,Vol. I (pp. 241-271). UNED: Madrid.

STOUFFER, S. A. (1950). “Some observations on study design”. AmericanJournal of Sociology , 55, 355-361.



ã International Journal of Clinical and Health Psychology ISSN 1697-2600 2007, Vol. 7, No. 3, pp. 847-862

A guide for naming research studies in Psychology 1

Ignacio Montero2 y Orfelio G. León (Universidad Autónoma de Madrid, España)

(Recibido 29 de junio 2007 / Received June 29, 2007) (Aceptado 20 de julio 2007 / Accepted July 20, 2007)

RESUMEN. En este trabajo se revisa y amplía el sistema de clasificación de las metodologías de investigación en Psicología previamente publicado por los autores. Se establecen pautas para guiar su utilización y se presentan algunas reflexiones sobre su utilidad. El sistema está basado en la lógica del plan de investigación. En un primer nivel, se compone de tres grandes grupos: a) estudios teóricos, b) estudios empíricos cuantitativos y c) estudios empíricos cualitativos. El primer grupo se descompone en estudios clásicos de revisión y estudios meta-analíticos. El segundo grupo se desglosa en siete clases: estudios descriptivos mediante observación, estudios descriptivos de poblaciones mediante encuestas, experimentos, cuasi experimentos, estudios ex post facto, experimentos de caso único y estudios instrumentales. El tercer grupo queda desglosado en etnografía, estudio de casos e investigación-acción. Se presentan las características más importantes de cada clase de estudio y, dentro de ellas, las claves que permiten identificar cada una de sus posibles variantes. Siempre se ilustran con investigaciones publicadas. El sistema de clasificación aquí propuesto se utilizará como modelo para los informes de investigación que se envíen a esta revista. PALABRAS CLAVE. Clasificación de metodologías. Métodos de investigación en Psicología. Estudio teórico. ABSTRACT. In this work, the classification system for research methods in Psychology previously published by the authors is amplified and reviewed. We establish some cues for guiding its use and make some considerations on its utility. Based on classification of the research plan, in a first level the system is composed by three main groups: a) theoretical studies, b) empirical quantitative studies, and c) empirical qualitative studies. Within the first group two types are included, classical reviews and meta-analysis. Within the second, there are seven different types: observational descriptive studies, survey descriptive studies, experiments, quasi-experiments, ex post facto studies, single case experimental studies, and instrumental studies. The third group includes ethnography, case studies and action research. We present the main characteristics for each type and describe some keys which permit to

1 Agradecemos a los editores de la revista, nuevamente, su invitación para revisar nuestro anterior trabajo. 2 Correspondencia: Facultad de Psicología. Universidad Autónoma de Madrid. Cantoblanco. 28049 Madrid (España). E-mail: [email protected]

MONTERO y LEON. Nombrar los estudios de Psicología

Int J Clin Health Psychol, Vol. 7, No. 3

848

identify their subtypes. All of them are illustrated with actual publications. The classification system we propose here will be used as model for research reports in order to be published in this journal.

KEYWORDS. Methodologies classification. Research methods in Psychology. Theoretical study. RESUMO. Neste trabalho revê-se e amplia-se o sistema de classificação das metodologias de investigação em Psicologia previamente publicado pelos autores. Estabelecem-se pistas para orientar a sua utilização e apresentam-se algumas reflexões sobre a sua utilidade. O sistema está baseado na lógica do plano de investigação. Num primeiro nível, compõe-se em três grandes grupos: a) estudos teóricos, b) estudos empíricos quantitativos e c) estudos empíricos qualitativos. No primeiro grupo incluem-se dois tipos, estudos clássicos de revisão e estudos meta-analíticos. No segundo grupo incluem-se sete tipos diferentes: estudos descritivos mediante observação, estudos descritivos de populações mediante inquéritos, experimentais, quase experimentais, estudos “ex post facto”, experiências de caso único e estudos instrumentais. O terceiro grupo inclui a etnografia, estudo de casos e investigação-acção. Apresentam-se as características mais importantes de cada classe de estudo e, dentro delas, as chaves que permitem identificar cada uma de suas possíveis variantes. Todas são ilustradas com investigações publicadas. O sistema de classificação aqui proposto será utilizado como modelo para os relatórios de investigação que venham a ser enviados a esta revista. PALAVRAS CHAVE. Classificação de metodologias. Métodos de investigação em Psicologia. Estudo teórico.

Introducción Tras varios años de uso de nuestra propuesta de clasificación de las metodologías de

investigación en Psicología (Montero y León, 2002, 2005), los editores de esta revista nuevamente nos requieren para que la revisemos mediante un nuevo trabajo. En este nuevo artículo presentamos alguna modificación en el sistema de clasificación siguiendo las que hemos introducido en la última edición de nuestro manual sobre metodología de investigación (León y Montero, 2008). En esta nueva versión traemos al principio la división entre estudios cualitativos y estudios clásicos o cuantitativos. También aumentamos el nivel de detalle con respecto a la versión anterior incluyendo, además, las aclaraciones oportunas entre las categorías con fronteras más difíciles. Eso nos ha llevado a incluir veintinueve nuevas referencias de investigaciones publicadas en inglés y en castellano.

Consideramos que es importante recordar algunas de las reflexiones que incluíamos en la última versión de este sistema de clasificación (Montero y León, 2005). La primera hacía referencia a que, a pesar de que autores clásicos del campo de la epistemología han estudiado la importancia de las clasificaciones en la formación del conocimiento científico (Hempel, 1965), nuestra idea sobre las potencialidades de elaborar un conjunto de categorías como éste está más ligado a la utilidad de los códigos arbitrarios a la hora de favorecer la replicabilidad en el trabajo de clasificación (de conductas, de producciones verbales, de artefactos culturales, de documentos, etc.). Y por lo tanto, este conjunto, como cualquier otro, está permanentemente abierto a aclaraciones, desgloses,



849

nuevos agrupamientos, etc. Son bienvenidos los comentarios al respecto (y se agradecen los hasta ahora recibidos de parte de colegas, investigadores noveles y estudiantes aventajados).

La segunda reflexión hacía referencia a que la mayor parte de las consideraciones que hacemos para establecer criterios de inclusión son relativas al nivel de análisis metodológico que tiene que ver con el plan de investigación. Ese sigue siendo el caso, aunque cabe añadir dos matices: a) el plano del análisis epistemológico pasa a ser clave en el primer nivel de desglose de los tres grupos de estudios en los que ahora se organiza el sistema y b) dada la flexibilidad de los diseños de tipo cualitativo, en el informe de este tipo de estudios es mayor la importancia que toma todo lo relativo a la justificación de las técnicas de recogida y análisis de los datos (véase AERA, 2006).

Finalmente, queremos volver a insistir en la relevancia de ser cuidadosos en el informe acerca de cómo se describen las condiciones en las que se hacen los procesos tanto de selección de muestras como de formación de grupos. El adjetivo “aleatorio” es insuficiente y, no pocas veces, puede inducir a confusión.

A este recordatorio sobre nuestras tres reflexiones generales incluidas en la versión anterior cabría añadir un nuevo comentario. Es relativo a nuestro silencio sobre la categoría emergente de clasificación de las metodologías conocida como métodos mixtos (mixed methods; véase, por ejemplo, Tashakkori y Teddlie, 2003). Los que defienden este tipo de denominación lo hacen como un modo de romper la dicotomía entre metodología cuantitativa y cualitativa. Sin entrar a discutir el fondo del asunto, lo que queremos precisar es que si no hemos recogido esta categoría en el primer nivel de nuestro sistema ha sido porque, en general, cuando se habla de mezclar metodologías se está aludiendo a la mezcla de planes con técnicas de recogida y análisis de los datos. Pero es francamente difícil encontrar un estudio que –aun bajo la etiqueta de método mixto- incluya un diseño que mezcle planes de investigación provenientes de las dos tradiciones. Por tanto, en el caso de que algún autor se adscribiera a este paraguas conceptual de la mezcla podría nombrar sus planes de investigación –que serían varios, muy probablemente- usando nuestro sistema. Veamos ahora las definiciones de los diferentes tipos de estudio, agrupadas en tres grandes grupos, algunos de los cuales se desglosan hasta en tres niveles de subclases.

Estudio teórico Se incluirá en esta categoría todo trabajo en el que no se aporten datos empíricos

originales de los autores, ni se presenten nuevos análisis de datos ya recogidos o publicados (en este caso, los estudios se clasificarán en función de los criterios de inclusión del resto de categorías de esta guía). Es decir, se considera estudio teórico todo aquél que presenta avances teóricos, estudios de revisión, actualización, comparación y análisis crítico de teorías o modelos en un determinado campo. Clásico

En esta categoría se incluyen los estudios que gestionan la revisión de ideas sin utilizar estadísticos para llevar a cabo la fundamentación de sus tesis. Vg.: Corraliza (2001), Pérez (2001), Roth y Lee (2007) o Virués y Haynes (2005). Meta-análisis Los estudios de revisión que utilizan diferentes estimadores del tamaño del efecto para estudiar la evidencia acumulada sobre un determinado problema de investigación reciben el nombre de meta-análisis. Vg.: Springer, Stanne y Donovan (1999) o Vargas,



850

Gambara y Botella (2006).

Estudio empírico con metodología cuantitativa En este conjunto de categorías se incluyen todos aquellos estudios que presentan datos empíricos originales producidos por los autores y enmarcados dentro de la lógica epistemológica de tradición objetivista. Estudio descriptivo mediante un código arbitrario de observación

Componen esta categoría los estudios que utilizan observación sistemática, mediante un código arbitrario construido previamente y tienen un objetivo que, a priori, es descriptivo, sin que en su planteamiento se incluyan hipótesis propiamente dichas. En el caso contrario, sería clasificable como estudio ex post facto.

- Natural. La investigación se lleva a cabo en el contexto habitual en el que se produce el fenómeno y el investigador no interviene en lo que se observa. Vg.: Berk, (1986) o Piñar, Caro y Coscollá (2001).

- Estructurada. La investigación se lleva a cabo en el contexto habitual en el que se produce el fenómeno, pero el investigador introduce modificaciones para maximizar la probabilidad de aparición de dicho fenómeno. Vg.: González y Palacios (1990) o Winsler, Díaz, McCarthy, Atencio y Chabay (1999).

Estudio descriptivo de poblaciones mediante encuestas con muestras probabilísticas

Se incluirán todos los trabajos que han utilizado encuestas con el objetivo de describir poblaciones sin que –como en el caso anterior- en su planteamiento se incluyan hipótesis propiamente dichas. También, en caso contrario, sería clasificable como estudio ex post facto y se haría mención a la encuesta como herramienta para la obtención de evidencia empírica.

- Transversal. La descripción se hace en un único momento temporal. Vg.: Nuevo, Montorio, Márquez, Izal y Losada (2004) o Pereira y Smith (2003).

- Longitudinal. La descripción de la población se hace mediante comparaciones en diferentes momentos temporales, bien con distintas muestras representativas de participantes (muestras independientes sucesivas), bien con el mismo grupo de participantes (panel). Vg.: Curry y Thomas (1999) u Oficina del Defensor del Pueblo (2007).

Experimentos

Para catalogar una investigación como experimental es necesario que al menos una de las variables independientes estudiadas haya sido manipulada explícitamente por el investigador.

- Experimentos con grupos distintos (inter sujeto). Para probar el efecto de cada nivel de la variable independiente se asigna al azar, y uno a uno, a los participantes a cada uno de los niveles; de esta forma las variables extrañas quedan equilibradas en los distintos grupos. La eficacia máxima de este procedimiento de control se alcanza cuando los grupos formados son grandes. Se recomienda que se especifique cómo se ha materializado la adscripción. La mera utilización de la palabra “aleatorio” no garantiza el proceso.

o Diseño con una variable independiente, grupos aleatorios. Plan de investigación en el que se ha manipulado una única variable independiente formando tantos grupos al azar (inter sujeto) como niveles tenga la variable.



851

Vg.: Díaz y Vallejo (1987) o Tifner, Zanin, y De Bórtoli (2003). o Diseño con una variable independiente, grupos aleatorios y una variable

bloqueada. Experimentos inter sujeto en los que, además, se ha controlado una variable extraña mediante la formación de bloques (grupos de participantes con valores semejantes en una variable extraña). Conviene analizar estadísticamente e informar del efecto de la variable bloqueada. Vg.: Flórez, Alarcón y Rodríguez (2001).

o Diseño con una variable independiente, grupos ya formados. Experimentos con varios grupos en los cuales, los participantes no han sido asignados de forma individual a las condiciones, sino que, al no poderse desligar de su grupo, se adscribieron –al azar- completos a las condiciones experimentales. Vg.: Sáenz de Castro y León (1998).

- Experimentos con el mismo grupo (intrasujeto). Cada uno de los participantes ha recibido todos los niveles de la variable independiente en todos los órdenes (completo) o solo en un orden (incompleto). La eficacia de este diseño depende de haber controlado el efecto de la práctica acumulado por la repetición de tareas, por lo que se debe indicar la forma utilizada, junto a la denominación del diseño.

o Diseño con una variable independiente, intrasujeto, con ordenación aleatoria simple (completo). En este plan experimental, la naturaleza de la variable independiente ha permitido muchas repeticiones de cada nivel, por lo que la presentación final de los niveles y sus repeticiones se ha hecho de forma aleatoria simple. Vg.: Craik y Tulving (1975).

o Diseño con una variable independiente, intrasujeto, con orden aleatorio por bloques (completo). El tiempo de ejecución de cada presentación de los niveles de la variable independiente ha permitido hacer un número moderado de repeticiones. Para asegurarse la compensación del efecto de la práctica, la ordenación al azar de los niveles se ha hecho por bloques en los que en cada uno de ellos aparecen todos los niveles. Cada participante ha pasado por el total de repeticiones (completo). Vg.: Sackeim, Gur y Saucy (1978).

o Diseño con una variable independiente, intrasujeto, con orden reequilibrado AB, BA (completo o incompleto). Las tareas correspondientes a cada uno de los dos niveles (A, B) de la variable independiente necesitan un tiempo de ejecución que no permite hacer repeticiones. La mitad de los participantes (al azar) ha realizado el experimento en la secuencia AB y la otra mitad en la forma BA (incompleto). Si el investigador ha usado el diseño completo, ABBA, deberá justificar que los efectos de la práctica sobre la variable dependiente son lineales. Vg.: Rasinski (1990).

o Diseño con una variable independiente, intrasujeto, con orden en cuadrado latino (incompleto). La variable independiente, con tres o más niveles, tiene un tiempo de presentación que no permite repeticiones. Los participantes se han dividido en grupos al azar; cada grupo se ha asignado a cada una de las permutaciones de órdenes de los niveles elegidos para configurar el cuadrado latino. Vg.: Erber (1991).

- Experimentos factoriales. Experimentos con más de una variable independiente, en los que los niveles de las variables se presentan combinados entre sí. Pudiendo ser, por ejemplo, factoriales completos, anidados, con reducción de grupos, etc., lo cual se habrá de anotar en el nombre del diseño. Además del número de variables



852

independientes y sus niveles, se indicará la forma de estudiar cada variable: inter o intra sujeto. Se señalarán, asimismo, las variables que no hayan sido manipuladas, en el caso de que el diseño incluya alguna. Vg.: Diges, Rubio y Rodríguez (1992), Montero y De Dios (2006) u Olivares, Rosa y Olivares (2006).

Cuasi experimentos Dentro de esta categoría y la de estudios ex post facto se han incluido todos aquellos estudios que, aún teniendo el objetivo de contrastar una hipótesis de relación causal, tienen limitaciones –más o menos serias- para conseguirlo con éxito. Dentro de este primer grupo se incluyen los diseños con intervención en los que se hacen aplicaciones en situaciones naturales, en las cuáles es imposible asignar al azar a los participantes o controlar el orden de aplicación de los niveles de la variable independiente. Dentro de los diseños con intervención se pueden dar las variantes que se detallan a continuación.

- Pre-post. Se toma una medida antes de la intervención y otra después. Dentro de esta categoría se han podido utilizar varios diseños.

o Pre-post, un grupo. El tratamiento se ha aplicado a un único grupo. Se aconseja que el investigador argumente contra las amenazas de este diseño tan débil. Vg.: García, Rosa, Montero y ETIEDEM (1990) o Riveros, Cortázar, Alcázar y Sánchez (2005).

o Pre-post, dos grupos, uno de cuasi-control. Además del grupo al que se ha aplicado el tratamiento, se ha medido en la variable dependiente, en los dos mismos momentos, a otro grupo de participantes similar, no tratado y no formado al azar. Por no tener las garantías de los grupos control formados al azar es por lo que se denomina “cuasi control”. Vg.: DeCharms (1976) o Labrador, Fernández y Rincón (2006).

o Pre-post, dos grupos, uno de una cohorte anterior. En este diseño se ha mejorado el control de variables al utilizar como cuasi control un grupo de una cohorte anterior. El investigador deberá señalar cuáles son las variables institucionales que permiten argumentar la equivalencia de los grupos. Vg.: Minton (1975).

o Pre-post, un grupo, con cuasi control en una segunda variable dependiente. Al no ser posible utilizar un grupo de cuasi control, el investigador ha utilizado otra medida dependiente para mostrar que la intervención ha sido eficaz. Para que la segunda variable sirva de comparación es necesario justificar que no está conectada con la dependiente principal. Vg.: Broadbent y Little (1960).

- Solo post. Estos planes corresponden a situaciones en las que únicamente se pueden tomar medidas tras la intervención, la cual ha podido hacer el propio investigador o no. Dentro de esta categoría figuran los siguientes diseños.

o Solo post, dos grupos, uno de cuasi control. El investigador ha utilizado el más simple de los esquemas: un grupo que fue tratado y después medido se compara con otro cuasi control que no fue tratado. Dada la gran cantidad de amenazas de esta estrategia, se deberá argumentar, fundamentalmente, sobre la equivalencia de los grupos. Vg.: Feldman y McKinlay (1994).

o Solo post, dos grupos, uno de una cohorte anterior. Investigación cuasi experimental solo post, con dos grupos, donde el de cuasi control se mejora al provenir de una cohorte anterior. Vg.: Minton (1975).

o Solo post, grupos duplicados, con cuasi control simultáneo. El plan solo



853

post simple se ha mejorado al duplicar tanto el grupo experimental como el cuasi control. El investigador deberá mostrar la semejanza de resultados entre los grupos experimentales frente a la diferencia respecto al conjunto de los cuasi control. Vg.: Ball y Bogatz (1970).

o Solo post, grupos duplicados, con cuasi control en cohortes sucesivas. Diseño solo post en el cual se ha buscado incrementar la validez, además de con la duplicación de grupos, con el control de variables institucionales; por eso, el grupo cuasi control (dividido) se ha tomado en una cohorte del mismo centro. Vg.: Ball y Bogatz (1970).

o Solo post, con dos o más tratamientos. En este plan, el investigador ha trabajado con una variable independiente con dos o más modalidades; en consecuencia se tiene información sobre la variable dependiente en grupos que han sido sometidos a diferentes modalidades de tratamiento. Vg.: Seaver (1973).

- Serie temporal interrumpida. La naturaleza de la variable dependiente ha permitido tomar repetidas puntuaciones antes y después de la intervención. Dentro de esta categoría se han podido usar diferentes diseños.

o Serie temporal interrumpida, un grupo. A un único conjunto de participantes se le aplica un tratamiento, pero se toman varias medidas de la variable dependiente a lo largo de un periodo previo y a lo largo de un periodo posterior. Vg.: Ross y White (1987).

o Serie temporal interrumpida, con dos grupos, uno de cuasi control. Igual que en el caso anterior, pero con el añadido de que al mismo tiempo se toman las mismas medidas en otro grupo de comparación que no ha sido formado al azar. Vg.: McSweeney (1978).

o Serie temporal interrumpida, un grupo, con cuasi control en una segunda variable dependiente. En este caso, el grupo de comparación no está constituido por otras personas sino por las medidas en otra variable dependiente no sometida a tratamiento. Vg.: Ross, Campbell y Glass, (1970).

o Discontinuidad en la regresión. La intervención se ha producido a partir de un valor pre en la muestra y se han estudiado los valores post en el entorno de ese punto. Vg.: Seaver y Quarton (1976).

Estudios ex post facto

En este segundo grupo se incluyen aquellos estudios en los que las limitaciones para el contraste de las relaciones causales vienen dadas por la imposibilidad de manipular la variable independiente. En otros sistemas de clasificación se usa la etiqueta de correlacionales para hacer referencia a algunos de los que se presentan. Aquí se prefiere no utilizarla por que hace mención a un índice estadístico y porque es imprecisa con respecto a algunos elementos del plan de investigación (por ejemplo, la distinción entre estudio prospectivo y retrospectivo de grupo único). Dentro de esta categoría se han podido seguir los siguientes planes de investigación.

- Retrospectivos. Se comienza estudiando la variable dependiente y después se prueban posibles variables independientes. Dentro de esta categoría se han podido usar algunas variantes.

o Retrospectivo, un grupo, simple. Esta categoría implica que el investigador ha elegido un grupo (clave) de participantes por poseer todos una



854

“característica” (síndrome clínico, historia personal, etc.) cuyas posibles causas se quieren estudiar. Vg.: Fernández (1994).

o Retrospectivo, dos grupos, uno de cuasi control. En este caso se ha añadido un grupo de participantes que poseen los mismos valores que el grupo clave en un conjunto de variables que se quieren controlar, pero que no poseen esa “característica” cuya causa se estudia. Vg.: Shafii, Carrigan, Whillinghil y Derrick, (1985).

o Retrospectivo, un grupo, múltiples medidas. Esta última categoría implica que el investigador ha tenido la posibilidad de incluir en su muestra participantes que –además de determinados valores en la variable dependiente- poseen la mayor heterogeneidad posible en todas las variables potencialmente independientes. Vg.: García, Fernández-Ballesteros, Montero y Heiby (1995) o Gómez, Luengo, Romero, Villar y Sobral (2006).

o Estudios historiográficos bibliométricos. Estudios que ponen a prueba relaciones entre variables en una situación ya pasada (ex post facto), pero en los que las unidades de análisis no son personas sino objetos (habitualmente documentos). Vg.: Callejón (2003), Guerra (2003) o Montero y León (2001).

- Prospectivos. Se comienza estudiando una variable independiente y después se mide la dependiente. Hay que tener en cuenta que la simple ordenación temporal del registro de las variables independiente y dependiente no permite considerar un diseño como prospectivo. El lapso temporal entre variables independiente y dependiente debe permitir que las primeras actúen sobre la segunda. Dentro de esta categoría se han podido usar distintos diseños.

o Prospectivo, una variable independiente, simple. Se ha estudiado el efecto de una única variable independiente que no se manipula sino que ha actuado de forma natural. El investigador se ha limitado a seleccionar participantes por poseer un determinado valor en la misma. Vg.: Fernández-Montalvo et al. (2004) o López y Gil (2001).

o Prospectivo, con más de una variable independiente, factorial. Se ha estudiado el efecto de una variable independiente, que se presenta combinada con los niveles de otra/s variable/s independiente/s, sobre una dependiente. Ninguna de las variables independientes ha sido manipulada, sino que se han elegido grupos de participantes que poseían combinaciones de valores en ellas. Vg.: Baile, Guillén y Garrido (2002) o Matud, García y Matud (2002).

o Prospectivo, un grupo, múltiples medidas. Se ha estudiado el efecto de un conjunto de variables independientes que fueron medidas en una única muestra, lo más grande y representativa posible, antes de que aparecieran sus valores en la variable dependiente. Vg.: Besteiro et al. (2004) o Borrayo, Guarnaccia y Mahoney (2001).

o Prospectivo, con más de un eslabón causal. Se ha estudiado el efecto de un conjunto de variables independientes en, al menos, dos eslabones causales, de tal modo que existen variables que son a la vez independientes con respecto a la dependiente y dependientes con respecto a las que aparecen en un eslabón causal anterior. Vg.: Covington y Omelich (1979) o Montero y Alonso (1992a).

- Evolutivos. Diseños en los que la variable independiente es el paso del tiempo,



855

variable que no se puede manipular. Dentro de esta categoría se han podido utilizar diferentes diseños.

o Evolutivo, transversal. Se han comparado grupos que tienen diferentes valores en la variable edad en un único momento temporal. Vg.: Flavel, Beach y Chinsky (1966).

o Evolutivo, longitudinal. Se ha comparado al mismo grupo de participantes en una determinada variable dependiente según pasa el tiempo. Vg.: Baghdadli et al. (2007) o Shum, Conde y Díaz (1992).

o Evolutivo, secuencial. Se estudia el efecto de la variable edad combinando un diseño longitudinal con la comparación entre, al menos, dos cohortes distintas. Vg.: Schaie y Herzog (1983).

Experimentos de caso único

En esta categoría se incluirán todos los estudios experimentales en los que un solo individuo es su propio control. Se han recogido ocho variantes.

- Diseño sin retirada, AB. Diseño en el que no se puede retirar el tratamiento. Vg.: Arco, López, Heilborn y Fernández (2005), Contreras y Juárez (2003) o Montorio, Fernández de Trocóniz y López, (1998).

- Diseño de retirada, ABAB. Diseño básico de caso único con retirada del tratamiento y finalización con intervención. Vg.: Martin, Goodrich, Beutler y Firestone (2001) o Heard y Watson (1999).

- Diseño con dos tratamientos, ABACA. Con este plan se ha comparado la eficacia de dos tratamientos distintos sobre el mismo paciente. En el esquema general B y C representan a los tratamientos. Vg.: Wincze, Leitenberg y Agras (1972).

- Diseño con tres niveles de tratamiento, ABAB’AB’’. Con esta estrategia se han comparado las diferencias en eficacia entre varios niveles de intensidad creciente de una intervención. Vg.: Phillips (1968).

- Diseño para contrastar la interacción, A-B-A-C-A-B-BC-C. Con este diseño se ha estudiado la interacción de dos tratamientos (B y C en este caso). Cualquier otra variante de este plan debe incluir intervenciones y retiradas de cada terapia, más la presentación conjunta de ambas. Vg.: Bernard, Kratochwill y Keefauver (1983).

- Línea base múltiple, varias conductas, el mismo paciente. Con esta estrategia, varias conductas comenzaron a ser registradas de forma simultánea; a continuación, de forma escalonada en el tiempo, se intervinieron cada una de ellas. Las comparaciones se realizaron entre las fases tratadas con las que permanecían en línea base. Vg.: Hall, Cristler, Cranston y Tucker (1970).

- Línea base múltiple, varios pacientes, la misma intervención. En este diseño el escalonamiento temporal se ha aplicado a los pacientes, los cuales recibieron la intervención de forma secuencial, mientras los otros fueron registrados en línea base. Vg.: Fernández et al. (1997).

- Línea base múltiple, varias situaciones, la misma intervención. En este diseño el escalonamiento temporal se ha aplicado a diferentes contextos. El propósito ha sido observar el cambio en diferentes ambientes, cuando la conducta recibe el refuerzo adecuado. Se puede estudiar tanto a un paciente como a un grupo. Vg.: Hall et al. (1970).

Estudios instrumentales

Se han considerado como pertenecientes a esta categoría todos los estudios



856

encaminados al desarrollo de pruebas y aparatos, incluyendo tanto el diseño (o adaptación) como el estudio de las propiedades psicométricas de los mismos. Vg.: Gibbons, Flores y Mónico (2004), Montero y Alonso (1992b) o Servera y Cardo (2006).

Estudios empíricos cualitativos En este conjunto de categorías se incluyen todos aquellos estudios que presentan

datos empíricos originales producidos por los autores y enmarcados dentro de la lógica epistemológica de tradición subjetivista, ya sea fenomenológica, interpretativa o crítica. En general, todos aquellos estudios empíricos que parten de la perspectiva de los participantes. Etnografía

Estudio de un grupo en el que se integra el investigador y recoge la evidencia mediante un conjunto de técnicas no estructuradas en las que predomina la observación participante. Vg.: Burgois (2003). Estudio de casos

Estudios descriptivos no estructurados que se refieren a una única unidad muestral, bien sea una persona, un grupo, una organización, etc.

- Estudio de caso, intrínseco. El investigador se encuentra con él, no lo elige. Vg.: Sacks (1987, pp. 138-140).

- Estudio de caso, instrumental. El investigador lo elige por ser prototípico. Vg.: Shaw (1931) o Stake (1998, cap. 10).

- Estudio de caso, múltiple. El investigador elige varios casos prototípicos que ilustran variantes del fenómeno bajo estudio. Vg.: Anyon (1981).

Investigación-acción

Estudio de un contexto social donde mediante un proceso de pasos sucesivos en espiral se investiga al mismo tiempo que se interviene. Vg.: Withmore y Mckee (2001).

Comentarios finales a modo de guía Como ya se ha señalado, el objetivo de esta guía es que los investigadores

dispongan de un sistema conceptual que les sirva para organizar su trabajo en dos sentidos. En primer lugar a la hora de diseñarlo, ¿cómo se llama lo que quiero/puedo hacer para responder a mi pregunta de investigación? En segundo lugar a la hora de publicarlo ¿para qué me sirve saberlo?

Para responder a la primera pregunta conviene seguir un proceso de reflexión encadenado. Una vez que está claro que se va a plantear un estudio empírico, el investigador debe reflexionar si pretende enfocarlo para captar la perspectiva de los participantes o si pretende elaborar y/o contrastar alguna teoría propia sobre su comportamiento –entendido en una acepción lo más amplia posible. En el primer caso deberá plantearse cuál de los planes de investigación cualitativa le resulta más útil para sus objetivos. En el segundo se llevará a cabo un estudio de tipo cuantitativo. Si solo quiere conocer con precisión las características de un fenómeno (si solo tiene variable dependiente, podríamos decir), se decantará por un estudio descriptivo. En caso de que tenga una hipótesis de causa-efecto (aunque sea en el sentido más débil de la expresión) el investigador tendrá que preguntarse sobre la posibilidad de manipulación de la variable que



857

postula como causa. Si no es manipulable, estará abocado a hacer un estudio de tipo ex post facto. En caso de que pueda manipular la variable independiente, deberá plantearse si puede establecer los controles mínimos. Estos controles mínimos son la formación aleatoria de los grupos, en caso de diseños inter sujetos, y la posibilidad de invertir el orden de aplicación de los niveles de la variable independiente, en el caso de los intra sujetos. Si no puede establecer dichos controles, el estudio de la relación causal que implica esa variable será un cuasi experimento. En caso de poder hacer asignación aleatoria o inversión de tratamientos, estará ante un experimento. En todos los casos, los detalles sobre el modo de llevar a cabo el estudio le permitirán precisar el tipo de subclase de estudio dentro de cada uno de estos grandes grupos.

¿Para qué le servirá al investigador saber cómo se llama su estudio? Podríamos contestar con cierto sentido del humor que para publicar en esta revista. Pero la respuesta seria es que le ayuda a conocer las fuentes de potenciales variables extrañas más comúnmente asociadas a su tipo de estudio y, por tanto, a tratar de controlarlas durante o después de realizar el estudio. Todo ello le permitirá persuadir al lector de su informe de que, en su caso, o bien no aparecieron, o bien no lo hicieron con la suficiente fuerza, quedando pues garantizada la calidad de la conclusión acerca de los objetivos de la investigación. En cualquier caso hay que añadir que, como bien señalan Shadish, Cook y Campbell (2002), esto no quiere decir que un tipo de amenaza a la validez sea exclusiva de un tipo de estudio o, dicho al revés, que la posibilidad de llevar a cabo un tipo concreto de estudio elimina totalmente la aparición de determinado tipo de amenaza. En resumen y como ya hemos dicho en diferentes ocasiones, haga el investigador lo que pueda pero sepa el investigador lo que hace.

Referencias AERA (2006). Standards for reporting on empirical social science research in AERA

publications. Educational Researcher, 35, 33-40. Anyon, J. (1981). Social class and school knowledge. Curriculum Inquiry, XI, 3-42. Arco, J.L., López, S., Heilborn, V. y Fernández, F.D. (2005). Terapia breve en estudiantes

universitarios con problemas de rendimiento académico y ansiedad: Eficacia del modelo “La Cartuja”. International Journal of Clinical and Health Psychology, 5, 589-608.

Baghdadli, A., Picot, M-C., Michelon, C., Bodet, J., Pernon, E., Burstezjn, C., Hochmann, J., Lazartigues, A., Pry, R. y Aussilloux, C. (2007). What happens to children with PDD when they grow up? Prospective follow-up of 219 children from preschool age to mid-childhood. Acta Psychiatrica Scandinavica, 115, 403-412.

Baile, J.I., Guillén, F. y Garrido, E. (2002). Insatisfacción corporal en adolescentes medida con el Body Shape Questionnaire (BSQ): efecto del anonimato, el sexo y la edad. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 2, 439-450.

Ball, S. y Bogatz, G.A. (1970). The first year of Sesame Street: An evaluation. Princeton, NJ: Educational Testing Service.

Berk, L.E. (1986). Relationship of elementary school children’s private speech to behavioral accompaniment to task, attention, and task performance. Developmental Psychology, 22, 671-680.



858

Bernard, M.E., Kratochwill, T R. y Keefauver, L W. (1983). The effects of rational-emotive psycotherapy and self-instructional training on chronic hair pulling. Cognitive Therapy and Research, 7, 273-280.

Besteiro, J.L., Lemos, S., Muñiz, J., García-Cueto, E. Inda, M., Paíno, M. y Roces, M. (2004). Validez de constructo de los trastornos de la personalidad del DSM-IV. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 4, 255-269.

Borrayo, E.A., Guarnaccia, C.A. y Mahoney, M.J. (2001). Prediction of breast cancer screening behavior among older women of Mexican descent: Applicability of theoretical models. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 1, 73-90.

Broadbent, D.E. y Little, E.A.J. (1960). Effects of noise reduction in a work situation. Occupational Psychology, 324, 133-140.

Burgois, P. (2003). In search of respect. Selling crack in El Barrio (2nd ed.). New York: Cambridge University Press.

Callejón, A.B. (2003). Análisis bibliométrico del trastorno bipolar (1995-2001). Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 3, 163-176.

Contreras, F. y Juárez, F. (2003). Efecto del incremento en el número de señales de biofeedback-EMG sobre el control muscular en la hemiplejia. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 3, 301-312.

Corraliza, J.A. (2001). El comportamiento humano y los problemas ambientales. Estudios de Psicología, 22, 3-9.

Covington, M.V. y Omelich, C.L. (1979). Are causal attribution causal? A path analysis of the cognitive model of achievement motivation. Journal of Personality and Social Psychology, 37, 1487-1504.

Craik, F.I.M. y Tulving, E. (1975). Depth of processing and the retention of words in episodic memory. Journal of Experimental Psychology (General), 104, 268-294.

Currie, J. y Thomas, D. (1999). Does Head Start help Hispanic children? Journal of Public Economics, 74, 235-262.

DeCharms, R. (1976). Enhancing motivation: Change in the classroom. New York: Irvington.

Díaz, A. y Vallejo, M.A. (1987). Influencia del placebo en el tratamiento de la cefalea. Estudios de Psicología, 31-32, 53-68.

Diges, M., Rubio, M.E. y Rodríguez, M.C. (1992). Eyewitness memory and time of day. En F. Lösel y T. Bliesener (Eds.), Psychology and law (pp. 317-320). Berlín: de Gruyter.

Dunham, P.J. (1988). Research methods in psychology. Nueva York: Harper and Row. Feldman, H.A. y McKinlay, S.M. (1994). Cohort versus cross-sectional design in large field

trials: Precision, sample size, and a unifying model. Statistics in Medicine, 13, 61-78. Fernández, C. (1994). El suicidio consumado en Madrid capital. Unpublished Doctoral

Dissertation. Universidad Complutense de Madrid, Spain Fernández, F., Ayats, N., Jiménez, S., Saldaña, C., Turón, J.V. y Vallejo, J. (1997).

Entrenamiento en habilidades conversacionales en un grupo ambulatorio de pacientes anoréxicas. Un diseño de línea base múltiple. Análisis y Modificación de Conducta, 23, 5-22.

Fernández-Montalvo, J., López, J. J., Landa, N., Illescas, C., Lorea, I. y Zarzuela, A. (2004). Trastornos de personalidad y abandonos terapéuticos en pacientes adictos:



859

resultados en una comunidad terapéutica. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 4, 271-283.

Flavell, J.H., Beach, D.R. y Chinsky, J.M. (1966). Spontaneous verbal rehearsal in memory task as function of age. Child Development, 37, 283-299.

Florez-Alarcón, L. y Rodríguez, G. (2001). Evaluación del impacto de un programa de atención psicológica a mujeres embarazadas con preclamsia. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 1, 259-292.

García, J., Fernández-Ballesteros, R., Montero, I. y Heiby, E.M. (1995). Multiple correlates of unipolar depression: Contributions from the paradigmatic behavioral theory. Psicothema, 7, 41-50.

García, M.C., Rosa, A., Montero, I. y ETIEDEM (1990). Instrucción, aprendizaje e interacción profesor alumno. Un estudio de observación en el aula. Infancia y Aprendizaje, 51-52, 79-98.

Gibbons, P., Flores, H. y Mónico, M. (2004). Assessment of the factor structure and reliability of the 28 item version of the General Health Questionnaire (GHQ-28) in El Salvador. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 4, 389-398.

Gómez, J.A., Luengo, A., Romero, E., Villar, P. y Sobral, J. (2006). Estrategias de afrontamiento en el inicio de la adolescencia y su relación con el consumo de drogas y la conducta problemática. International Journal of Clinical and Health Psychology, 6, 581-597.

González, M.M. y Palacios, J. (1990). La zona de desarrollo próximo como tarea de construcción. Infancia y Aprendizaje, 51-52, 99-122.

Guerra, M.L. (2003). La psicología oncológica en España: un análisis bibliométrico de las publicaciones en español. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 3, 371-380.

Hall, R.V., Cristler, C., Cranston, S.S. y Tucker, B. (1970). Teachers and parents as researchers using multiple-baseline designs. Journal of Applied Behavior Analysis, 3, 247-255.

Heard, K. y Watson, T. S. (1999). Reducing wandering by persons with dementia using differential reinforcement. Journal of Applied Behavior Analysis, 32, 381-384.

Heiman, G.A. (1995). Research methods in Psychology. Boston, MA: Houghton Mifflin. Hempel, C.G. (1965). Fundamentals of taxonomy. En C.G. Hempel (Ed.), Aspects of

scientific explanation and other essays in the philosophy of science (pp. 137-154). Nueva York: Free Press.

Labrador, F.J., Fernández, M.R. y Rincón, P.P. (2006). Eficacia de un programa de intervención individual y breve para el trastorno por estrés postraumático en mujeres víctimas de violencia doméstica. International Journal of Clinical and Health Psychology, 6, 527-547.

León, O.G. y Montero, I. (2008). Métodos de investigación en Psicología y Educación (4ª ed.). Madrid: McGraw-Hill.

López, F. y Gil, J. (2001). Características del fumador y su relación con el abandono del tabaco en programas de intervención no aversivos. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 1, 333-351.

Martin, B.R., Goodrich, G., Beutler, L.E. y Firestone, L. (2001). Effectiveness of affect-arousal in treatment of depression using “voice technique”: Therapist training and



860

client outcome. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 1, 91-107.

Matud, M.P., García, M. A. y Matud, M.J. (2002). Estrés laboral y salud en el profesorado: un análisis diferencial en función del género y del tipo de enseñanza. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 2, 451-465.

McSweeney, A.J. (1978). Effects of response cost on the behavior of a million persons: Charging for directory assistance in Cincinnati. Journal of Educational Psychology, 67, 198-203.

Minton, J.H. (1975). The impact of Sesame Street on reading readiness of kindergarten children. Sociology of Education, 48, 141-151.

Montero, I. y Alonso, J. (1992a). Achievement motivation in high school. Contrasting theoretical models in the classroom. Learning and Instruction, 2, 43-57.

Montero, I. y Alonso, J. (1992b). El cuestionario MAPE-II. En J. Alonso (Ed.), Motivar en la adolescencia: Teoría, evaluación e intervención (pp. 205-232). Madrid: Servicio de Publicaciones de la Universidad Autónoma.

Montero, I. y De Dios, M.J. (2006). Vygotsky was right. An experimental approach to the study of the relationship between private speech and task performance. Estudios de Psicología, 27, 175-189.

Montero, I. y León, O.G. (2001). Usos y costumbres metodológicos en la Psicología española: un análisis a través de la vida de Psicothema (1990-1999). Psicothema, 13, 671-677.

Montero, I. y León, O.G. (2002). Clasificación y descripción de las metodologías de investigación en Psicología. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 2, 503-508.

Montero, I. y León, O.G. (2005). Sistema de clasificación del método en los informes de investigación en Psicología. International Journal of Clinical and Health Psychology, 5, 115-127.

Montorio, I., Fernández de Trocóniz, M.I. y López, A. (1998). Miedo a las caídas en personas mayores: Un estudio de caso. Psicología Conductual, 6, 597-615.

Nuevo, R., Montorio, I., Márquez, M., Izal, M. y Losada, A. (2004). Análisis del fenómeno de la preocupación en personas mayores. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 4, 337-355.

Oficina del Defensor del Pueblo (2007). Actualización de la investigación sobre violencia escolar. (Trabajo realizado por Del Barrio, C., Espinosa, M. A, Martín, E., Ochaíta, E., Montero, I., Barrios, A., de Dios, M. J., Gutiérrez, H.). Madrid: Publicaciones del Defensor del Pueblo.

Olivares, J., Rosa, A. I. y Olivares, P. (2006). Atención individualizada y tratamiento en grupo de adolescentes con fobia social generalizada. International Journal of Clinical and Health Psychology, 6, 565-580.

Pereira, M.G. y Smith, T.E. (2003). Collaborative family health care: GAT practitioners think? Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 3, 283-299.

Pérez, M. (2001). Afinidades entre las nuevas terapias de conducta y las terapias tradicionales con otras orientaciones. Revista Internacional de Psicología Clínica y de la Salud / International Journal of Clinical and Health Psychology, 1, 15-33.


CONTENIDO 2

Causalidad e inobservancia de la premisa de precedencia temporal en la investigación biomédica

Dr. Luis Carlos Silva Ayçaguer Investigador Titular

Vicerrectoría de Investigación y Posgrado

Instituto Superior de Ciencias Médicas de La Habana

Dra. Alina Benavides Rodríguez Especialista en Bioestadística

Dirección Provincial de Salud

Villa Clara

Resumen

La determinación de relaciones causales en salud es un proceso de gran complejidad que está inmerso,

además, en medio de considerable confusión, dada por su sustrato filosófico y por toda una serie de

malentendidos en relación con algunos conceptos conexos y el manejo operativo de que son objeto. Un

elemento prominente es la premisa de precedencia temporal (PPT), según la cual los diseños orientados

a evaluar relaciones de causalidad deben registrar el orden en que se producen los acontecimientos

atendiendo al hecho de que la presunta causa de cierto efecto ha de precederle en el tiempo. Esta es

una condición metodológicamente imprescindible, solo garantizada por medio de un diseño adecuado.

Los estudios retrospectivos y transversales son los más susceptibles de padecer la inobservancia de

esta premisa, cuya omisión en la producción científica merece más atención de la que se le ha prestado.

En consonancia con ello, se bosqueja el marco teórico y práctico en que se producen los estudios de

causalidad en general, y los problemas inducidos, en particular, por el hecho de que los diseños de

investigación no contemplen esta premisa. Para ello se realiza una discusión sobre aspectos concep-

tuales de la causalidad, con énfasis en el papel de la PPT. Tras una revisión crítica de artículos publi-

cados en revistas científicas cubanas en los cuales podía producirse un manejo inadecuado de la PPT,

se eligieron tres trabajos que se consideraron expresivos del problema para su exposición detallada.

1. Introducción

En 1965, Bradford Hill pronuncia su trascendente y bien conocido discurso ante la Sección de Medicina

Ocupacional de la Royal Society of Medicine en que se discuten 9 pautas de causalidad que deben

considerarse en estudios epidemiológicos. Los criterios expuestos por Hill(1)

aportan bases teóricas para los

exámenes de causalidad en medicina y epidemiología.

El núcleo de su discurso parte de que se ha observado una asociación entre dos fenómenos para la que se ha

descartado un origen exclusivamente debido al azar. Los nueve rasgos fundamentales que este autor

enumera como elementos que incrementan el valor de una asociación en tanto indicio de causalidad son:

intensidad o fuerza de la asociación, consistencia, especificidad, adecuada secuencia temporal, gradiente

biológico, verosimilitud o plausibilidad biológica, coherencia, fundamento experimental y analogía. Los crite-

rios de Hill pueden constituir pautas de utilidad en el estudio de una asociación pero, como él mismo

Silva LC, Benavides A

Pagína 2 de 13

advirtiera, no han de considerarse en su totalidad mandamientos ineludibles de valor universal, ni mucho

menos pueden concebirse -obviamente- como garantías para la causalidad. De todas ellas, nos

concentraremos en la más obvia, la menos discutible, y quizás una de las menos discutidas de todas. Es, a la

vez, fuente de considerable confusión y objeto de frecuente desatención.

Se trata de la pauta o premisa que recuerda que la acción de un agente causal siempre precede al efecto, a la

cual en lo sucesivo denominamos premisa de precedencia temporal (PPT). Para que una modificación en

la condición X pueda considerarse responsable de los cambios que se produzcan en otra condición Y, es

imprescindible que X haya actuado antes de que Y se haya modificado. Como sabemos, toda hipótesis de

causalidad involucra a un efecto y a una presunta causa; este postulado impone que, al constatar

empíricamente que una supuesta causa produce dicho efecto, los acontecimientos han de observarse de

manera que la debida precedencia temporal se haya tenido en cuenta. Es evidente que en este caso no se

trata solamente de una regla cuyo cumplimiento aumente la convicción de que la hipótesis sea cierta; es

mucho más que eso: se trata de una condición metodológicamente imprescindible.

El presente trabajo es de naturaleza teórico-metodológica y se destina a examinar histórica y

conceptualmente este componente del método dentro del proceso investigativo, así como ilustrar sus

implicaciones.

2. ¿Verificación o refutación? Dos enfoques epistemológicos

Desde el punto de vista metodológico, la estrategia teórica predominante para la identificación de cadenas

causales se ha basado en la combinación inducción-verificación, proceso racional para el hallazgo de

explicaciones generales que se inicia con la observación de lo particular, procede a la formulación de hipótesis

generales, y cierra un ciclo cuando las verifica empíricamente.

El enfoque inductivo establece, por una parte, que una teoría puede (y debe) provenir de la observación, y por

otra, que ésta ha de ser verificada a través de la contrastación con la práctica de sus consecuencias. Si hay

varias alternativas de explicación a cierto fenómeno, el inductivismo optará por aquella que haya sido más

veces verificada; y cuantas más confirmaciones empíricas reciba, más proclive estará a considerarla cierta. Si

esa teoría es, además, capaz de hacer predicciones, tendrá más valor científico como tal; y si, finalmente,

tales predicciones se cumplen, se concederá a la teoría un sólido valor explicativo(2)

.

Avanzado el siglo XX, emerge un enfoque alternativo (en cierto sentido, radicalmente opuesto) encabezado

por Karl Popper, quien plantea que la clave para avanzar no se halla en la verificación sino en su antítesis, la

refutación. Según dicho enfoque, la ciencia nunca consigue sus resultados partiendo de la observación de

casos singulares para llegar por esa vía a la formulación de leyes generales: el único procedimiento aceptable

es el hipotético-deductivo. Éste exige formular conjeturas, que parten de la intuición y no de la observación, y

cuya plausibilidad tiene valor marginal. Se concede incluso más interés a la hipótesis que más se aleje de lo

que el conocimiento vigente permite esperar, ya que, si no pudiera refutarse, tal resultado sería mucho más

informativo. El procedimiento para probar la falsedad de tales hipótesis se basaría en la deducción de sus

posibles consecuencias, las cuales se intentaría refutar por vía preferiblemente experimental. Siempre según

este enfoque, las teorías nunca pueden ser corroboradas en sí mismas, sino solo en relación con teorías

alternativas que resulten más claramente refutadas. Cuando una teoría resiste los intentos de derribarla, la

preferencia por esa explicación se incrementa(3)

.

Importa subrayar, sin embargo, que ni defensores ni enemigos de la teoría popperiana objetan el empleo de

los recursos estadísticos convencionales, ni el papel de la práctica como criterio de verdad, ni la necesidad de

Causalidad e inobservancia de la premisa de precedencia temporal...

Página 3 de 13

diseños coherentes para evaluar hipótesis (sea con la perspectiva de confirmarlas o con la de refutarlas).

3. Causalidad y conceptos conexos

La definición de causa en su sentido epidemiológico ha dado lugar a una amplia y a veces contradictoria

producción teórica y práctica(4,5,67)

, con el consiguiente desconcierto de muchas personas, quienes no saben

qué pensar ante tal profusión de conceptos.

Cualquiera que sea la definición formal de esta categoría, la definición funcional -es decir, útil a los efectos

prácticos- de la causa de un efecto dado puede, a nuestro juicio, expresarse del modo siguiente: cualquier factor, condición o característica, cuya supresión elimina la posibilidad de que se produzca el efecto, es una causa del mismo(2)

.

Una noción diferente, pero de máxima interés en este contexto, es la de factor de riesgo, que ocasionalmente

contribuye a la confusión, pues dichos factores aparecen acompañados de las causas y "se parecen" a ellas.

Se trata de factores asociados al efecto que, sin ser imprescindibles para que éste se produzca, pueden favorecer que el agente causal actúe(2)

. Un ejemplo emblemático es el hábito de fumar como favorecedor de

afecciones respiratorias.

En la práctica, independientemente de lo que se considere como factor de riesgo y de lo que se piense sobre

la causalidad, es un hecho que a partir de estos factores se conforman mensajes sanitarios y políticas de

intervención; esto constituye la prueba crucial del contenido causal que implícitamente se confiere al factor de

riesgo, aunque en ciertos ámbitos se apele a su carácter fundamentalmente estadístico y por más que el

concepto de factor de riesgo, tal y como se usa habitualmente en la literatura médica, incluya un espectro de

situaciones que abarcan desde la mera asociación estadística a la causa(4)

. En cualquier caso, la PPT debe

contemplarse ineludiblemente, trátese de un factor de riesgo o de una causa. Tal circunstancia abona la

necesidad de profundizar en el tema.

4. Manejo temporal en los diseños

En el campo de la investigación biomédica se emplean diversos ejes para clasificar los estudios(8,9)

; a los

efectos del presente trabajo, sin embargo, nos detendremos en el que se vertebra en torno a la temporalidad.

En este sentido existen tres posibilidades básicas:

a) Estudios transversales (típicamente de índole descriptiva)

b) Estudios retrospectivos (virtualmente circunscritos a la metodología de casos y controles)

c) Estudios prospectivos (de cohorte, también conocidos como follow up o seguimientos y estudios

experimentales que, por su naturaleza, son necesariamente prospectivos)

Cualquiera de ellos es, en principio, potencialmente útil en el proceso de identificar tanto las causas de ciertos

hechos como los factores de riesgo que se le asocian. El proceso orientado a determinar si cierta relación es

de naturaleza causal transita típicamente por la observación de asociación entre una variable X y otra Y. Una

asociación específica, sin embargo, puede tener diversos orígenes.

Uno de los más importantes es el efecto de sesgos de medición (errores sistemáticos de los instrumentos o de

quienes los aplican), los cuales se pueden evitar o disminuir aplicando procedimientos adecuados, tales como


Pagína 4 de 13

controles de calidad.

Otra explicación posible para la observación de una asociación proviene de los llamados factores de confusión, variables que se relacionan tanto con el supuesto factor causal (exposición) como con el desenlace

(efecto) y cumplen la condición de no ser un estadio intermedio en la secuencia causal entre la exposición y el

efecto(10)

. Su control puede ocasionalmente conseguirse en la fase de diseño a través de la aleatorización

(asignación aleatoria de los sujetos a los tratamientos), o bien restringiendo el estudio mediante recursos como

el pareamiento; también pueden controlarse durante la fase de análisis usando técnicas tales como

postestratificación, regresión logística, tipificación o análisis de covarianza. Si la asociación persiste una vez

aplicados recursos como estos, se puede seguir pensando entonces que el vínculo sea causal.

La tercera posibilidad es que la asociación se haya observado meramente por azar. Para descartarla, el

recurso convencional es la prueba de hipótesis, si la asociación es estadísticamente significativa, entonces la

relación entre X y Y podría ser causal.

Descartadas estas tres explicaciones, solo quedan en principio dos posibilidades: X es causa de Y, o Y es

causa de X. Solo el análisis temporal permite pronunciarse a favor de uno u otro(10)

.

Aunque existen trabajos orientados a llamar la atención sobre la necesidad de tener en cuenta este asunto y a

eludir, por tanto, sus consecuencias(12,13)

se trata de un error que, siendo frecuente, no suele ser enfatizado,

está escasamente ilustrado, y con efectos no suficientemente examinados.

6. Asociación de variables

Existe la tentación natural de calcular asociaciones entre variables en los estudios considerados

"transversales". Ante esta situación suelen comparecer tres puntos de vista:

Esta opción es claramente inconducente y responsable de la mayor cantidad de los errores. Se trata de lo

que hacen muchos investigadores bisoños quienes ni siquiera están avizorados de que hay que tener en

cuenta la temporalidad.

El argumento es que, en un estudio transversal, esa maniobra es ilegítima. Tal "prohibición" suele

fundamentarse así: "siendo el estudio transversal, ¿cómo soslayar un principio como el de la PPT, que dicho

tipo de estudio es intrínsecamente incapaz de garantizar?". En tal caso, naturalmente, queda cancelada la

posibilidad de computar indicadores que miden asociación, tales como riesgos relativos u odds ratios.

En este punto resulta crucial distinguir nítidamente entre dos conceptos que suelen manejarse como si fueran

idénticos, aunque distan de serlo: investigación descriptiva e investigación transversal. Mientras la primera

clasificación alude al propósito del estudio, la segunda concierne al marco metodológico en que se verifica. La

a) Hacer el cálculo en cuestión sin el menor reparo .

b) Negar taxativa y terminantemente el "derecho" a realizar

cruzamientos.


Página 5 de 13

confusión se ha originado en la ambivalencia del adjetivo "transversal", que tiene dos acepciones

radicalmente diferentes: por una parte, sirve para indicar que los datos se toman temporalmente en un único

"corte" indagatorio (por oposición a aquellos en que los datos se van recopilando en la medida que acaecen

los hechos de los que proceden); y por otra, para aludir al hecho de que la información concierne a lo que está

ocurriendo ahora (lo que rige en el momento en que se verifica el interrogatorio o la medición). Si lo que se ha

hecho es estrictamente esto último, la estimación de medidas de asociación nunca tiene sentido claro; cuando

el estudio es "transversal" en el sentido de la primera acepción, sí puede tenerlo.

A título ilustrativo, consideremos las variables insatisfacción laboral y estrés, y contemplemos el planteamiento

de una pregunta tal como si hay asociación entre ambas condiciones. Si para ello lo que se hace es

determinar la situación vigente para ambas cuestiones en una muestra de trabajadores, entonces la

asociación que se mida tendrá un sentido inexorablemente borroso. Obviamente, para algunos individuos las

"malas" condiciones de trabajo pueden contribuir al deterioro de la estabilidad emocional y traducirse en altos

niveles de estrés. Pero también puede ocurrir que algunos sujetos estresados experimenten insatisfacción

laboral -incluso en un entorno de trabajo favorable- como consecuencia exclusiva de sus tensiones. Cada

factor puede ser causa contribuyente o retroalimentadora del otro, de modo que una pregunta neutra sobre la

existencia de asociación suele no conducir a ninguna parte. El acto de investigación podría servir para

examinar, o bien el efecto del primer factor sobre el segundo, o bien el del segundo sobre el primero (e

incluso, ocasionalmente, ambos efectos), pero ello exige un diseño que contemple la observación de los

hechos de manera que quede registrado el orden temporal en que ellos ocurren, de suerte que la PPT pueda

ser debidamente considerada en cada caso.

Cuando el "diseño" no es otra cosa que la selección de una "muestra representativa", entonces o bien no se

dispone de información temporal alguna (y por tanto el análisis no procede), o bien la información necesaria

se deriva del modo en que se formulan las preguntas, en cuyo caso sí pudiera ser adecuado.

Es necesario subrayar que el mero acto de cuantificación de una asociación (sea a través de un riesgo

relativo, un coeficiente de correlación, un odds ratio, etc) entraña, implícita o explícitamente, un afán

explicativo. Está muy extendido el temor a admitir franca y claramente que se quiere "probar que X influye en

Y" o "evaluar el grado en que X es causa de Y".

Aparentemente, esa reticencia probablemente se debe a que la tarea

de evaluar causalidad exige encarar multitud de sesgos, especialmente si el estudio no es experimental. Se

elude así el compromiso que siempre se contrae cuando uno se pronuncia en términos explicativos. En tales

casos se opta por el subterfugio de comunicar que solo se quiere "cuantificar la asociación entre X y Y", como

si la asociación pudiera tener un interés intrínseco, como si tal cuantificación tuviera algún sentido cuando no

se inserta en el contexto de una conjetura causal.

A nadie se le ocurriría investigar, por ejemplo, la asociación entre tiempo de estadía hospitalaria y

color de la vivienda del paciente; es decir, siempre que se mide una asociación es porque hay una sospecha

(c) Admitir que, si bien tales estudios no permiten sacar con-

clusiones causales, consienten al menos la medición de asociaciones como un recurso que se emplea sin más preten siones que complementar o enriquecer la descripción .


Pagína 6 de 13

(como mínimo subconsciente) de que tal medición pudiera brindar una prueba (o al menos, un indicio) de una

relación causal(14).

6. Determinación de la causalidad en epidemiología: premisa de precedencia temporal

Todos sabemos que la presunta causa de cierto efecto, necesariamente, ha de precederlo en el tiempo. Ningún análisis de causalidad tiene un sentido claro cuando el diseño del estudio no ha tenido en cuenta una

regla tan básica como la enunciada.

Tal inadvertencia, es una trampa abierta, especialmente insidiosa en los estudios transversales y

retrospectivos, en los que se debe indagar sobre hechos ocurridos con anterioridad al momento del estudio. La

clave del problema radica en que es imposible en estos casos establecer mediante observación cuál fue el

orden en que ocurrieron los hechos que se registran.

El problema que nos ocupa está directamente vinculado al diseño del estudio, ya que es éste el que debe

conjurarlo. Los estudios prospectivos, en los cuales, como su nombre indica, los hechos se miden en orden

temporalmente ascendente, presentan menos dudas acerca del cumplimiento de la PPT. De hecho, en el

caso particular de los estudios experimentales no existe siquiera esta fuente de conflicto; en los estudios de

cohorte, tal peligro está virtualmente eliminado por el propio diseño, dado que la observación comienza

cuando aún no se han producido los desenlaces que se estudian.

Los estudios transversales y retrospectivos, en los cuales solo puede intentarse la reconstrucción de los

acontecimientos, son altamente vulnerables al no cumplimiento de la PPT. Tanto los estudios transversales

como los de casos y controles, con más frecuencia que la deseada, violentan esta premisa.

Debe consignarse, sin embargo, que el carácter prospectivo de un estudio no garantiza que no se presente

una violación de la PPT. Supongamos, por poner un ejemplo, que se estudian mil trabajadores sanos que

laboran en una fábrica y se quiere determinar la influencia de factores tales como el tabaquismo en la

aparición de infarto de miocardio. Tras un año de observación se registra que entre los 650 no fumadores se

produjeron 6 infartos, mientras que se produjo solo uno entre los 350 fumadores. Si estimamos el riesgo

relativo asociado al tabaquismo, lejos de arrojar un número mayor que 1, se obtiene un 0.3, número que haría

pensar en el carácter preventivo de este hábito; pero es muy probable que tal resultado se deba a que parte

de los fumadores hubieran abandonado el hábito precisamente porque ya venían teniendo síntomas o signos

que “anunciaban” un infarto aún latente.

En los estudios retrospectivos, además de sujetos sanos, se incluyen individuos que en el momento de la encuesta padecen de una enfermedad. Por ejemplo, una parte de los sujetos podrían ser hipertensos a los

que se preguntan datos tales como antecedentes familiares de hipertensión, si fuma, si ingiere alcohol o si

practica ejercicios. El antecedente de una madre o un padre hipertenso, es un hecho muy probablemente

anterior a la situación que presente este individuo ahora (incluso la dolencia paterna pudo haber sido

diagnosticada antes del nacimiento del hijo). Pero si se quiere evaluar el posible efecto causal, por ejemplo,

del hábito de fumar en el desarrollo de la enfermedad, lo que realmente interesa registrar no es si el sujeto

fuma en la actualidad, sino si lo hacía o no antes de que apareciera la enfermedad.

Cuando no se tiene en cuenta este "detalle", se pierde la lógica del estudio y se cancela toda interpretación

potencial de sus resultados. Este hecho puede ser catastrófico, aunque muchos investigadores no lo tomen en

cuenta, o lo consideren como un mal menor.


Página 7 de 13

El problema es típico de las situaciones en las que aparecen involucradas enfermedades crónicas: el

conocimiento de lo que ocurrió antes de su comienzo puede ser muy difícil (o imposible), simplemente debido

a la dificultad (o imposibilidad) para identificar el momento en que comenzó el trastorno. Pero no se expresa

solamente en este caso: se presenta muy frecuentemente en situaciones socioepidemiológicas en que, como

se comenta e ilustra en la siguiente sección, los fenómenos se "retroalimentan" mutuamente como causa y

efecto. 7. Ejemplos de la literatura

Se realizó una revisión crítica de artículos publicados en revistas científicas cubanas. Concretamente, se

examinaron los 27 números de varias revistas cubanas correspondientes a los años 1995 y 1996 (Revista de

Higiene y Epidemiología, Revista de Medicina General Integral, Revista de Pediatría, Revista de Salud Pública, Revista de Estomatología y Revista de Enfermería). Se identificaron estudios susceptibles de

presentar el problema que nos ocupa (manejo inadecuado de la PPT) y se eligieron tres ejemplos reales que,

a juicio nuestro, resultan suficientemente expresivos del problema, con la finalidad de examinarlos

detalladamente.

La presencia de diseños de investigación en los cuales se viola la PPT es, desafortunadamente, un hecho

frecuente. Puesto que no nos propusimos realizar un riguroso estudio bibliométrico, no podemos dar

estimaciones formales de la magnitud del problema; es posible, en cambio, mencionar algunas cifras que

ilustran la situación.

De los 197 artículos científicos revisados, 41 eran, en principio, susceptibles de presentar este problema, en

16 se constata una violación de la PPT, lo cual representa un 39% de ocurrencia del error. Hay que señalar

que en 9 trabajos era imposible que se produjera este problema, ya que se daban circunstancias como que el

efecto estudiado era la muerte, lo cual anula la posibilidad de que se verifique una inversión en el orden en

que se registran los acontecimientos.

Si consideramos, entonces, los 16 trabajos en los cuales se produjo la violación de la PPT con respecto a los

32 que quedan una vez eliminados los 9 ya mencionados, se aprecia que en la mitad de los posibles se

comete el error. Estas cifras son ciertamente preocupantes, ya que, tratándose de publicaciones científicas, no

solo los autores incurren en el fallo que nos ocupa, sino que éste abarca a los editores y árbitros responsables

de la publicación de los trabajos.

A continuación se examinan tres ejemplos elegidos para su análisis. La descripción de los ejemplos no es

exhaustiva, pero sí suficientemente explícita como para ilustrar elocuentemente el asunto. La estructura para

cada ejemplo será la siguiente: una introducción que identifique el trabajo y sus propósitos, bosquejo del

diseño empleado, resultados más revelantes, conclusiones fundamentales que sacan los autores y, final-

mente, nuestra valoración crítica.

7.1 Angiopatía periférica

PROBLEMA

Entre las afecciones cardiovasculares más frecuentes se incluyen las enfermedades vasculares periféricas. El

examen preventivo vascular surgió con el objetivo de realizar el diagnóstico precoz y el tratamiento oportuno

de estas enfermedades en la población supuestamente sana. En un trabajo sobre el tema(2)

, los autores


Pagína 8 de 13

declaran no conocer acerca de estudios en materia de prevención de dolencias vasculares en poblaciones

abiertas y se plantean cuantificar la prevalencia de angiopatías y de sus factores asociados, lo cual, según

ellos, permitirá realizar el diagnóstico precoz y el tratamiento oportuno de las angiopatías, así como estimar la

frecuencia de algunos factores de riesgo asociados a estas enfermedades.

DISEÑO

En el estudio, desarrollado en diciembre de 1990, se examinó la población mayor de 60 años (1457 ancianos),

pertenecientes a los Consultorios del Médico de la Familia en un Área de Salud de La Habana. La información

se obtuvo a través de un llamado formulario de "examen preventivo vascular" donde aparecen datos de

ocupación, hábitos tóxicos, antecedentes patológicos y presencia de factores de riesgo. Los sujetos se

identificaron como enfermos o sanos. En el trabajo no se comunican los totales de uno y otro grupo, pero sí se

informan los porcentajes en cada caso de la presencia de rasgos de interés.

RESULTADOS RELEVANTES

Los resultados de este estudio son extremadamente llamativos ya que la mayoría de los presuntos factores de

riesgo aparecen con mayor frecuencia en la población sana que en la enferma, tal y como permite apreciar la

Tabla 1.

Tabla 1 Prevalencia de algunos de los factores de riesgo investigados en los dos grupos bajo estudio.

Factores de riesgo Enfermos (%) Sanos

(%)

Sedentarismo 86.5 96.9

Deformidad podálica 46.8 58.6

Multiparidad 19.9 35.5

Hábito de fumar 19.9 28.4

Diabetes 18.7 26.2

Obesidad 17.2 21.7

Hipertensión arterial 7.6 11.5

CONCLUSIONES

Según consignan los autores en calidad de conclusión "los factores de riesgo más frecuentes fueron el

sedentarismo, la deformidad podálica, la multiparidad y el hábito de fumar".

VALORACIÓN CRÍTICA

En este estudio, según los autores, lo que se procuraba, básicamente, era cuantificar la prevalencia de


Página 9 de 13

algunos factores de riesgo. Si fuera estrictamente así, se torna difícil entender porqué se trabaja

separadamente con los subconjuntos de sanos y de enfermos. En cualquier caso, lo cierto es que se

establecen comparaciones entre ellos. Es por lo tanto evidente que, aunque los autores no lo digan de forma

explícita, su interés estaba en algo más que una simple cuantificación de factores de riesgo que, por otra

parte, aparecen con más frecuencia en la población sana que en la enferma. Esta realidad no se analiza pese

a que son datos empíricos contradictorios con la propia denominación de "factores de riesgo" empleada por

los autores. No es posible conocer si esos factores actuaron durante un lapso suficientemente largo antes de

que irrumpiera la enfermedad como para considerarlos causalmente relacionados con ella. Resulta imposible

saber, por ejemplo, si el sedentarismo es un precursor de la enfermedad vascular o viceversa: podría haber

individuos que comenzaron a realizar ejercicios una vez presentes los primeros síntomas de la enfermedad, o

luego de que ésta fuese diagnosticada; otros que dejaron de hacerlos precisamente a raíz de ella, aun otros

que enfermaron como resultado del sedentarismo, etc. Por otra parte, el hecho de no haber adoptado la

precaución de establecer el orden de los acontecimientos pudiera ser responsable de los contradictorios

resultados obtenidos.

7.2 Neoplasias bucales

PROBLEMA

En un trabajo publicado en la Revista Cubana de Estomatología(16)

, se comunica que la incidencia de

neoplasias en la boca alcanza magnitudes importantes; su prevención primaria consiste en evitar el inicio del

proceso cancerígeno en las células y aumentar así las posibilidades de curación. Aunque no se conoce con

exactitud el origen, se acepta la participación etiológica de una serie de factores dependientes tanto del

huésped y del ambiente como de agentes cancerígenos de naturaleza química, física o biológica. Entre los

factores de riesgo de las lesiones malignas y premalignas de la cavidad bucal, el artículo menciona factores

biológicos (sepsis bucal, herencia), mecánicos (uso de prótesis) y conductuales (hábito de fumar, ingestión de

bebidas alcohólicas). Los autores se proponen "estudiar la asociación causal de estos factores ante la

presencia de lesiones premalignas y malignas bucales".

DISEÑO

Se trata de un estudio de casos y controles en el que se incluyen 400 personas mayores de 15 años: 100 de

ellas presentaban lesiones premalignas o malignas de la cavidad bucal (casos) y 300 no mostraban lesiones

(controles). La información se obtuvo mediante la aplicación de un cuestionario confeccionado al efecto y las

variables fundamentales utilizadas fueron: presencia de sepsis bucal, hábito de fumar, antecedentes

patológicos familiares (APF), ingestión de bebidas alcohólicas y uso de prótesis dental.

Salvo en el caso de los APF, los resultados se recogen en tablas de contingencia de 2x2 y se calcularon los

OR y sus intervalos de confianza al 95%.


En la Tabla 2 se resume la información correspondiente a los factores de riesgo explorados en los 100 casos

y los 300 controles estudiados, con excepción de los APF para los cuales sólo se mencionan los porcentajes

de su presencia en los dos grupos y se dice que "no hubo asociación causal".

Tabla 2 Frecuencia y valores del OR de factores de riesgo de las lesiones premalignas o malignas de la


Pagína 10 de 13

cavidad bucal.

Factores de riesgo Casos (n1) Controles(n2) OR Intervalo de

Confianza

Presencia de sepsis

bucal

13 (13.0%) 9 (3.0%) 4.8 1.86 - 12.75

Uso de prótesis dental 91 (91.0%) 137 (45.7%) 12.0 5.62 - 26.59

Hábito de fumar 64 (64.0%) 121 (40.3%) 2.6 1.44 - 2.96

Consumo de bebidas

alcohólicas

84 (84.0%) 191 (63.3%) 3.0 1.61 - 5.65

CONCLUSIONES

Los autores concluyen que la sepsis bucal presentó una asociación causal con la presencia de lesiones

premalignas y malignas de la cavidad bucal, mientras que el factor de riesgo que predominó en todos los

casos fue la prótesis. Se dice que los fumadores presentaron "mayores probabilidades de contraer estas

lesiones"; además, los bebedores "son grandes fumadores y ambos factores coinciden en la boca, lo cual

contribuye a que aparezcan alteraciones premalignas y malignas en esta cavidad".


Cabría preguntarse si la sepsis bucal estaba presente en el 13% de los enfermos antes de detectarse la lesión.

De hecho, no hay motivo alguno para creerlo así, puesto que es verosímil la existencia de individuos que

modificaron sus hábitos higiénicos porque les resultaba doloroso practicar los que tenían antes de desarrollar

las lesiones. El paciente pudo haber sido examinado con anterioridad y, ante la presencia de alguna lesión,

por mínima que ésta fuese, haber recibido la orientación del estomatólogo de eliminar el hábito de fumar o la

prótesis desajustada, si es que estaban presentes estos factores. Lo cierto es que no se tomó la precaución de

garantizar que los factores estudiados hubiesen actuado con anterioridad al efecto, hecho que cancela toda

interpretación racional de las estimaciones de los OR.

7.3 Enfermedades de trasmisión sexual

PROBLEMA

En un estudio sobre enfermedades de trasmisión sexual(17)

, se señala que la posibilidad del contacto sexual

humano fortuito ha aumentado exponencialmente, y con ello el riesgo de adquirir enfermedades sexuales

transmisibles. El avance de la ciencia y la sociedad, la liberación de prejuicios, los métodos simples de

prevención del embarazo, la mayor libertad de la mujer, el alargamiento de la vida y, con él, de la vida sexual

activa, son realidades que, según los autores, favorecen dichos procesos. Los esfuerzos para detenerlos o

controlarlos han abarcado diferentes vertientes, desde los métodos de protección personal hasta las

intervenciones educativas. En esta investigación se parte de que existe una relación directa entre las

enfermedades de transmisión sexual y la conducta sexual promiscua; por tanto, el trabajo "busca sus fuentes

en las motivaciones y problemas psicosociales que determinan esta conducta, en un esfuerzo por ubicarse

más allá del control y la prevención y ahondar en los conceptos de la promoción".


Página 11 de 13

DISEÑO

En el trabajo se estudian 4245 individuos mayores de 15 años de la provincia cubana de Villa Clara,

seleccionados a partir de un muestreo por conglomerados. El examen de algunas de las variables se redujo a

una submuestra compuesta por 1012 familias.

La información se obtuvo a través de formularios. Además de datos de identificación personal, se pidieron

otros, tales como tipo de relaciones sexuales que conoce, número de parejas que ha tenido en los últimos dos

años, si ha padecido de enfermedades de transmisión sexual, estructura familiar, ingestión de bebidas al-

cohólicas y funcionamiento familiar.

Para el análisis de la información se partió de conformar dos grupos tomando como criterio de distinción la

variable que caracterizaba la conducta promiscua; se computaron odds ratios para distintos factores de riesgo

a partir de tablas que permitieran la comparación de los dos grupos.


En la Tabla 3 aparecen los odds ratio correspondientes a algunas de las variables exploradas por los autores

en relación con la promiscuidad.

Tabla 3 Valores de los OR de algunas variables asociadas con la conducta promiscua

Variables OR estimado

Sexo masculino 2.20

Padres separados 1.54

Aberraciones en el grado de participación de la familia en la vida social 5.93

Desvinculación laboral 5.92

Empleo del tiempo libre al margen de la familia 4.04

Alcoholismo en los hijos 3.14

Problemas de relaciones interpersonales entre los miembros de la

familia

2.53

Alcoholismo de la madre 2.01

Es necesario aclarar que, por decisión de los investigadores, de las preguntas que hemos elegido para el

análisis, solo las dos primeras se le hicieron a la totalidad de los encuestados; el resto solo se formuló a una

submuestra de ellos.


Pagína 12 de 13

CONCLUSIONES

Los autores concluyen que la conducta promiscua se asocia a la "disfuncionabilidad familiar marcada,

representada por la figura materna como centro de las cosas, ausencia del padre, alcoholismo y evasión en la

madre y los hijos, deformaciones en la estructura de la autoridad, desafecto familiar, críticas y discusiones

frecuentes entre los miembros de la familia, empleo del tiempo libre alejado del núcleo familiar". Según

plantean textualmente los autores: "La desvinculación laboral y el alcoholismo se subordinan o son respuesta

de la disfuncionabilidad familiar".


El estudio está diseñado de manera que no permite establecer la secuencia temporal en que aparecen los

factores estudiados, ya que las preguntas del formulario están redactadas de forma tal que la información que

se procura solo se refiere al momento de la encuesta. Cabe sospechar que la disfuncionabilidad familiar

pudiera ser una causa de la promiscuidad para algunos, pero para otros una consecuencia de la conducta

promiscua. Como se ha dicho antes en términos generales, no es probable que a los autores les interese la

asociación por sí misma. De hecho, ellos hablan de "buscar las fuentes que determinan la conducta

promiscua"; es decir, su interés radica realmente en identificar aquellos factores que anteceden a esa

conducta y que podrían estar relacionados causalmente con ella, pero varias de las variables que se exploran,

por su propia índole, demandan precisar su actuación en términos temporales. Es decir, si bien una pregunta

como la referente al género del individuo está obviamente exenta del riesgo de incurrir en una violación de la

PPT, lamentablemente, ello no rige para otras, tales como el resto de los acápites recogidos en la Tabla 3;

aspectos, por ejemplo, como problemas entre los miembros de la familia, podrían haber ocurrido tanto antes

como después de haberse conformado la conducta promiscua.

8. Consideración final

A modo de idea resumen de lo que se ha querido discutir e ilustrar, concluimos con las siguientes dos

consideraciones:

a) Si se generan "cruzamientos" o se calculan medidas de asociación, es necesariamente porque se

piensa en términos causales, independientemente que se procure ocultar el hecho proclamando otra

cosa.

b) Si el estudio es "epidemiológicamente transversal" (no hay un registro de la temporalidad), entonces

realizar esta acción es un acto, cuando menos estéril, y con frecuencia pernicioso.

9. BIBLIOGRAFIA

1. Hill, A.B. [1992], Ambiente y enfermedad: ¿Asociación o causación?. Boletín de la Oficina Sanitaria Panamericana, 113 (3), pp. 233-242.

2. Silva, L.C. [1997], Cultura estadística e investigaciones en el campo de la salud, Madrid, Díaz de

Santos.


Página 13 de 13

3. Popper, K.R. [1972], Objective knowledge: an evolutionary approach, Oxford, Clarendon Press.

4. García, F.M. [1998], Factores de riesgo: una nada inocente ambigüedad en el corazón de la medicina

actual, Atención Primaria, 22, pp. 585-595.

5. Bollet, A.J. [1964], On seeking the cause of disease, Clinical Research, 12, pp. 305-310.

6. Rebagliato, M., Ruiz, I y M. Arranz [1996] Metodología de investigación en epidemiología, Madrid,

Diaz de Santos.

7. Skrabanek P. [1999] La muerte de la medicina con rostro humano, Madrid, Diaz de Santos.

8. Rothman, K.J. y S. Greenland [1998], Modern Epidemiology, Philadelphia, Lippincot-Raven.

9. Jiménez R. [1999] Metodología de la investigación clínica, La Habana, Editorial Médica.

10. Gordis, L. [1996] Epidemiology , Philadelphia, W.B. Sannders Co.

11. Hulley, S.B. y S.R. Cummings [1998] Designing Clinical research: an epidemiological approach,

Baltimore, Williams and Willeins.

12. Gray-Donald, A. y G. Kramer [1988], Causality inference in observational vs. experimental studies,

American Journal of Epidemiolology, 127, pp. 885-892.

13. Susser, M. [1973], Causal thinki in the health science, New York, Oxford University Press.

14. Silva, L.C. [1999], Diseño razonado de cuestionarios y muestras para la investigación sanitaria,

Madrid, Díaz de Santos).

15. Estévez, M., E. Zacca y J. Mc Cook [1995], Angiopatía periférica en la población senil, Revista Cubana de Higiene y Epidemiología, 33 (1-2), pp. 31-37.

16. Felipe, R., I. Delgado y G. Soto [1995], Factores de riesgo en las lesiones premalignas y malignas del

complejo bucal, Revista Cubana de Estomatología, 32 (2), pp. 60-63.

17. Pérez, R., M. Alegret, R. Sánchez, M.T. Agüero y N. Pérez [1996], Búsqueda de un programa de

promoción para reducir las enfermedades por transmisión sexual, Revista Cubana de Higiene y Epidemiología, 34 (2), pp. 71-80.


CONTENIDO 3


CONTENIDO 4


CONTENIDO 5


CONTENIDO 6


CONTENIDO 7

REVISTA IIPSIFACULTAD DE PSICOLOGÍA

U N M S M

ISSN: 1560 - 909XVOL. 9 - Nº 1 - 2006

PP. 123 - 146

LA INVESTIGACIÓN CUALITATIVA (SÍNTESIS CONCEPTUAL)

MIGUEL MARTÍNEZ M.*

* Profesor Honorario de la UNMSM, Profesor Titular (Jubilado) de la Universidad Simón Bolívar (Caracas, Venezuela)y Responsable de la Línea de Investigación «Epistemología y Metodología Cualitativa».

E-mail: [email protected] / Web: http://prof.usb.ve/miguelm.

RESUMEN

El Documento nos brinda un panorama amplio de la investigación cualitativa. Inicia conuna revisión necesaria del tema del conocimiento, abordado desde su naturaleza epistemológicapara poder entender la totalidad concreta de la realidad, y en la terminología del autor, comoun todo polisistémico y la interdisciplinariedad.

En un segundo plano identifica la dimensión dinámica de la investigación cualitativa, encuanto trata de identificar la naturaleza profunda de las realidades, su estructura y relacionesque se establecen, para cumplir las dos tareas básicas de toda investigación: recoger datosy categorizarlos e interpretarlos.

Hace un tratamiento del marco referencial, los objetivos, las hipótesis y las variables,identificando varios métodos cualitativos, así como los instrumentos y procedimientos.

Palabras claves: Epistemología, Investigación, Hipótesis, Métodos cualitativos, Teorización.

ABSTRACT

The Document offers an ample panorama us of the qualitative investigation. It initiates withnecessary revision of the subject of the knowledge, boarded from his epistemologic natureto be able to understand the concrete totality of the reality, and in the terminology of theauthor, like an all polisistémico and interdisciplinariedad.

In background it identifies the dynamic dimension of the qualitative investigation, as soonas it tries to identify the deep nature of the realities, his structure and relations that settledown, to fulfill the two tasks basic of all investigation: To gather data and to actegorizarthem and to interpret them.

It makes a treatment of the referential frame, the objectives, the hypotheses and the variables,identifying several qualitative methods, as well as the instruments and procedures

Keywords: Epistemología, Investigation, Hypotheses, Qualitative methods, Teorización.

124

REVISTA DE INVESTIGACIÓN EN PSICOLOGÍA - VOL. 9, Nº 1

La vida personal, social e institucional, en el mundo actual, se ha vuelto cada vez máscompleja en todas sus dimensiones. Esta realidad ha hecho más difíciles los procesosmetodológicos para conocerla en profundidad, conocimiento que necesitamos sin alternativaposible para lograr el progreso de la sociedad en que vivimos. De aquí, ha ido naciendo, enlos últimos 25 ó 30 años, una gran diversidad de métodos, estrategias, procedimientos,técnicas e instrumentos, sobre todo en las Ciencias Humanas, para abordar y enfrentar estacompleja realidad. Estos procesos metodológicos se conocen hoy, con el nombre generalde Metodologías Cualitativas, y han sido divulgados en un alto número de publicaciones,que van desde unos 400 libros hasta más de 3000 publicaciones parciales (capítulos de librosy artículos de revistas). Estas orientaciones metodológicas tratan de ser sensibles a lacomplejidad de las realidades de la vida moderna y, al mismo tiempo, estar dotadas deprocedimientos rigurosos, sistemáticos y críticos, es decir, poseer una alta respetabilidadcientífica.

FUNDAMENTACIÓN EPISTEMOLÓGICA

El gran físico Erwin Schrödinger, premio Nobel por su descubrimiento de la ecuaciónfundamental de la mecánica cuántica (base de la física moderna), considera que la cienciaactual nos ha conducido por un callejón sin salida y que la actitud científica ha de serreconstruida, que la ciencia ha de rehacerse de nuevo (1967).

El modelo de ciencia que se originó después del Renacimiento sirvió de base para el avancecientífico y tecnológico de los siglos posteriores. Sin embargo, la explosión de losconocimientos, disciplinas, especialidades y enfoques que se han dado en el siglo XX y lareflexión epistemológica, encuentran ese modelo tradicional de ciencia no sólo insuficiente,sino, sobre todo, inhibidor de lo que podría ser un verdadero progreso, tanto particularcomo integrado, de las diferentes áreas del saber.

El problema principal que enfrenta actualmente la investigación en las ciencias sociales, yen general las ciencias humanas y su metodología, tiene un fondo esencialmenteepistemológico, pues gira en torno al concepto de "conocimiento" y de "ciencia" y larespetabilidad científica de sus productos: El conocimiento de la verdad y de las leyes de lanaturaleza. De aquí, la aparición, sobre todo en la segunda parte del siglo XX, de lascorrientes postmodernistas, las posestructuralistas, el construccionismo, eldesconstruccionismo, la teoría crítica, el análisis del discurso, la desmetaforización deldiscurso y, en general, los planteamientos que formula la teoría del conocimiento.

Por ello, nuestro objetivo fundamental aquí, será clarificar e ilustrar que el problemareside en el concepto restrictivo de "cientificidad" adoptado, especialmente en las cienciashumanas, que mutila la legitimidad y derecho a existir de una gran riqueza de la dotaciónmás típicamente humana, como los procesos que se asientan en el uso de la libertad y de lacreatividad. Esta gran riqueza de dotación exige en el investigador, por un lado, una gransensibilidad en cuanto al uso de métodos, técnicas, estrategias y procedimientos para podercaptarla, y por el otro, un gran rigor, sistematicidad y criticidad, como criterios básicos dela cientificidad requerida por los niveles académicos.

Este espacio lo han ido tratando de ocupar, a lo largo de la segunda parte del siglo XX, lasmetodologías cualitativas (cada una en su propio campo y con su especificidad) para lograr

125

MIGUEL MARTÍNEZ M.

conocimientos defendibles epistemológica y metodológicamente ante la comunidad científicainternacional.

En el ámbito de la experiencia total humana, existe una "experiencia de verdad" (Gadamer,1984), una vivencia con certeza inmediata, como la experiencia de la filosofía, del arte yde la misma historia, que son formas de experiencia en las que se expresa una verdad queno puede ser verificada con los medios de que dispone la metodología científica tradicional.En efecto, esta metodología usa, sobre todo, lo que Eccles (1985) llama el etiquetadoverbal, propio del hemisferio izquierdo, mientras que la experiencia total requiere el usode procesos gestálticos y estereognósicos, propios del hemisferio derecho.

Según la Neurociencia actual, nuestro sistema cognoscitivo y el afectivo no son dos sistemastotalmente separados, sino que forman un solo sistema, la estructura cognitivo-emotiva;por ello, es muy comprensible que se unan lo lógico y lo estético para darnos una vivenciatotal de la realidad experienciada. Esto, naturalmente, no desmiente el hecho de que predomineuna vez uno y otra el otro, como constatamos en la vida y comportamiento cotidiano de laspersonas.

La fundamentación y posible salida exitosa de este problema nos la señala el mismoAristóteles (1973) en su obra máxima, La Metafísica, donde nos advierte que "el ser no seda nunca a nadie en su totalidad, sino sólo según ciertos aspectos y categorías" (Metaf.,libro IV). En efecto, toda realidad, y más las realidades humanas, son poliédricas (tienenmuchas caras) y sólo captamos, en un momento dado, algunas de ellas. El inculto tiene unacaptación muy pobre; la persona culta, una mucho más diversificada.

El problema radical que nos ocupa aquí, reside en el hecho de que nuestro aparato conceptualclásico -que creemos riguroso, por su objetividad, determinismo, lógica formal y verificación-resulta corto, insuficiente e inadecuado para simbolizar o modelar realidades que se noshan ido imponiendo, sobre todo a lo largo del siglo XX, ya sea en el mundo subatómico dela física, como en el de las ciencias de la vida y en las ciencias humanas. Para representarlasadecuadamente necesitamos conceptos muy distintos a los actuales y mucho másinterrelacionados, capaces de darnos explicaciones globales y unificadas.

Esta nueva sensibilidad se revela también, a su manera, como ya señalamos, en diferentesorientaciones del pensamiento actual, como la teoría crítica, la condición postmoderna, lapostestructuralista y la desconstruccionista, o la tendencia a la desmetaforización deldiscurso, a un uso mayor y más frecuente de la hermenéutica y de la dialéctica, e igualmenteen varias orientaciones metodológicas, como las metodologías cualitativas, laetnometodología, el interaccionismo simbólico, la teoría de las representaciones sociales,el pensamiento sociocéntrico, etc., y vendría a significar el estado de la cultura después delas transformaciones que han afectado a las reglas del juego de la ciencia, de la literaturay de las artes que han imperado durante la llamada "modernidad", es decir, durante los tresúltimos siglos.

Los autores de estos movimientos difieren en muchos aspectos, pero tienen también muchascosas en común, como su ruptura con la jerarquía de los conocimientos y de los valorestradicionales, su bajo aprecio por lo que contribuye a la formación de un sentido universal,su desvalorización de lo que constituye un modelo, y su valoración, en cambio, delracionalismo crítico, de las diferentes lógicas, de la "verdad local", de lo fragmentario, ysu énfasis en la subjetividad y en la experiencia estética.

126


En fin de cuentas, eso es lo que somos también cada uno de nosotros mismos: un "todofísico-químico-biológico-psicológico-social-cultural-espiritual" que funcionamaravillosamente y que constituye nuestra vida y nuestro ser. Por esto, el ser humano es laestructura dinámica o sistema integrado más complejo de todo cuanto existe en el universo.Y cualquier área que nosotros cultivemos debiera tener en cuenta y ser respaldada por unparadigma que las integre a todas.

Estamos poco habituados todavía al pensamiento "sistémico-ecológico". El pensar con estacategoría básica, cambia en gran medida nuestra apreciación y conceptualización de larealidad. Nuestra mente no sigue sólo una vía causal, lineal, unidireccional, sino también,sobre todo, un enfoque modular, estructural, dialéctico, gestáltico, interdisciplinario yestereognósico, donde todo afecta e interactúa con todo, donde cada elemento no sólo sedefine por lo que es o representa en sí mismo, sino, y especialmente, por su red de relacionescon todos los demás.

La naturaleza es un todo polisistémico que se rebela cuando es reducido a sus elementos. Yse rebela precisamente porque, así, reducido pierde las cualidades emergentes del "todo" yla acción de éstas sobre cada una de las partes.

Este "todo polisistémico", que constituye la naturaleza global, nos obliga incluso a dar unpaso más en esta dirección. Nos obliga a adoptar una metodología inter y transdisciplinariapara poder captar la riqueza de la interacción entre los diferentes subsistemas que estudianlas disciplinas particulares. No se trata simplemente de sumar varias disciplinas, agrupandosus esfuerzos para la solución de un determinado problema, es decir, no se trata de usar unacierta multidisciplinariedad, como se hace frecuentemente.

La inter y transdisciplinariedad exige respetar la interacción entre los objetos de estudio delas diferentes disciplinas y lograr la integración de sus aportes respectivos en un todocoherente y lógico. Esto implica, para cada disciplina, la revisión, reformulación y redefiniciónde sus propias estructuras lógicas individuales, ya que esas conclusiones particulares nisiquiera serían "verdad" en sentido pleno. Ejemplos de ello los tenemos a diario en todaslas disciplinas, pero, quizá, una de las que más nos afecta personalmente es nuestra medicinaactual, que siendo básicamente biológica, ignora la etiología no-biológica de muchasenfermedades y su correspondiente terapéutica, igualmente no biológica.

Pero, podríamos, incluso, ir más allá y afirmar que la mente humana, en su actividadnormal y cotidiana, sigue las líneas matrices de este nuevo paradigma. En efecto, en todaelección, la mente estudia, analiza, compara, evalúa y pondera los pro y los contra, lasventajas y desventajas de cada opción o alternativa, y su decisión es tanto más sabiacuantos más hayan sido los ángulos y perspectivas bajo los cuales haya sido analizado elproblema en cuestión. Por consiguiente, la investigación científica con el nuevo paradigmaconsistiría, básicamente, en llevar este proceso natural a un mayor nivel de rigurosidad, desistematicidad y de criticidad. Esto es precisamente lo que tratan de hacer las metodologíasque adoptan un enfoque hermenéutico, fenomenológico, etnográfico, etc., es decir, un enfoquecualitativo que es, en su esencia, estructural-sistémico.

El ser humano es superior a los animales, no por la riqueza de su información sensorial, yaque la mayoría de los animales poseen una agudeza visual, auditiva, olfativa, etc. muysuperior a la del hombre, sino por su capacidad de relacionar, interpretar y teorizar con esainformación.

127

MIGUEL MARTÍNEZ M.

Bajo el punto de vista instrumental, existen hoy más de 60 programas de computación paratrabajar con "datos" cualitativos. Los más utilizados son el Atlas.ti, el Ethnograph y elNud*ist; precisamente, el manejo del primero (de la Universidad de Berlín) ha constituidoel objeto completo de estudio de varios de nuestros talleres a nivel de Postgrado. El Atlas.ties precisamente el más indicado para llevar a cabo la tarea básica que enfrentan muchasinvestigaciones cualitativas, que tratan de integrar, en una red estructural compleja, lasrealidades poliédricas que nos presentan los procesos psicológicos, los sociales, losantropológicos, los sociopolíticos y otros. Estas tareas se vuelven casi imposibles de abordarcon los procesos normales y simples de la reflexión humana corriente; por eso, la cienciatradicional ha reducido casi siempre su trabajo a la relación de una o pocas variables:Independientes y dependientes. En las realidades humanas cotidianas biopsicosociales entrannormalmente en acción docenas de variables en una interacción recíproca y con muy variadostipos de relaciones. El Atlas.ti, con sus técnicas de categorización, estructuración yteorización, y con los operadores booleanos, semánticos y de proximidad, nos permitirá irmucho más allá de estas grandes limitaciones. Por ello, ilustramos este programa en elAnexo de nuestra última obra (2004a).

Igualmente, hoy, ya se han desarrollado mucho las "matemáticas de la complejidad" (concentenares de variables interactuantes e intervinientes durante los procesos con la cuartadimensión "tiempo"), que, gracias a los ordenadores de alta velocidad para resolver problemascomplejos, no lineales, trabajan con "relaciones", "formas" y "orden" y grafican diagramasy curvas para descubrir los patrones cualitativos sin ecuaciones ni fórmulas, sino conmodelos atractores (tendencias) de alta complejidad. Se trata de unas "matemáticas máscualitativas que cuantitativas". Lo sorprendente de esto es que nuestro hemisferio cerebralderecho trabaja en gran parte de la misma forma, incluso, con una velocidad superior. Entiempos pasados, la orientación científica exigía que se cuantificara el objeto de estudio,que se matematizara, aunque no fuera mensurable; hoy es la Matemática la que ha tenidoque respetar y adecuarse a la verdadera naturaleza del objeto, para captarlo como es, en sugenuina y compleja naturaleza.

EL ENFOQUE CUALITATIVO

El término "cualitativo", ordinariamente, se usa bajo dos acepciones. Una, como cualidad:"fulano tiene una gran cualidad: es sincero". Y otra, más integral y comprehensiva, comocuando nos referimos al "control de calidad", donde la calidad representa la naturaleza yesencia completa y total de un producto.

Cualidad y Calidad vienen del mismo término latino qualitas, y éste deriva de qualis

(cuál, qué). De modo que a la pregunta por la naturaleza o esencia de un ser: ¿qué es?,¿cómo es?, se da la respuesta señalando o describiendo su conjunto de cualidades o lacalidad del mismo. En sentido propio, filosófico, según Aristóteles, "las acepciones de lacualidad pueden reducirse a dos, de las cuales una se aplica con mayor propiedad y rigor;en efecto, en primer lugar, cualidad es la diferencia o característica que distingue unasustancia o esencia de las otras" (Metafísica, Libro 5, Cap. 14: De la cualidad). Y en laLógica hace ver que la forma sintética de la cualidad no puede reducirse a sus elementossino que pertenece esencialmente al individuo y es la que hace que éste sea tal o cual (1973,p. 221).

128


Igualmente, el Diccionario de la Real Academia define la cualidad como la "manera de serde una persona o cosa" (2ª acepción). Y el Diccionario que acompaña a la EnciclopediaBritánica dice que la cualidad "es aquello que hace a un ser o cosa tal cual es" (1ª acepción,entre 11). Ambos diccionarios siguen el concepto aristotélico.

Es esta acepción, en sentido propio, filosófico, la que se usa en el concepto de "metodologíacualitativa". No se trata, por consiguiente, del estudio de cualidades separadas o separables;se trata del estudio de un todo integrado que forma o constituye una unidad de análisis y quehace que algo sea lo que es: Una persona, una entidad étnica, social, empresarial, unproducto determinado, etc.; aunque también se podría estudiar una cualidad específica,siempre que se tengan en cuenta los nexos y relaciones que tiene con el todo, los cualescontribuyen a darle su significación propia.

De esta manera, la investigación cualitativa trata de identificar la naturaleza profunda delas realidades, su estructura dinámica, aquella que da razón plena de su comportamiento ymanifestaciones. De aquí, que lo cualitativo (que es el todo integrado) no se opone a locuantitativo (que es sólo un aspecto), sino que lo implica e integra, especialmente dondesea importante.

LO ESENCIAL DE TODA INVESTIGACIÓN

Toda investigación, de cualquier enfoque que sea (cualitativo o cuantitativo), tiene doscentros básicos de actividad. Partiendo del hecho que el investigador desea alcanzar unosobjetivos, que a veces, están orientados hacia la solución de un problema, los dos centrosfundamentales de actividad consisten en:

(1) Recoger toda la información necesaria y suficiente para alcanzar esos objetivos, osolucionar ese problema.

(2) Estructurar esa información en un todo coherente y lógico, es decir, ideando unaestructura lógica, un modelo o una teoría que integre esa información. Analógicamente,podríamos decir que todo pende o se apoya en dos pilares centrales, como penden o seapoyan todos los componentes de un puente colgante en sus dos pilares.

También, en forma esquemática y simple, toda investigación se parece un poco al procesoinvestigativo que realiza un comisario policial al encontrarse ante un crimen consumado,él debe:

(1) Recoger toda la información que pudiera ilustrar lo acaecido, entrevistando a testi-gos, familiares, amigos, vecinos, compañeros de trabajo, etc.

(2) Estructurar esa información, integrándola en un todo coherente y lógico, por medio deuna hipótesis plausible que dé sentido al todo: Un crimen pasional, una venganza, unasalto, una bala perdida, etc.

Un aspecto de gran relevancia es el siguiente: estas dos tareas básicas de (1) recoger"datos" y (2) categorizarlos e interpretarlos, no se realizan siempre en tiempos sucesivos,sino que se entrelazan continuamente. Es decir, que nuestra mente no respeta una secuenciatemporal de estas actividades. En efecto, el método básico de toda ciencia es la observaciónde los "datos" o "hechos" y la interpretación de su significado. Pero la observación y lainterpretación son inseparables: resulta inconcebible que una se obtenga en total aislamiento

129

MIGUEL MARTÍNEZ M.

de la otra. Toda ciencia trata de desarrollar técnicas especiales para efectuar observacionessistemáticas y garantizar su interpretación. Sin embargo, sí hay una diferencia de grado:Al principio de la investigación, hay un predominio de la recolección de información sobrela categorización e interpretación; después, a medida que se acerca hacia el final,gradualmente, el balance cambia hacia la categorización e interpretación, con pocarecolección de información.

CONCEPTOS FUNDAMENTALES

Marco epistemológico

El enfoque cualitativo de investigación es, por su propia naturaleza, dialéctico y sistémico.Estos dos presupuestos, epistemológico y ontológico, conviene hacerlos explícitos, en todoproyecto o desarrollo de investigación, por medio de un breve "marco epistemológico",para evitar los frecuentes malentendidos en los evaluadores de los mismos. Este "marco"se apoyaría básicamente en las ideas expuestas en obras anteriores nuestras (1997b, 1999a,2004a). Una epistemología de fondo es absolutamente necesaria, ya que es la que le dasentido a la metodología y a las técnicas que se utilicen, como, igualmente, a las reglas deinterpretación que se usen.

La teoría del conocimiento o filosofía de la ciencia en que se apoya la metodología cualitativa,rechaza el "modelo especular" (positivista), que considera al sujeto conocedor como unespejo y esencialmente pasivo, al estilo de una cámara fotográfica. Acepta, en cambio, el"modelo dialéctico", considerando que el conocimiento es el resultado de una dialécticaentre el sujeto (sus intereses, valores, creencias, etc.) y el objeto de estudio. No existirían,por consiguiente, conocimientos estrictamente "objetivos". El objeto, a su vez, especialmenteen el área de las ciencias humanas, es visto y evaluado (opción o supuesto ontológico) porel alto nivel de complejidad estructural o sistémica, producida por el conjunto de variablesbio-psicosociales que lo constituyen. En general, se considera que toda realidad, desde elátomo hasta la galaxia (von Bertalanffy, 1981), está configurada por sistemas de muyalto nivel de complejidad, donde cada parte interactúa con todas las demás y con "eltodo" (p. 47).

Estas dos ideas conceptualizadoras (lo dialéctico y lo sistémico) cambiarán la mayoría delos conceptos metodológicos que se apliquen. En efecto, la mayoría de los evaluadores deproyectos o investigaciones cualitativos, suelen hacerlo desde el marco epistemológico del"modelo especular" (científico-positivista), razón por la cual la evaluación falla por labase.

El marco teórico-referencial

En una investigación cualitativa, este "marco" (así, entre comillas) no debe "enmarcar"(delimitar) la búsqueda del investigador, pues sólo es "referencial", es decir, sólo tiene porfinalidad exponer lo que se ha hecho hasta el momento para esclarecer el fenómeno objetode la investigación. Debe referir las principales investigaciones sobre el área o áreascercanas: Autores, enfoques y métodos empleados, conclusiones e interpretaciones teóricasa que llegaron, y otros elementos de importancia. En las ciencias humanas, es necesariodar mayor énfasis a lo más cercano (lo regional, lo nacional, lo iberoamericano), ya que

130


comparte más nuestra cultura e idiosincrasia. Lo extranjero, especialmente si es anglosajón,podría distorsionar la comprensión de nuestra realidad. En cualquier caso, este "marco" essólo "teórico-referencial", es decir, fuente de información y nunca modelo teórico en elcual ubicar nuestra investigación. Servirá para contrastar, después (en la etapa decontrastación), nuestras conclusiones con las de esos autores, y así, entenderlas mejor,pero nunca para forzar e imponer una interpretación. Lamentablemente, todo esto es pocoentendido en muchos medios académicos, incluso por algunos "metodólogos".

La razón de este proceder es que la utilización de un marco teórico definido nos impone, yadesde el principio, todo un mundo teórico, conceptual e interpretativo que pudiera no ser elmás adecuado para entender la realidad que estamos estudiando, sino más bien, un filtroepistemológico que restringe el conjunto de interpretaciones posibles. Y su falta de lógicaestá en el hecho de que da en gran parte por resuelto lo que todavía no se ha estudiado.

De todos modos, esto no indica que no se pueda hacer una investigación partiendo ya de unateoría sólida (por ej., el psicoanálisis, el marxismo o cualquier otra) y aceptándola,inicialmente, como auténtico marco teórico. El inconveniente de esto está en que, al aceptarese mundo teórico, conceptual e interpretativo, que pudiera ser incluso, muy ajeno a nuestrarealidad, nos estamos jugando el todo por el todo.

Piaget (1976) define este saber "local" que buscamos como "pensamiento sociocéntrico",por oposición al pensamiento técnico y científico: "un saber elaborado para servir a lasnecesidades, los valores y los intereses del grupo". En este sentido, coincide con el"conocimiento emancipatorio" de Habermas (1982), objeto de la "investigación-acción", yque se opone al "conocimiento instrumental", que es básicamente controlador y explotador.

Moscovici (1984), por su parte, acentúa todavía más esta postura fenomenológica, dándoleel rango epistemológico de ciencia (frente y en oposición al conocimiento científico clásico),al considerar las "representaciones sociales" como una forma de conocimiento socialespecífico, natural, de sentido común y práctico, que se constituye a partir de nuestrasexperiencias, saberes, modelos de pensamiento e información, que recibimos y transmitimospor la tradición, la educación y la comunicación social.

Por consiguiente, es altamente criticable e inaceptable la tendencia antifenomenológica quetienen algunos evaluadores de proyectos e investigaciones, incluso cualitativas, a forzar a losautores de los mismos para que "encuadren" o "enmarquen" sus proyectos o investigacionesen teorías ajenas o en modelos preconcebidos, o para que "definan" los procesos a estudiarcon conceptos preestablecidos, traídos de otros contextos y tiempos. Si todo esto se pudierahacer y respaldar lógicamente, no sería necesario realizar la investigación.

Toda investigación, de cualquier naturaleza que sea (cuantitativa o cualitativa), está constituidapor dos etapas: "la recolección de la información necesaria y suficiente" y "la estructuraciónde esa información". La primera parte de una investigación cualitativa, propiamente dicha,está guiada por varios conceptos, cuya clarificación resumimos a continuación:

Los objetivos

En las investigaciones cualitativas se fijan unos objetivos a lograr: Algunos son más biengenerales y otros específicos, pero todos deben ser relevantes para las personas interesadasen la investigación. A veces, es preferible fijar sólo objetivos generales y determinar los

131

MIGUEL MARTÍNEZ M.

específicos durante la marcha, para no buscar metas que quizá resulten triviales o imposibles.El objetivo puede ser muy preciso, como por ejemplo, clarificar tal o cual fenómeno o áreaproblemática, aun cuando sus problemas específicos o dificultades propias estén todavíamuy enredados y sólo se puedan plantear o formular expresamente cuando la investigaciónesté más adelantada.

Estos objetivos determinarán, en parte, las estrategias y procedimientos metodológicos.No obstante, tampoco los objetivos serán intocables. También aquí, al buscar objetivosrelevantes, se sigue el famoso principio de "Los tres príncipes de Serendip": "si estásbuscando una cosa buena y encuentras otra mejor, deja la primera por la segunda".

La orientación metodológica cualitativa no suele partir del planteamiento de un problemaespecífico, sino de un área problemática más amplia en la cual puede haber muchos problemasentrelazados que no se vislumbrarán hasta que no haya sido suficientemente avanzada lainvestigación. Por esto, en general, el partir de un problema cierra el posible horizonte quetienen las realidades complejas, como son las realidades humanas.

Esto, de ninguna manera quiere decir que, en un caso específico, no sea útil o convenientepartir de un problema concreto, si eso es particularmente lo que se desea investigar.

La generalización

Para llegar a la identificación de una estructura humana (psíquica o social) más o menosgeneralizable, debemos localizar primero esa estructura en individuos o situacionesparticulares mediante el estudio y la captación de lo que es esencial o universal, lo cual essigno de lo necesario. Lo universal no es aquello que se repite muchas veces, sino lo quepertenece al ser en que se halla por esencia y necesariamente. La captación de esa esenciadepende más de la agudeza intelectual que del uso de técnicas.

Tanto Aristóteles como el mismo Bacon entendían por inducción, no tanto la inferencia deleyes universales a partir de la observación de muchos casos particulares, sino un métodomediante el cual llegamos a un punto en el que podemos intuir o percibir la esencia, laforma, o la verdadera naturaleza de las cosas, que encierra lo universal. El mismo Galileoconsideraba que las leyes de la naturaleza, que son regulares y que tratamos de descubrir,pueden ser captadas sin necesidad de multiplicar las observaciones, sino que bastaba unabuena observación realizada intensivamente para aprehenderlas, como se hace en las cienciasnaturales con un solo experimento. Y Piaget, estudiando a fondo a sus propias hijas, estructuróleyes de validez universal que han sido consideradas entre los aportes más significativos dela psicología del siglo XX.

Por otra parte, es necesario tener muy en cuenta que una estructura individual o universalnunca podrá ser inducida del estudio de elementos aislados en muchas personas, del mismomodo que no podemos conocer la fisonomía típica de una determinada raza humana, estudiandode manera separada los ojos, la boca, la nariz, etc., sin ver nunca su red de relaciones enconjunto. Por ese camino ni siquiera reconoceríamos a nuestro mejor amigo. Es precisamenteesa "red de relaciones", la que hace que un rostro o una raza sea diferentes de los demás.Sería algo similar a lo que acontece con nuestra propia firma, donde los trazos, rasgos opartes cambian casi siempre, pero la estructura, forma o gestalt permanece la misma, ypor eso nos identifica.

132


Es muy lógico pensar que el grado de transferibilidad de una situación a otra es una funcióndirecta de la similitud que haya entre ambos contextos. Por ello, el esfuerzo mayor delinvestigador debe dirigirse hacia la identificación del patrón estructural que caracteriza asu objeto de estudio. En cambio, no es él quien debe estudiar el grado de similitud de sucontexto con otros contextos o situaciones a los cuales puedan transferirse o aplicarse losresultados de su investigación. Ésa es tarea de quien vaya a hacer la transferencia o aplicación.

Ordinariamente, el enfoque cualitativo no tiene pretensiones de alta generalización de susconclusiones, sino que, más bien, desea ofrecer resultados y sugerencias para instaurarcambios en una institución, en una empresa, en una escuela o en un grupo o comunidadparticular; aunque, evidentemente, al comparar varias investigaciones, se irá logrando unnivel más alto de generalizaciones.

Las hipótesis

Aunque la mente humana difícilmente trabaja con una ausencia total de hipótesis, enmetodología cualitativa, tampoco se formula una hipótesis a verificar, ya que se está abiertoa todas las hipótesis plausibles y se espera que la mejor emerja del estudio de los datos y seimponga por su fuerza convincente. Es muy difícil que el investigador tenga la mejorhipótesis a la vista: Si fuera así, no haría falta hacer la investigación. Por ello, es necesariauna gran apertura hacia todas las hipótesis que se vayan revelando consistentes. Las hipótesisson, más bien, provisionales, y se van modificando durante el proceso, para no estrecharnuestra perspectiva y visión de la realidad. En general, no estamos tan interesados enverificar una hipótesis específica, en cuanto que la mejor se revele claramente. Perotambién aquí puede ser que un investigador esté interesado en "verificar" una determinadahipótesis, en cuyo caso es lógico que parta de ella.

Las variables y la unidad de análisis

¿Cuál sería entonces la unidad de análisis, es decir, el objeto específico de estudio de unainvestigación cualitativa? Sería la nueva realidad que emerge de la interacción de las partesconstituyentes, sería la búsqueda de esa estructura con su función y significado. Esta realidadno está en los elementos sino que aparece por las relaciones que se dan entre los elementos,así como surgen las propiedades del agua que no se dan ni en el oxígeno ni en el hidrógeno porseparado, o las propiedades del significado al relacionar varias palabras en una estructuralingüística, o la vida por la interacción de varias entidades fisicoquímicas, etc.

No sería, por consiguiente, nada lógico estudiar las variables aisladamente, definiéndolasprimero y tratando, luego, de encontrarlas. Es necesario comprender primero o, al menos,al mismo tiempo, el sistema de relaciones en el cual las variables o propiedades se encuentraninsertas, enclavadas o encajadas y del cual reciben su propio sentido. También se consideraríaimprocedente definir las variables operacionalmente, ya que los actos de las personas, ensí, descontextualizados, no tendrían significado alguno o podrían tener muchos significados.El significado preciso lo tienen las "acciones humanas", las cuales requieren para suinterpretación, ir más allá de los actos físicos, ubicándolas en sus contextos específicos. Elacto en sí no es algo humano; lo que lo hace humano es la intención que lo anima, elsignificado que tiene para el actor, el propósito que alberga, la meta que persigue; en una

133

MIGUEL MARTÍNEZ M.

palabra, la función que desempeña en la estructura de su personalidad y en el grupo humanoen que vive.

Las categorías

El enfoque cualitativo se apoya en la convicción de que las tradiciones, roles, valores ynormas del ambiente en que se vive se van internalizando poco a poco y generan regularidadesque pueden explicar la conducta individual y grupal en forma adecuada. En efecto, losmiembros de un grupo étnico, cultural o situacional comparten una estructura lógica o derazonamiento que, por lo general, no es explícita, pero que se manifiesta en diferentesaspectos de su vida.

No hay, por lo tanto, categorías previas a la investigación, (ni variables, o dimensiones, oindicadores) preconcebidos, ya sea que se consideren independientes o dependientes. Si elinvestigador las tiene en su mente, es porque las ha tomado de otras investigaciones, deotras muestras realizadas por otros investigadores en otros lugares y en otros tiempos, yaque no existen categorías trascendentes. Las verdaderas categorías que conceptualizaránnuestra realidad deben emerger del estudio de la información que se recoja, al realizar elproceso de "categorización" y durante los procesos de "contrastación" y de "teorización",es decir, cuando se analicen,relacionen,comparen y contrasten las categorías. No obstante,se podría partir de un grupo de categorías preestablecidas, con tal de que se utilicen conmucha cautela y como algo provisional hasta que no se confirmen, y no se deje uno llevarpor la tendencia (cosa muy fácil y natural) de rotular la nueva realidad con viejos nombres.

CRITERIOS GENERALES PARA LA ACCIÓN

Como dice el Premio Nobel de Física, P. Bridgman, "no existe un método científico comotal (...); el rasgo distintivo más fértil de proceder del científico ha sido el utilizar su mentede la mejor forma posible y sin freno alguno" (en: Patton, 1990, p. 140).

El trabajo de campo de la investigación cualitativa camina guiado por algunos criterios queconviene poner adecuadamente de relieve, ya que lo distinguen notablemente de otrasclases de investigación.

1. El primero se refiere al lugar donde el investigador debe ir a buscar la información olos "datos" que necesita. El criterio básico para este punto es de carácter general,pero, como no siempre resulta evidente, es necesario enfatizarlo claramente: lainformación hay que buscarla donde está. Como muchas veces esto altera los planesmetodológicos preestablecidos, habrá que tomar conciencia de que primero está lafidelidad a la información que a los planes a seguir. En esta línea de trabajo, es fácilcomprender que el investigador a menudo, tiene que tomar decisiones en cuanto adónde ir, qué datos recoger, con quién hablar, etc. Al contrario de lo que ocurre en lasinvestigaciones con diseños estructurados, aquí la información que se acumula y lasestructuras emergentes se usan para reorientar el enfoque y la recolección de nuevainformación; es decir, que las conjeturas iniciales se van convirtiendo en hipótesisfirmes; estas hipótesis comienzan, luego, a ser el centro de la búsqueda de nuevainformación, estrechando el foco de interés y reorientando las hipótesis. De esa forma,se van perfilando posibles estructuras explicativas y conclusiones teóricas. Como, al

134


mismo tiempo, se buscan y contrastan sistemáticamente los casos negativos (situacionesy fenómenos que parecen contradecir u oponerse a las hipótesis y conclusiones), lasestructuras teóricas emergentes no sólo son generadas en el campo sino que tambiénson "verificadas" (Williamson, 1981). Todo esto no anula la sistematicidad de lainvestigación; al revés, exige un orden sistemático altamente fiel a la realidad queemerge del proceso de investigación.

2. El segundo criterio advierte que la observación no debe deformar, distorsionar operturbar la verdadera realidad del fenómeno que estudia. Tampoco debedescontextualizar los datos aislándolos de su contorno natural. Todo esto exige que lainformación sea recogida en la forma más completa posible (detalles, matices y aspectospeculiares sobre lenguaje, vestidos, costumbres, rutinas, etc.) y que el estudio seaorientado ecológicamente, en el sentido en que Barker (1968) entiende este término.Por esto, los investigadores cualitativos no definen sus variables a priori, ni muchomenos, se limitan a variables preconcebidas, como hacen los investigadoresexperimentales, sino que adoptan como estilo una cierta ingenuidad que les permitaver cada aspecto del fenómeno como si fuera nuevo y no familiar y, por lo tanto,potencialmente significativo. De hecho, los datos menos comprensibles resultan luegoser los más significativos. Además, el hecho de que el investigador cualitativo noentra al estudio de campo con un problema completamente planteado o formulado, ocon un grupo explícito de hipótesis por verificar, lo pone en la situación de no saberqué datos serán en fin de cuentas importantes y cuáles no lo serán.

3. Como tercer criterio se hace énfasis en que es sumamente conveniente que losprocedimientos utilizados permitan realizar las observaciones repetidas veces: paraello, habrá que tratar de grabar las entrevistas, filmar las escenas (si es posible),tomar fotografías, hacer anotaciones pormenorizadas de las circunstancias y situaciones,conservar todos los documentos y hacer, incluso, varias copias de los principales, etc.

4. En cuarto lugar, conviene señalar que, aunque la investigación cualitativa usa muchostipos de información, la que más busca es aquella que mayor relación tenga y másayude a descubrir las estructuras significativas que dan razón de la conducta de lossujetos en estudio.

5. En quinto lugar, es necesario distinguir o contrastar la modalidad de cómo otrosinvestigadores recogen los datos sobre un tópico particular, es decir, a través deinstrumentos especialmente diseñados para sus fines, y cómo lo hace el investigadorcualitativo en su propio campo, generalmente sumergiéndose en el medio que quierecomprender, de tal manera que, brevemente, pudiera definirse su trabajo de campocomo la tarea de "vivir su propia vida dentro de otra cultura" (Wolcott, 1975, p. 121).

6. Finalmente, conviene señalar otro criterio más de apreciación, que viene a respondera una objeción frecuente: es un hecho que el observador interactúa con el medioobservado y, así, afecta la realidad observada disminuyendo su apreciación "objetiva".Pero, ¿qué concepto tenemos sobre lo que constituye la objetividad científica? Elinvestigador cualitativo no tiene miedo de ser parte de la situación que estudia, de quesu presencia parezca "contaminar" los datos, ya que considera imposible recogerdatos "absolutos" o "neutrales"; pero trata de tenerlo todo en cuenta, de evaluarlotodo, como el físico que tiene en cuenta la temperatura del termómetro que usa. Él

135

MIGUEL MARTÍNEZ M.

sabe que es uno de los actores de la escena; pero el modelo científico que sigue no esel de las ciencias naturales clásicas, sino el de la física moderna, que tiene en cuentala relatividad general de Einstein y el principio de incertidumbre de Heisenberg, enlos cuales el efecto disturbador de la observación sobre lo que es observado se integraen la investigación y en la teoría que de ella se genera.

Estos seis criterios sobre el sistema de un adecuado acopio y manejo de los datos cualitativos,asegura un alto nivel de validez y provee también la base para una cierta forma deconfiabilidad o replicabilidad de la investigación.

MÉTODOS CUALITATIVOS

Como la metodología es, por definición, el camino a seguir para alcanzar conocimientosseguros y confiables y, en el caso de que éstos sean demostrables, también ciencia, laelección de una determinada metodología implica la aceptación de un concepto de"conocimiento" y de "ciencia", es decir, una opción epistemológica (teoría del conocimiento)previa; pero esta opción va acompañada, a su vez, por otra opción, la opción ontológica(teoría sobre la naturaleza de la realidad). La metodología cualitativa está muy conscientede estas dos opciones.

El método cualitativo específico, que se vaya a emplear dependerá de la naturaleza de laestructura a estudiar. La metodología cualitativo-sistémica dispone de una serie de métodos,cada uno de los cuales es más sensible y adecuado que otro para la investigación de unadeterminada realidad. A continuación, ilustramos la idea central que los caracteriza y diferencia.(Ver los detalles de 12 métodos en Martínez, 2004a, aquí agrupados por su idea central).

Métodos hermenéuticos. En sentido amplio, éstos son los métodos que usa, consciente oinconscientemente, todo investigador y en todo momento, ya que la mente humana es, porsu propia naturaleza, interpretativa, es decir, hermenéutica: trata de observar algo y buscarlesignificado. En sentido estricto, se aconseja utilizar las reglas y procedimientos de estosmétodos cuando la información recogida (los datos) necesiten una continua hermenéutica,como sería el caso, por ejemplo, del estudio del crimen organizado, de la dinámica delnarcotráfico, de los sujetos paranoicos, etc., donde la información que se nos ofrece puedetratar expresamente de desorientar o engañar. Sin embargo, estos métodos tienen un áreade aplicación mucho más amplia: son adecuados y aconsejables, siempre que los datos o laspartes de un todo se presten a diferentes interpretaciones.

Métodos fenomenológicos. Estos métodos son los más indicados cuando no hay razonespara dudar de la bondad y veracidad de la información y el investigador no ha vivido ni lees nada fácil formarse ideas y conceptos adecuados sobre el fenómeno que estudia por estarmuy alejado de su propia vida, como, por ejemplo, el mundo axiológico de los drogadictoso de los homosexuales, las vivencias de las personas en situaciones de vida extremas, laruptura de una relación amorosa cuando no se ha vivido, una experiencia cumbre (Maslow,1970), etc.

Métodos etnográficos. Son los de mayor preferencia para entrar a conocer un grupo étnico,racial, de ghetto o institucional (tribu, raza, nación, región, cárcel, hospital, empresa,escuela, y hasta un aula escolar, etc.) que forman un todo muy sui géneris y donde losconceptos de las realidades que se estudian adquieren significados especiales: las reglas,

136


normas, modos de vida y sanciones son muy propias del grupo como tal. Por esto, esosgrupos piden ser vistos y estudiados globalmente, ya que cada cosa se relaciona con todaslas demás y adquiere su significado por esa relación. De ahí que la explicación exigetambién esa visión global.

El método de investigación-acción. Es el único indicado cuando el investigador no sóloquiere conocer una determinada realidad o un problema específico de un grupo, sino quedesea también resolverlo. En este caso, los sujetos investigados participan comocoinvestigadores en todas las fases del proceso: planteamiento del problema, recolecciónde la información, interpretación de la misma, planeación y ejecución de la acción concretapara la solución del problema, evaluación posterior sobre lo realizado, etc. El fin principalde estas investigaciones no es algo exógeno a las mismas, sino que está orientado hacia laconcientización, desarrollo y emancipación de los grupos estudiados y hacia la solución desus problemas.

Recolección de la información. Los instrumentos, al igual que los procedimientos yestrategias a utilizar, los dicta el método escogido, aunque, básicamente, se centran alrededorde la observación participativa y la entrevista semiestructurada. Hay que describir los quese vayan a utilizar y justificarlos. Sin embargo, la metodología cualitativa entiende elmétodo y todo el arsenal de medios instrumentales como algo flexible, que se utilizamientras resulta efectivo, pero que se cambia de acuerdo al dictamen, imprevisto, de lamarcha de la investigación y de las circunstancias.

La muestra a estudiar. Cada uno de los métodos cualitativos (que exponemos detalladamenteen otras obras nuestras: 1996b, 1998, 2004, y artículos en nuestra página Web) tiene suforma propia de entender la muestra que nos ofrecerá la información necesaria para realizarla investigación. Pero, en general, la opción ontológica asumida por todos ellos (que esestructural-sistémica) nos exige una muestra que no podrá estar constituida por elementosaleatorios descontextualizados (como es, la mayoría de las veces, la información recogidaa través de cuestionarios preconcebidos), sino por "un todo" sistémico con vida propia,como es una persona, una institución, una etnia o grupo social, etc. Por ello, se impone laprofundidad sobre la extensión y la muestra se reduce en su amplitud numérica, y seexplicitan los criterios conceptuales para su escogencia, según su relevancia para losobjetivos de la investigación. Sin embargo, conviene escogerla de forma que esténrepresentadas de la mejor manera posible las variables de sexo, edad, nivel socioeconómico,profesión, etc., según el caso, ya que su información puede ser diferente y hasta contrastante.

La elección de la muestra es de primera importancia, no por lo que representa en sí, sino porla filosofía de la ciencia y los supuestos que implica. De su correcta comprensión depende elsignificado de toda la investigación. La elección de la muestra dependerá de lo que pensamoshacer con ella y de lo que creemos que se puede hacer con ella. Generalmente, la cienciabusca leyes, conclusiones legaliformes o regularidades, es decir, conocimientos que seanuniversales o que se puedan generalizar a grupos de casos, personas, poblaciones o situaciones.

A todos nos consta que diferentes personas en diversas posiciones refieren como "los hechos"su versión sobre la misma realidad, y que también varían esa misma información cuandohablan con personas diferentes. Más aún, la misma información puede cambiar continuamentecuando se cambia de grupo informante, y varios documentos sobre el mismo tópico puedenllegar a ser contradictorios.

137

MIGUEL MARTÍNEZ M.

La credibilidad de la información puede variar mucho: los informantes pueden mentir,omitir datos relevantes o tener una visión distorsionada de las cosas. Será necesariocontrastarla, corroborarla o cruzarla con la de otros, recogerla en tiempos diferentes, usartécnicas de triangulación (combinación de diferentes métodos y fuentes de datos), etc.;conviene, por lo tanto, que la muestra de informantes represente en la mejor forma posiblelos grupos, orientaciones o posiciones de la población estudiada, como estrategia paracorregir distorsiones perceptivas y prejuicios y porque toda realidad humana es poliédrica,tiene muchas caras. Como ya recordamos, Aristóteles decía que "el ser no se da nunca anadie en su totalidad, sino sólo según ciertos aspectos y categorías" (Metafísica, Lib. iv).

Los tipos de muestras son, básicamente, dos: la muestra estadística o probabilista y lamuestra intencional o basada en criterios. Conviene señalar que toda muestra, también laestadística, es siempre intencional o se basa en criterios, aunque diferentes.

En la muestra estadística se extrae, de una población o universo bien definidos, un subgrupo,usando como criterio la condición de que todo miembro tenga exactamente la mismaprobabilidad de ser elegido. Igualmente, se procura que los estratos sociales ysocioeconómicos, la raza, el sexo y demás grupos naturales queden proporcionalmenterespetados. Sin embargo, de acuerdo al interés del investigador, la muestra puede sertransversal, longitudinal, de cohorte, de panel, etc.

En la investigación cualitativa, la muestra estadística se considera inapropiada en lossiguientes casos: cuando no han sido identificadas todavía las características de la poblaciónmás amplia, cuando los grupos no están bien delimitados, cuando no se busca la generalizacióncomo objetivo importante, cuando las características a estudiar están distribuidas en formadesigual entre los grupos, cuando sólo algunas características de la población son relevantespara el problema en estudio, cuando el investigador no tiene acceso a toda la población.

En la muestra intencional se elige una serie de criterios que se consideran necesarios oaltamente convenientes para tener una unidad de análisis con las mayores ventajas para losfines que persigue la investigación. Por ello, se suelen eliminar los casos atípicos o muypeculiares y calibrar muy bien la influencia de todo lo que tiene carácter excepcional; sinembargo, se procura que la muestra represente lo mejor posible los subgrupos naturales,como se indicó para la muestra estadística, y que se complementen y equilibrenrecíprocamente. Es decir, se trata de buscar una muestra que sea comprehensiva y quetenga, a su vez, en cuenta los casos negativos o deviantes, pero haciendo énfasis en loscasos más representativos y paradigmáticos y explotando a los informantes clave (personascon conocimientos especiales, estatus y buena capacidad de información). En conclusión, elinvestigador tratará de imitar al buen fotógrafo, que busca los mejores ángulos para capturarla mayor riqueza de la realidad que tiene delante.

PROCEDIMIENTOS E INSTRUMENTOS A UTILIZAR

Como ya señalamos, los instrumentos, al igual que los procedimientos y estrategias autilizar, los dicta el método escogido, aunque, básicamente, se centran alrededor de laobservación directa o participativa y la entrevista semi-estructurada y.

En la actualidad, el investigador con metodología cualitativa, para facilitar el proceso decorroboración estructural, cuenta con dos técnicas muy valiosas: la "triangulación" (de

138


diferentes fuentes de datos, de diferentes perspectivas teóricas, de diferentes observadores,de diferentes procedimientos metodológicos, etc.) y las grabaciones de audio y de vídeo,que le permitirán observar y analizar los hechos repetidas veces y con la colaboración dediferentes investigadores.

Si nuestros procedimientos metodológicos deben orientarse hacia el descubrimiento de lasestructuras personales o grupales, será necesario tener muy presentes las formas en que serevelan o expresan dichas estructuras. Las técnicas más usadas se centran ordinariamenteen el lenguaje hablado o escrito; pero el lenguaje sirve tanto para revelar lo que pensamosy sentimos como también para ocultarlo. Existe, sin embargo, un "lenguaje natural" másuniversal, el lenguaje no verbal, que es un lenguaje de signos expresivos, como el que semanifiesta a través de los ojos, la mímica, la expresión facial, los movimientos, gestos yposiciones del cuerpo y de sus miembros, el acento, el timbre y el tono de la voz, etc., quedepende del sistema nervioso autónomo, es involuntario y casi siempre inconsciente, ycontribuye de manera muy eficaz a precisar el verdadero sentido de las palabras, reforzándoloo, quizá, desmintiéndolo.

El investigador cualitativo está muy de acuerdo con la famosa afirmación de Protágoras:"El hombre es la medida de todas las cosas". En efecto, el hombre crea, evalúa y arreglalos mismos instrumentos que utiliza, y debe juzgar su buen o mal funcionamiento y lacredibilidad de sus datos. En el caso de las investigaciones cualitativas, sin despreciar laayuda que pueden ofrecerle muchos buenos instrumentos, el observador frecuentemente seconvierte en su principal instrumento.

La observación participativa

Ésta es la técnica clásica primaria y más usada por los investigadores cualitativos paraadquirir información. Para ello, el investigador vive lo más que puede con las personas ogrupos que desea investigar, compartiendo sus usos, costumbres, estilo y modalidades devida. Para lograr esto, el investigador debe ser aceptado por esas personas, y sólo lo será enla medida en que sea percibido como "una buena persona", franca, honesta, inofensiva ydigna de confianza. Al participar en sus actividades corrientes y cotidianas, va tomandonotas de campo pormenorizadas en el lugar de los hechos o tan pronto como le sea posible.Estas notas son, después, revisadas periódicamente con el fin de completarlas (en caso deque no lo estén) y, también, para reorientar la observación e investigación.

Ya que la mayoría de los acontecimientos son expresados o definidos con estructuraslingüísticas particulares, es crucial que el investigador se familiarice con las variacionesdel lenguaje y del argot o jerga usados por los participantes, sobre todo cuando éstos sonjóvenes. Es, además, importante recoger las historias, anécdotas y mitos que constituyencomo el trasfondo cultural-ideológico que da sentido y valor a sus cosas, ya que determinanlo que es importante o no importante, cómo las personas se ven unas a otras y cómo evalúansu participación en los grupos y programas.

¿Qué es, concretamente, lo que el investigador debe hacer al compartir y sumergirse en unaobservación participativa? Podríamos sintetizar su actividad con el siguiente esquema: elinvestigador cualitativo debe tratar de responder a las preguntas de quién, qué, dónde, cuándo,cómo y por qué alguien hizo algo; es decir, se consideran importantes los detalles. Esteconjunto de interrogantes centran su actividad en la ubicación de los datos más significativos,

139

MIGUEL MARTÍNEZ M.

que le servirán después para la interpretación adecuada de los hechos o acontecimientos.También es importante que las expresiones más valiosas y típicas sean recogidas literalmente,para citarlas después entre comillas como testimonio de las realidades observadas.

Además de recoger los datos de la vida diaria, especialmente si se estudia un grupo humano,se debe prestar un cuidado esmerado a los eventos especiales, que serán diferentes deacuerdo a la naturaleza del grupo en estudio: una boda, un rito religioso, un juicio, unagraduación, un torneo, un campeonato, una fiesta, un funeral, etc. El análisis de estoseventos manifiesta o revela la estructura o patrón sociocultural de un sistema más ampliodel cual forma parte, ya que los eventos especiales se pueden considerar como imágenesque reflejan las estructuras de los grupos, cómo continúan existiendo y por qué perpetúan suexistencia. También merecen una atención particular los incidentes clave (riñas, peleas,etc.) por su capacidad informativa.

Como las anotaciones de campo nunca pueden ser muy pormenorizadas, sino, más bien,abreviadas y esquemáticas, conviene detallarlas o ampliarlas el mismo día o al día siguiente,de lo contrario perderán su capacidad de información. Un modo práctico de hacerlo conrapidez consiste en grabar en una cinta un amplio comentario, bien pensado, de las anotacionestomadas. Estas anotaciones concretas y situacionales serán, además, un testimonio real dela honestidad y "objetividad" de la investigación.

La entrevista semiestructurada

La entrevista, en la investigación cualitativa, es un instrumento técnico que tiene gransintonía epistemológica con este enfoque y también con su teoría metodológica.

Esta entrevista adopta la forma de un diálogo coloquial o entrevista semiestructurada,complementada, posiblemente, con algunas otras técnicas escogidas entre las señaladas ennuestras obras (1996, 1998, 2004a) y de acuerdo con la naturaleza específica y peculiar de lainvestigación a realizar. Por esto, vamos a justificar e ilustrar esta técnica con mayor detalle.

La gran relevancia, las posibilidades y la significación del diálogo como método deconocimiento de los seres humanos, estriba, sobre todo, en la naturaleza y calidad delproceso en que se apoya. A medida que el encuentro avanza, la estructura de la personalidaddel interlocutor va tomando forma en nuestra mente; adquirimos las primeras impresionescon la observación de sus movimientos, sigue la audición de su voz, la comunicación noverbal (que es directa, inmediata, de gran fuerza en la interacción cara a cara y, a menudo,previa a todo control consciente) y toda la amplia gama de contextos verbales por medio delos cuales se pueden aclarar los términos, descubrir las ambigüedades, definir los problemas,orientar hacia una perspectiva, patentizar los presupuestos y las intenciones, evidenciar lairracionalidad de una proposición, ofrecer criterios de juicio o recordar los hechos necesarios.El contexto verbal permite, asimismo, motivar al interlocutor, elevar su nivel de interés ycolaboración, reconocer sus logros, prevenir una falsificación, reducir los formalismos, lasexageraciones y las distorsiones, estimular su memoria, aminorar la confusión o ayudarlea explorar, reconocer y aceptar sus propias vivencias inconscientes. Y en cada una de estasposibles interacciones también es posible decidir la amplitud o estrechez con que debeplantearse el problema, si una pregunta debe estructurarse en su totalidad o dejarse abierta,y hasta qué punto resulta conveniente insinuar una solución o respuesta (ver los detallestécnicos en Martínez M., 1996, 1998, 1999c [cap.12], 2004a).

140


Así entendida, la técnica de la entrevista es, en gran medida, un arte; sin embargo,lógicamente, las actitudes que intervienen en ese arte son, hasta cierto punto, susceptiblesde ser enseñadas y aprendidas; como ocurre en muchos otros campos de la actividad humana,sólo se requiere disposición e interés en aprender.

Kvale (1996) señala que el propósito de la entrevista de investigación cualitativa es obtenerdescripciones del mundo vivido por las personas entrevistadas, con el fin de lograrinterpretaciones fidedignas del significado que tienen los fenómenos descritos. Para ellonos ofrece una guía con diferentes rasgos que caracterizan la entrevista. Igualmente, elmismo autor nos ofrece otros criterios que señalan la preparación o calificación que debetener o adquirir un buen entrevistador.

Esta etapa de la investigación cualitativa finalizará cuando se haya recogido y descrito unbuen conjunto de material protocolar (primario), en entrevistas, observaciones, grabacionesy anotaciones, que se considere suficiente para emprender una sólida categorización oclasificación que, a su vez, pueda nutrir un buen análisis, interpretación y teorización yconducir a resultados valiosos. Esta segunda etapa, con sus diferentes fases, la describimosen forma detallada en nuestra obra Ciencia y Arte (2004a).

ETAPAS DE LA ESTRUCTURACIÓN

Esta segunda parte tiene por finalidad describir las etapas y procesos que permitirán laemergencia de la posible estructura teórica, "implícita" en el material recopilado en lasentrevistas, observaciones de campo, grabaciones, filmaciones, etc. El proceso completoimplica la categorización, la estructuración propiamente dicha, la contrastación y lateorización. Al reflexionar y concentrarse en la información, en esa contemplación, iránapareciendo en nuestra mente las categorías o las expresiones que mejor las describen y laspropiedades o atributos más adecuados para especificarlos y, poco a poco, también laestructura teórica que los integra en un todo coherente y lógico.

Categorización

Si la información señalada, que constituye el material primario o protocolar, es lo máscompleta y detallada posible, la etapa de la categorización o clasificación exige una condiciónprevia: el esfuerzo de "sumergirse" mentalmente, del modo más intenso posible, en larealidad ahí expresada.

Cada nueva revisión del material escrito, audición de los diálogos o visión de las escenasfilmadas, nos permitirá captar aspectos o realidades nuevos, detalles, acentos o matices novistos con anterioridad o no valorados suficientemente y que, ahora, quizá con otro enfoque ocontexto, son determinantes y parecen cambiar o enriquecer el significado. En la práctica, encada revisión del material disponible es útil ir haciendo anotaciones marginales, subrayandolos nombres, verbos, adjetivos, adverbios o expresiones más significativos y que tienen mayorpoder descriptivo, poniendo símbolos pictográficos, nemónicos o numéricos, elaborandoesquemas de interpretación posible, diseñando y rediseñando los conceptos de manera constante.

Ahora se trata de "categorizar" o clasificar las partes en relación con el todo, de asignarcategorías o clases significativas, de ir constantemente integrando y reintegrando el todo y

141

MIGUEL MARTÍNEZ M.

las partes, a medida que se revisa el material y va emergiendo el significado de cadasector, evento, hecho o dato. Categorizar es clasificar, conceptualizar o codificar medianteun término o expresión breve que sean claros e inequívocos (categoría descriptiva), elcontenido o idea central de cada unidad temática; una unidad temática puede estar constituidapor uno o varios párrafos o escenas audiovisuales.

Estructuración

Toda observación de "algo" es "de ese algo" porque preexisten unos factores estructurantesdel pensamiento, una realidad mental fundante o constituyente, un trasfondo u horizonteprevio en los cuales se inserta y que le dan un sentido. Si ese marco referencial falta, laobservación no es tal, el dato no es dato y el hecho no es nada. Son realidades neutras oplenamente ambiguas.

Todo esto hace que el investigador se aproxime a cualquier expresión de la vida humana, nocon la famosa tabula rasa de Locke, sino con expectativas y prejuicios sobre lo que pudieraser el objeto observado. Debido a ello, la interpretación implica una "fusión de horizontes",una interacción dialéctica entre las expectativas del intérprete y el significado de un textoo acto humano. En términos de la psicología de la Gestalt, aunque no siempre, diríamos quela realidad exterior tiende a sugerirnos la figura, mientras que nosotros le ponemos el fondo(contexto, horizonte, marco teórico).

Heidegger sostiene que "ser humano es ser interpretativo"; es decir, que la interpretación,más que un "instrumento" para adquirir conocimientos, es el modo natural de ser de losseres humanos, y todos los intentos cognoscitivos para desarrollar conocimientos no sonsino expresiones de la interpretación sucesiva del mundo.

Por todo ello, es fácil comprender que el proceso de estructuración y teorización constituyencomo el corazón de la actividad investigativa: ilustran el procedimiento y el producto de laverdadera investigación, es decir, cómo se produce la estructura o síntesis teórica de todoel trabajo y, también, cómo se evalúa.

Una metodología adecuada para descubrir estructuras teóricas no puede consistir en unprocedimiento típicamente lineal, sino que sigue básicamente un movimiento en espiral,del todo a las partes y de las partes al todo, aumentando en cada vuelta el nivel de profundidady de comprensión. La visión del todo da sentido a las partes y la comprensión de éstasmejora la del todo: conociendo el bosque se comprenden mejor los árboles y, captando lasparticularidades de éstos, se mejora la comprensión del bosque.

El proceso de estructuración nos lleva, generalmente, a usar metáforas y analogías. Aunquelas analogías y los modelos han constituido incuestionablemente una fecunda fuente deteorías científicas, conviene señalar también el peligro que representa su mal uso. Hayanalogías fructuosas, pero también engañosas; esto sucede cuando no hay homologíaestructural entre la realidad simbolizante y la simbolizada.

El mejor modo de comenzar la estructuración es seguir el proceso de integración de categoríasmenores o más específicas en categorías más generales y comprehensivas. En última instancia,la estructura podría considerarse como una "gran categoría", más amplia, más detallada ymás compleja, como el tronco del árbol que integra y une todas las ramas. Igualmente,debe considerarse como una ayuda inestimable la elaboración frecuente de diseños gráficos

142


(con flechas, tipos de nexos, relaciones, etc.), ya que permiten integrar y relacionar muchascosas y ayudan a captarlas en forma simultánea.

Contrastación

Esta etapa de la investigación consistirá en relacionar y contrastar sus resultados conaquellos estudios paralelos o similares que se presentaron en el marco teórico referencial,para ver cómo aparecen desde perspectivas diferentes o sobre marcos teóricos más ampliosy explicar mejor lo que el estudio verdaderamente significa.

Aunque el "marco teórico referencial" sólo nos informa de lo que han realizado otraspersonas, en otros lugares, en otros tiempos y, quizá, también con otros métodos, sinembargo, el comparar y contraponer nuestras conclusiones con las de otros investigadores,igualmente rigurosos, sistemáticos y críticos, no sólo nos permitirá entender mejor lasposibles diferencias, sino que hará posible una integración mayor y, por consiguiente, unenriquecimiento del cuerpo de conocimientos del área estudiada, como se verá en el sectorsiguiente de la teorización.

Debido a esto, habrá que tener muy presente que el proceso de categorización, análisis einterpretación, deberá estar guiado fundamentalmente por conceptos e hipótesis que provengano emerjan de la información recabada y de su contexto propio, que muy bien pudieran serúnicos, y no de teorías exógenas, las cuales sólo se utilizarán para comparar y contrastarlos resultados propios.

Esta comparación y contrastación pudieran llevarnos hacia la reformulación, reestructuración,ampliación o corrección de construcciones teóricas previas, logrando con ello un avancesignificativo en el área; es decir, que algunas teorizaciones ya existentes cumplirían engran parte la función de proveer algunas líneas directrices para interpretar los nuevosdatos.

De aquí se deriva la importancia que tiene el diálogo con los autores que nos han precedidoen nuestra área de estudio, no para seguir ciegamente lo que ellos digan (marco teóricodogmático), sino para corregir, mejorar, ampliar o reformular nuestras conclusiones; esdecir, para enfocarlas desde otros puntos de vista y con el uso de otras categorías, lo cualenriquecerá y profundizará nuestra comprensión de lo que estamos estudiando.

Teorización

Einstein solía decir que "la ciencia consiste en crear teorías". Pero una teoría es un modonuevo de ver las cosas, y puede haber muchos modos diferentes de verlas.

El proceso de teorización utiliza todos los medios disponibles a su alcance para lograr lasíntesis final de un estudio o investigación. Más concretamente, este proceso tratará deintegrar en un todo coherente y lógico, los resultados de la investigación en curso, mejorándolocon los aportes de los autores reseñados en el marco teórico referencial después del trabajode contrastación.

En el campo de las ciencias humanas, la construcción y reconstrucción, la formulación yreformulación de teorías y modelos teóricos o de alguna de sus partes, mediante elementos

143

MIGUEL MARTÍNEZ M.

estructurales de otras construcciones teóricas, es el modo más común de operar y de haceravanzar estas ciencias.

Einstein mismo llegó a afirmar en repetidas ocasiones que su teoría de la relatividadespecial no encontró entidades aisladas ni hechos anteriormente desconocidos, ya que todossus elementos (los conceptos de espacio, tiempo, materia, fuerza, energía, partículas,gravitación, onda, corpúsculo, velocidad y otros) estaban en el ambiente desde hacía cincuentaaños; lo que él propuso fue una nueva manera de clasificar y relacionar cosas ya conocidas.Y Leibniz afirmó: "mi sistema toma lo mejor de todas partes".

La mayoría de los investigadores manifiestan dificultades en describir qué es lo que hacencuando teorizan; pero un análisis cuidadoso de sus actividades mentales hará ver que sonsimilares a las actividades cotidianas de una persona normal: las actividades formales deltrabajo teorizador consisten en percibir, comparar, contrastar, añadir, ordenar, establecernexos y relaciones y especular; es decir, que el proceso cognoscitivo de la teorizaciónconsiste en descubrir y manipular categorías y las relaciones entre ellas.

La transición de los datos a la teoría requiere de imaginación creadora. Popper observa quelas teorías son el "resultado de una intuición casi poética" (1963, p. 192). Las hipótesis yteorías científicas no se derivan de los hechos observados, sino que se inventan para darcuenta de ellos; son conjeturas relativas a las conexiones que se pueden establecer entre losfenómenos estudiados y las uniformidades y regularidades que subyacen a éstos. Las"conjeturas felices" de este tipo requieren gran inventiva, especialmente si suponen unadesviación radical de los modos ordinarios del pensamiento científico, como ocurrió conlas grandes teorías que fundamentan a cada una de las ciencias.

Einstein precisa que "están en un error aquellos teóricos que creen que la teoría se obtieneinductivamente a partir de la experiencia" (Hanson, 1977, p. 229). Al contrario, una teoríaes una construcción mental simbólica, verbal o icónica, de naturaleza conjetural o hipotética,que nos obliga a pensar de un modo nuevo al completar, integrar, unificar, sistematizar ointerpretar un cuerpo de conocimientos que hasta el momento se consideraban incompletos,imprecisos, inconexos o intuitivos.

La teoría es, por tanto, un modelo ideal, sin contenido observacional directo, que nosofrece una estructura conceptual inteligible, sistemática y coherente para ordenar losfenómenos; de manera más concreta, suele consistir en un sistema de hipótesis, fórmulaslegaliformes y hasta leyes ya establecidas, de modo que su síntesis puede incluir desde loplenamente conocido hasta lo meramente sospechado.

CONCLUSIÓN

Knapp (1986) puntualiza muy bien, como resumen, de toda la Metodología Cualitativa, lasactitudes con que debe proceder el investigador cualitativo:

1. Un enfoque inicial exploratorio y de apertura mental ante el problema a investigar.

2. Una participación intensa del investigador en el medio social a estudiar.

3. Uso de técnicas múltiples e intensivas de investigación con énfasis en la observaciónparticipativa y en la entrevista con informadores clave.

144


4. Un esfuerzo explícito para comprender los eventos con el significado que tienen paraquienes están en ese medio social.

5. Un marco interpretativo que destaca el papel importante del conjunto de variables ensu contexto natural para la determinación de la conducta, y que pone énfasis en lainterrelación global y ecológica de la conducta y de los eventos dentro de un sistemafuncional.

6. Resultados escritos en los que se interpretan los eventos de acuerdo con los criteriosseñalados y se describe la situación con riqueza de detalles y tan vívidamente que ellector pueda tener una vivencia profunda de lo que es esa realidad.

7. Para las demás áreas (métodos y técnicas) de la Metodología Cualitativa, remitimosal lector a revisar la bibliografía que sigue y, de una manera particular, nuestraúltima obra (2004a) que creemos muy completa y actualizada.

REFERENCIAS BIBLIOGRÁFICAS

1. Allport, G. (1966). La personalidad: su configuración y desarrollo. Barcelona:Herder.

2. Aristóteles (1973). Obras completas. Madrid: Aguilar.

3. Barker, R. G. (1968). Ecological psychology. California: Stanford University Press.

4. Bertalanffy, L. von (1981). «Historia y situación de la teoría general de sistemas», enBertalanffy, L. von y otros, Tendencias en la teoría general de sistemas. Madrid:Alianza.

5. Bogdan, R. y S. J., Taylor (1978). Introduction to Qualitative Research Methods.Nueva York: Wiley.

6. Bogdan, R. y Biklen S. (1982). Qualitative research for education: an introduction

to theory and methods. Boston: Allyn Bacon.

7. Bridgman, P. (1927). The logic of modern physics. Nueva York: Macmillan.

8. Cook, T. y Reichardt, C. (1986). Métodos cualitativos y cuantitativos en investigación

evaluativa. Madrid: Morata

9. Davies, J. T. (1973). The Scientific Approah. Londres: Academic Press.

10. Dilthey, W. (1976). "The rise of hermeneutics", 1900. En Connerton, P. (dir), Critical

sociology. Nueva York: Penguin.

11. Eccles, J.C. y Popper, K. (1985). El yo y su cerebro. Barcelona: Labor

12. Gadamer, H. G. (1984). Verdad y método: fundamentos de una hermenéutica

filosófica. Salamanca: Sígueme.

13. Habermas, J. (1982). Conocimiento e interés. Madrid: Taurus.

14. Hanson, N. R. (1977). Patrones de descubrimiento. Observación y explicacion. Madrid:Alianza Universidad.


CONTENIDO 8

_____________________________________________________________________________________________ www.epidemiolog.net, © Victor J. Schoenbach 14. Análisis e interpretación de datos – 451 rev. 11/8/1998, 10/26/1999, 12/26/1999, trad. 7.7.2004

14. Análisis e interpretación de datos

Conceptos y técnicas para manejar, editar, analizar e interpretar los datos de estudios epidemiológicos.

Conceptos claves/expectativas

Este capítulo contiene una gran cantidad de material y va más allá de lo que se espera que tú aprendas en este curso (i.e., para preguntas de examen.) Sin embargo, los temas estadísticos impregnan los estudios epidemiológicos, y puedes encontrar que parte del material que sigue puede serte útil cuando leas la literatura. De manera que si te parece que te estás perdiendo y empiezas a preguntarte que es lo que se supone que debes aprender, por favor toma como referencia la siguiente lista de conceptos que esperamos que logres adquirir:

La necesidad de editar los datos antes de emprender un análisis en serio y captar los errores lo antes posible.

Opciones para limpiar los datos – verificación de rangos, verificación de consistencia – y lo que estos pueden (y no pueden) lograr.

Qué significa la codificación de los datos y porqué se realiza.

Significado básico de varios términos usados para caracterizar los atributos matemáticos de distintos tipos de variables, i.e., nominal, dicotómica, categórica, ordinal, de medición, conteo, discreta, intervalo, razón, continua. Reconocer ejemplos de diferentes tipos de variables y ventajas/desventajas de tratarlas de diferentes maneras.

Qué significa una variable “derivada” y diferentes tipos de variables derivadas.

Los objetivos de las pruebas de hipótesis estadísticas (“pruebas de significancia”), el significado de los resultados de dichas pruebas y cómo interpretar un valor p.

Qué es un intervalo de confianza y cómo debe ser interpretado.

Los conceptos de error de Tipo I y error de Tipo II, nivel de significancia, nivel de confianza, “potencia” estadística, precisión estadística, y la relación entre estos conceptos y el tamaño muestral.

El cálculo de valores p, intervalos de confianza, potencia o tamaño muestral no será requerido en los exámenes. La prueba exacta de Fisher, pruebas asintóticas, tablas z, pruebas de 1 o 2 colas, correlación dentro del cluster, enfoques Bayesianos versus los frecuentistas, meta-análisis, e interpretación de pruebas de significancia múltiple son todos simplemente para tu información y disfrute, en cuanto a lo que tiene que ver con EPID 168, no para los exámenes. En general, yo promuevo un enfoque no dogmático a la estadística (advierto que no soy un estadístico “licenciado”!)


Análisis e interpretación de datos

Los epidemiólogos a menudo hallan el análisis de los datos como la parte más disfrutable de llevar a cabo un estudio epidemiológico, dado que después de todo el duro trabajo y la espera, tienen la oportunidad de encontrar las respuestas. Si los datos no proveen respuestas, es una oportunidad más para la creatividad! De manera que el análisis y la interpretación de los resultados son el “premio” que recompensa el trabajo de recolección de datos.

Los datos, sin embargo, no “hablan por sí mismos”. Revelan lo que el analista puede detectar. De manera que cuando el investigador novato, tratando de obtener esta recompensa, se encuentra sólo con el conjunto de datos y ninguna idea de como proceder, la sensación puede ser una de más ansiedad que de entusiasta anticipación. Igual que con otros aspectos de un estudio, el análisis e interpretación del estudio debe relacionarse con los objetivos del mismo y el problema de investigación. Una estrategia, a menudo útil, es comenzar imaginando o hasta trazando el (los) manuscrito(s) que deberían escribirse a partir de los datos.

El enfoque habitual es comenzar con los análisis descriptivos, explorar y lograr “sentir” los datos. El analista luego dirige su atención a las preguntas específicas planteadas en los objetivos o hipótesis de estudio, de los hallazgos y planteos informados en la literatura, y de los patrones sugeridos por los análisis descriptivos. Antes de comenzar el análisis en serio, sin embargo, habitualmente hay que llevar a cabo una cantidad considerable de trabajo preparatorio.

Análisis – objetivos principales 1. Evaluar y realzar la calidad de los datos

2. Describir la población de estudio y su relación con alguna supuesta fuente (justificar todos los pacientes potenciales involucrados; comparación de la población de estudio obtenida con la población blanco)

3. Evaluar la posibilidad de sesgos (p.ej., no-respuesta, negativa a contestar, y desaparición de sujetos, grupos de comparación)

4. Estimar las medidas de frecuencia y extensión (prevalencia, incidencia, media, mediana)

5. Estimar medidas de fuerza de asociación o efecto

6. Evaluar el grado de incertidumbre a partir del azar (“ruido”)

7. Controlar y analizar los efectos de otros factores relevantes

8. Buscar una mayor comprensión de las relaciones observadas o no observadas

9. Evaluar el impacto o importancia


Trabajo preparatorio – Edición de datos

En un estudio bien ejecutado, el plan de recolección de datos incluye procedimientos, instrumentos, y formularios, diseñados y ensayados para maximizar su precisión. Todas las actividades de recolección de datos son monitorizadas para asegurar la adherencia al protocolo de recolección de datos y para promover acciones para minimizar y resolver situaciones de datos faltantes o cuestionables. Los procedimientos de monitorización son establecidos al inicio y mantenidos durante todo el estudio, dado que cuanto antes se detecten las irregularidades, mayor la probabilidad de que puedan ser resueltas de manera satisfactoria y más precozmente se puedan establecer medidas preventivas.

Sin embargo, a menudo hay necesidad de “editar” los datos, tanto antes como después de computarizarlos. El primer paso es “manual” o “edición visual”. Antes de digitar los formularios (salvo que los datos sean entrados en la computadora en el momento de recolección, p.ej., a través de programas como CATI - entrevistas telefónicas asistidas por computadora (computer-assisted telephone interviewing), los formularios deben ser revisados para identificar irregularidades y problemas que pasaron desapercibidos o no fueron corregidos durante el monitoreo.

Las preguntas abiertas, si están presentes, habitualmente necesitan ser codificadas. También puede ser necesaria la codificación de las preguntas cerradas salvo que las respuestas sean “precodificadas” (i.e., tengan un número o letra que corresponda a cada respuesta elegida.) Aún los formularios que sólo tienen preguntas cerradas con respuestas precodificadas pueden requerir codificación en el caso de respuestas poco claras o ambiguas, múltiples respuestas para un solo ítem, comentarios escritos de parte del participante o del recolector de datos, y otras situaciones que puedan surgir. (La codificación será descrita en mayor detalle más adelante.) Es posible, en esta etapa, detectar problemas con los datos (p.ej., respuestas inconsistentes o fuera del rango), pero habitualmente éstas se manejan en forma sistemática en el momento de, o inmediatamente después, de la introducción de los datos en la computadora. La edición visual también presenta una oportunidad para tener una impresión de qué tan bien fueron completados los formularios y con qué frecuencia se presentaron algunos tipos de problemas.

A continuación los formularios de datos serán digitados, típicamente en una computadora personal o una terminal de computadoras para la cual el programador ha diseñado pantallas de entrada de datos con un formato similar al del cuestionario. Sin embargo, cuando el cuestionario o formulario de recolección de datos es corto, los datos pueden ser introducidos directamente en una planilla de datos o aún en un archivo de texto. Un programa específico de entrada de datos a menudo verifica cada valor en el momento en que es introducido, de manera de evitar que se ingresen valores ilegales en la base de datos. Esta acción sirve para evitar errores de digitación, pero también detectará respuestas ilegales en el formulario que pasaron sin detección en la edición visual. Por supuesto que debe existir un procedimiento para manejar estas situaciones.

Dado que la mayor parte de los estudios epidemiológicos recogen grandes cantidades de datos, la monitorización, edición visual, entrada de datos y consiguiente verificación de datos, típicamente son realizadas por múltiples personas, a menudo con distintos niveles de destreza, experiencia y autoridad, durante un período de tiempo prolongado y en múltiples lugares. Los procedimientos de


procesamiento de datos deben tomar estas diferencias en cuenta, de manera que cuando se detectan problemas o surgen preguntas hay una forma eficiente para resolverlos, y además el personal de análisis y/o los investigadores tengan formas de conocer la información obtenida a través de los múltiples pasos del proceso de edición. Técnicas como las de “batching” (agrupar en lotes), en que los formularios y otros materiales se dividen en conjuntos (p.ej., 50 formularios), se cuentan, posiblemente se suman uno o dos campos numéricos, y se rastrean como grupo, sirven para ayudar a disminuir la pérdida de formularios de datos. El control de calidad y la seguridad son siempre temas críticos. Su cumplimiento se vuelve tanto más complejo cuanto mayor el número de personal participante y cuanto más diversa su experiencia.

Trabajo preparatorio - limpieza de datos

Una vez que los datos son introducidos en la computadora y son verificados (pueden verificarse por introducción por dos personas o por verificación visual) son sometidos a una serie de verificaciones por la computadora para “limpiarlos”.

Verificación de rangos

La verificación de rango compara cada dato con un conjunto de valores permitidos y usuales para esa variable. La verificación de rango se usa para:

1. Detectar y corregir valores no válidos

2. Identificar e investigar valores inusuales

3. Señalar valores atípicos o extremos (“outliers”) (aún si son correctos, su presencia puede influir sobre los métodos estadísticos a utilizar)

4. Verificar la lógica de las distribuciones y también apreciar sus formas, dado que esto también afectará la selección de procedimientos estadísticos

Verificación de la consistencia

La verificación de la consistencia examina cada par (a veces más) de datos relacionados, en relación con el conjunto de valores habituales y permitidos de las variables como par. Por ejemplo, los hombres no deben haber tenido una histerectomía. Los estudiantes universitarios habitualmente tienen por lo menos 18 años (aunque pueden haber excepciones, por eso se considera que la verificación de la consistencia es un procedimiento “blando”, no “duro”.) La verificación de la consistencia se usa para:

1. Detectar y corregir las combinaciones no permitidas

2. Señalar e investigar combinaciones inusuales

3. Verificar la consistencia de los denominadores y valores “ausentes” y “no corresponde” (i.e., verificar que los patrones de salteado de llenado han sido cumplidos

4. Verificar la lógica de las distribuciones conjuntas (p.ej., en los gráficos de puntos)


En situaciones en que se encuentran muchas respuestas inconsistentes, el enfoque que se utiliza para manejar la inconsistencia puede tener un impacto notorio sobre las estimaciones y puede alterar comparaciones entre grupos. Los autores deben describir las reglas de decisión utilizadas para manejar la inconsistencia y cómo los procedimientos afectan los resultados (Bauer y Jonson, 2000.)

Trabajo de preparación – codificación de los datos

La codificación de los datos significa la traducción de la información en valores adecuados para ser ingresados en la computadora y para el análisis estadístico. Todo tipo de datos (p.ej., historias clínicas, cuestionarios, pruebas de laboratorio) debe ser codificado, aunque en algunos casos la codificación ha sido realizada previamente. El objetivo es crear variables a partir de la información, con la posibilidad de análisis en mente. Las siguientes interrogantes subyacen las decisiones sobre codificación:

1. ¿Qué información existe?

2. ¿Qué información es relevante?

3. ¿Cómo será probablemente analizada?

Ejemplos de decisiones sobre codificación y edición de datos

Un criterio típico para la seropositividad para VIH es un ELISA repetidamente positivo (ensayo inmunoenzimático recombinante) para anticuerpos VIH confirmado por una prueba Western Blot con elfin de identificar la presencia de proteínas particulares (p.ej., p24, gp41, gp120/160.) De esta manera los datos del laboratorio pueden incluir todos los siguientes:

a. Una evaluación global del estado VIH (positivo/negativo/indeterminado)

b. Pares de resultados de ELISA expresados como:

i. + + / + – / – – / indeterminado

ii. densidades ópticas

c. Resultados de Western Blot (para las personas con resultados de ELISA positivos) expresados como:

i. (+ / – / indeterminado)

ii. detección de bandas específicas de proteínas, p.ej., p24, gp41, gp120/160

¿Cuánta de esta información debe ser codificada y tecleada?

¿Cómo codificar las preguntas abiertas del cuestionario (p.ej., “¿De qué manera ha cambiado su hábito de fumar?”, “¿Cuáles son sus razones para dejar de fumar?” , “¿Qué impedimentos al cambio espera encontrar?”, “¿Qué hacía en su trabajo?”)

Las preguntas cerradas pueden ser “auto-codificadas” (i.e., el código a ser tecleado está listado al lado de cada opción de respuesta), pero también puede haber:

a. múltiples respuestas cuando sólo se necesita una – pueden ser:


1. Respuestas inconsistentes (p.ej., “Nunca” y “2 veces o más”)

2. Respuestas adyacentes que indican un rango (p.ej., “dos o tres veces” y “cuatro o cinco veces” de parte de un sujeto que no puede elegir entre 2-5 veces).

b. Respuestas salteadas – que deben diferenciar entre

1. Preguntas que no corresponden para este entrevistado (p.ej. edad de la menarca para encuestados de sexo masculino).

2. Encuestados que optan por no contestar (que se puede indicar como “N/C”!)

3. Encuestado que no sabe o no puede recordar

4. Encuestado que saltea una pregunta sin una razón aparente

Es necesario llegar a un balance entre la codificación de lo mínimo y la codificación de “todo”.

La codificación es más sencilla cuando se hace toda de una vez.

Uno siempre puede ignorar posteriormente las opciones codificadas que se consideran sin importancia.

La información no codificada no estará a disposición para su análisis (p.ej., la fecha en que se recibió el cuestionario, qué cuestionarios fueron seleccionados al azar para una encuesta de verificación basada en 10% de los cuestionarios totales).

Mayores detalles significan más re-codificaciones para el análisis lo cual significa más programación y por lo tanto más oportunidades para cometer errores.

Las decisiones postergadas deben ser concretadas en algún momento, así que porqué no hacerlo de entrada (p.ej., cuando un entrevistado marca respuestas adyacentes como “3. una o dos veces” y “4. Dos a cinco veces” ¿qué debe codificarse – ¿3?,¿4?, ¿3.5? ¿un valor codificado faltante? ¿Un código a ser reemplazado en el futuro cuando se tome una decisión?

Es importante documentar cómo se realizó la codificación y cómo se resolvieron los problemas, de manera de mantener la consistencia y contestar las inevitables preguntas (“¿Cómo manejamos tal situación?”)

Tipos de variables – niveles o escalas de medición

Los constructos o factores en estudio son representados por “variables”. Las variables (también llamadas “factores”) tienen “valores” o “niveles”. Las variables resumen y reducen los datos, tratando de representar la información “esencial”.

Técnicas analíticas dependiendo del tipo de variable

Las variables pueden ser clasificadas de diversas maneras. Una variable continua toma todos los valores dentro de su rango permitido, de manera que entre dos valores cualesquiera dentro del rango hay otros valores legítimos entre ellos. Una variable continua (llamada también a veces “variable de medición”) se usa en respuesta a la pregunta “¿cuánto?”. Las mediciones como peso, altura, y la


presión arterial pueden, en principio, ser representadas por variables continuas y frecuentemente son tratadas como tales en los análisis estadísticos. En la práctica, por supuesto, los instrumentos utilizados para medir estos y otros fenómenos y la precisión con que se registran los valores permiten sólo un número finito de valores, pero estos pueden ser considerados como puntos en un continuo. Matemáticamente, una variable discreta puede tomar sólo ciertos valores entre sus valores máximo y mínimo, aún si no hay un límite para el número de dichos valores (p.ej., el conjunto de números racionales es pasible de ser contado aunque es ilimitado en número). Las variables discretas que pueden tomar cualquier valor dentro de un conjunto grande de valores a menudo son tratadas como si fueran continuas. Si los valores de una variable pueden ser ordenados, el hecho de que el analista decida tratar la variable como discreta y/o continua depende de la distribución de la variable, los requerimientos de los procedimientos analíticos disponibles y la opinión del analista sobre la interpretación de los resultados que se pueden obtener.

Tipos de variables discretas 1. Identificación – una variable que simplemente nombra cada observación (p.ej., un número

de identificación en el estudio) y que no se usa en el análisis estadístico;

2. Nominal – una categorización o clasificación, que no tiene un orden inherente; los valores o la variable son completamente arbitrarios y podrían ser reemplazados por cualquier otro sin afectar los resultados (p.ej., grupos sanguíneos ABO, número de registro en la clínica, etnia). Las variables nominales pueden ser dicotómicas (dos categorías, p.ej. sexo) o politómicas (más de dos categorías).

3. Ordinal – una clasificación en que los valores pueden ser ordenados o tienen un orden; dado que los valores codificados sólo necesitan reflejar el orden pueden ser reemplazados por cualquier otro conjunto de valores con el mismo ordenamiento relativo (p.ej., 1, 2, 5; 6, 22, 69; 3.5, 4.2, 6.9 podrían todos ser utilizados en vez de 1, 2 ,3). Como ejemplos podemos considerar la severidad de las lesiones y la situación socioeconómica.

4. De conteo –el número de entidades, eventos, o algún otro fenómeno que puede ser contado, para el cual la pregunta relevante es “cuántos?” (p.ej., paridad, número de hermanos); la sustitución de los valores de la variable por otros números cambiaría su sentido. En el análisis de datos epidemiológicos, las variables de conteo a menudo se tratan como continuas, sobretodo cuando sus posibles valores son muchos.

Tipos de variables continuas 1. De intervalo – las diferencias (intervalos) entre los valores tienen significado, pero las

razones entre los valores no lo tienen. Es decir, que si la variable toma los valores 11-88, con un promedio de 40, tiene sentido afirmar que el puntaje del sujeto A de 60 “se aleja el doble del promedio” que el puntaje de 50 del sujeto B. Pero no tiene sentido decir que el puntaje del sujeto A es “1.5 veces el promedio”. La razón es que el punto cero de la escala es arbitrario, de manera que los valores de los puntajes tienen sentido sólo en relación uno con el otro. Sin pérdida de información, la escala puede ser desplazada: 11-88 puede ser transformada en 0-77 restando 11 puntos. Los puntajes de la escala también pueden ser multiplicados por una constante. Después de cualquiera de estas dos transformaciones, el puntaje del sujeto A sigue alejándose el doble de la media que el puntaje del sujeto B, pero el puntaje del sujeto A no es más 1.5 veces el puntaje promedio. Las escalas sicológicas (p.ej.,


para ansiedad, para depresión) a menudo utilizan este tipo de escalas. Un ejemplo que proviene de la física es la temperatura medida en escala de Fahrenheit o Celsius.

2. De razón – tanto las diferencias como las razones tienen sentido. Tienen un punto cero no arbitrario, de manera que tiene sentido caracterizar un valor como “x” veces el valor del promedio. Cualquier transformación salvo la multiplicación por una constante (p.ej., el cambio de unidades) distorsionará las relaciones de los valores de una variable medida en una escala de razón. Los parámetros fisiológicos como la presión arterial o el colesterol son medidas de razón. La temperatura absoluta o Kelvin es una medida en escala de razón.

Muchas variables importantes en epidemiología son dicotómicas (i.e., nominal con dos niveles) - enfermo vs. sano, expuesto vs. no expuesto. Aunque una variable puede aparentar ser ordinal o continua, el propio fenómeno puede no merecer ser tratado como tal. Sería necesario preguntarse: “¿Es que “más” es realmente más?” y “ ¿hay umbrales o discontinuidades involucradas?” De nuevo, la realidad subyacente (o, más bien, el modelo conceptual que tengamos de ella) determina el enfoque de la cuantificación. Los valores de las variables a menudo son agrupados en un pequeño número de categorías para algunos análisis y utilizados en su forma original para otros.

Trabajo preparatorio –reducción de datos

La reducción de datos busca reducir el número de variables para el análisis combinando variables únicas en variables compuestas que cuantifican mejor el constructo. Las variables creadas durante el intento de codificación para reflejar fielmente los datos originales (p.ej., altura, peso.) A menudo se pueden utilizar directamente estas variables para el análisis, pero también es necesario frecuentemente crear variables adicionales para representar constructos de interés. Por ejemplo, el constructo sobrepeso se representa a menudo por una variables que se deriva de los valores para peso y altura. La reducción de datos incluye la simplificación de las variables individuales (p.ej., la reducción de seis posibles valores a un número menor) y la derivación de variables compuestas (p.ej., “nivel socioeconómico” derivado de educación y ocupación.)

En general:

Lo simple es mejor

Evitemos detalles superfluos

Creamos variables adicionales, antes que destruir las originales (nunca hay que sobrescribir los datos crudos!)

Analicemos los detalles antes de confiar en los resúmenes

Verificar la precisión de las variables derivadas y las recodificadas estudiando las tablas de cruce de variables entre las variables originales y las derivadas

Tomemos en cuenta los efectos de umbral, fenómenos de saturación y otras situaciones de no -linealidad


Creamos categorías basadas en la naturaleza del fenómeno (p.ej., un estudio del Sindrome de Down puede juntar todas las categorías de edad por debajo de 30 años; un estudio de tasas de embarazo va a necesitar una mayor división de las edades por debajo de los 30 años y aún por debajo de los 20 años.)

Tipos de variables derivadas

Escalas – En una escala pura (p.ej., depresión, autoestima) todos los ítems son supuestamente medidas individuales del mismo constructo. El puntaje de la escala es habitualmente la suma de los valores de respuesta de los ítems, aunque los ítems con un sentido inverso (p.ej., “Me siento feliz” en una escala de depresión) deben ser invertidos. El propósito de derivar un puntaje de la escala utilizando múltiples ítems es el de obtener una medida más confiable del constructo que la que es posible a partir de un solo ítem. La confiabilidad de la escala (consistencia interna) se evalúa clásicamente usando el coeficiente alfa de Cronbach, que se puede considerar como el promedio de todas las correlaciones inter-item. Si los ítems miden efectivamente el mismo constructo de la misma manera y de hecho fueron contestados de idéntica manera, las únicas diferencias en sus valores deberían deberse a errores aleatorios de medición. El alfa de Cronbach da la proporción de la variación total de los puntajes de la escala que no es atribuible al error aleatorio. Valores de 0.80 o más son considerados adecuados para una escala que será utilizada para analizar asociaciones (si la escala es utilizada como instrumento clínico para pacientes individuales, su alfa debe ser de por lo menos 0.90 – ver el texto de Nunally, Psychometrics). Cuando la escala consiste de sub-escalas separadas, la consistencia interna puede ser más relevante para las sub-escalas individuales que para la escala como una unidad. Los análisis de las relaciones entre los ítems individuales (correlación inter-ítem o concordancia), entre cada ítem y los restantes ítems (correlación ítem-resto), entre cada ítem y la escala total (correlación escala-ítem), y entre los grupos de ítems (análisis de factores) son métodos habituales para analizar el desempeño de los ítems.

Indices – un índice consiste de un grupo de ítems que están combinados (habitualmente sumados) para dar una medida de un constructo multidimensional. En este caso, cada uno de los ítems mide un aspecto o dimensión diferente, de manera que las medidas de consistencia interna como el alfa de Cronbach o no son relevantes o requieren una interpretación diferente. Ejemplos de índices derivados de varias variables incluyen el estado socioeconómico (p.ej., ocupación, ingresos, educación, barrio), apoyo social (p.ej., estado civil, número de familiares cercanos, número de amigos cercanos), comportamiento de riesgo sexual (número de compañeros, tipo de compañeros, uso de preservativos, sexo anal). Los ítems pueden tener ponderaciones diferentes, dependiendo de su importancia relativa y la escala en que fueron medidos.

Algoritmos – un procedimiento que utiliza un conjunto de criterios según reglas o consideraciones específicas, p.ej., trastorno depresivo mayor, anticoncepción “efectiva” (no he visto, hasta ahora, utilizar este término para denominar este tipo de variable, pero no conozco ningún otro término para este concepto.)


Trabajo preparatorio – Explorando los datos

Trata de “sentir” los datos– analizar la distribución de cada variable. Examina gráficos de correlación bivariados y cruces de variables. ¿Tienen sentido los patrones que aparecen? ¿Son creíbles?

Observa la forma – simetría vs. asimetría, interrupciones en la forma

Elige medidas de resumen apropiadas para la distribución y tipo de variable (nominal, ordinal, medida)

De posición – media, mediana, porcentaje por encima del punto de corte

Dispersión – desvío estándar, cuantiles

Busca relaciones entre los datos

Mira dentro de los subgrupos importantes

Observa la proporción de valores faltantes

Trabajo preparatorio – Valores faltantes

Los datos que faltan son un estorbo y pueden ser un problema. Por un lado, las respuestas que faltan significan que los denominadores para muchos análisis pueden ser diferentes, lo cual puede confundir y además es tedioso de explicar. Por otro lado los análisis que involucran múltiples variables (p.ej., coeficiente alfa, tabulaciones cruzadas, modelos de regresión) generalmente excluyen la observación entera si le falta el valor para cualquier variable en el análisis (este método se llama eliminación por órden de lista [N.T. listwise deletion en inglés]. De esta manera, un análisis que involucra 10 variables, aún si cada una tiene sólo un 5% de valores faltantes, puede resultar en la exclusión de hasta un 50% de la base de datos (si no hay superposición entre las respuestas faltantes)! Es más, salvo que los datos falten totalmente al azar (en inglés missing completely at random MCAR- lo cual es equivalente a un patrón de datos faltantes que resultaría de borrar valores en la base de datos sin ninguna sistematización o preferencia) un análisis que no ajusta para los datos faltantes será sesgado, porque ciertos subgrupos estarán sub-representados en los datos disponibles (un tipo de sesgo de selección).

Imputación para los valores faltantes – tema optativo

A medida que, a través de los años, se han desarrollado las teorías, los métodos y el poder de la informática, los métodos analíticos para el manejo de los datos faltantes, para minimizar sus efectos perjudiciales han mejorado también. Estos métodos buscan imputar los valores para las respuestas faltantes a los ítems de manera de tratar de aumentar la eficiencia estadística (evitando la pérdida de observaciones que tienen uno o unos pocos valores faltantes) y disminuir el sesgo. Métodos antiguos de imputación, abandonados hoy día, incluyen el reemplazo de cada valor faltante por el promedio o la mediana de esa variable. Aunque esas prácticas permiten que todas las observaciones sean utilizadas en los análisis de regresión, estos métodos no disminuyen el sesgo y tienden a introducir una distorsión adicional. Métodos más sofisticados disminuyen el sesgo de los datos faltantes al mismo


tiempo que minimizan la distorsión producida por la imputación. Estos métodos derivan imputaciones que usan los valores de las variables para los cuales los datos están presentes y que están relacionados con las variables imputadas.

Los casos con datos completos (observaciones que no tienen valores faltantes) sirven típicamente como material crudo para las imputaciones. Los factores que están teóricamente relacionados con las variables imputadas y con las cuales están asociadas en los casos con datos completos, son utilizados para desarrollar modelos “predictivos” para las variables imputadas. Estos modelos luego se aplican a las observaciones restantes, generando valores predichos (“imputados”) para las respuestas faltantes. Las imputaciones resultantes se dice que están condicionadas a las variables en el modelo.

Por ejemplo, supongamos que los datos disponibles muestran una correlación positiva entre la presión arterial y la edad. Al condicionar las imputaciones a la edad, imputamos (en promedio) presiones arteriales mayores a los sujetos de mayor edad a los cuales les falta el dato de presión arterial y presiones arteriales menores a los sujetos de menor edad a los cuales les falta el dato de la presión arterial. Esta técnica mantiene la relación entre edad y presión arterial que existe entre los casos con datos completos. Es más, si los sujetos de mayor edad tienen mayor probabilidad de que les falte la información sobre presión arterial, el condicionamiento disminuye el sesgo que surgiría de analizar sólo los casos completos.

Si el proceso que lleva a la falta de datos es uniformemente aleatorio, salvo porel hecho de estar positivamente correlacionado con factores identificables (p.ej., la edad del sujeto), el proceso de falta de datos se llama faltando al azar (en inglés missing at random, MAR), más que “faltando totalmente al azar”. En esta situación, la presión arterial global promedio para el conjunto completo de datos estará sesgado hacia valores menores (debido a la sub-representación de los sujetos de mayor edad), pero el promedio global basado en las imputaciones condicionadas a la edad no estará sesgado.

Sin embargo, si los valores predichos simplemente se substituyen con los valores faltantes, aunque el sesgo disminuirá, también lo harán los errores estándar. La razón de esto es que los modelos de imputación fueron creados basado en asociaciones (imperfectas) entre las variables condicionantes y las variables que son imputadas. Por el contrario – los valores predichos se calculan directamente a partir del modelo como si, en nuestro ejemplo, la presión arterial fuera completamente determinada por la edad. De hecho, el modelo funciona como “una profecía que se autocumple”. Para evitar este problema se introduce una fuente de variabilidad al azar en el proceso de imputación. Por ejemplo, más que sustituir los propios valores predichos con los datos faltantes, los valores imputados pueden ser muestreados de distribuciones cuyas medias son los valores predichos (p.ej., si la media estimada para una respuesta que puede ser si-no fuera 0.30 [donde 1= “si” y 0= “no”], el valor imputado se generaría al azar de una distribución binomial con una proporción de “éxitos” de 0.30).

Además, al usar múltiples imputaciones (generalmente cinco), el analista puede ajustar los errores estándar para reflejar la incertidumbre introducida por el proceso de imputación. El


llevar a cabo múltiples imputaciones significa repetir el proceso de imputación para crear múltiples versiones del conjunto de datos (una para cada imputación), analizar cada conjunto de datos por separado, y combinar los resultados de acuerdo con ciertos procedimientos.

La imputación produce la menor distorsión cuando la proporción de datos faltantes es pequeña, y se consiguen los datos para variables fuertemente asociadas con la variable que es imputada. Perversamente, sin embargo, la imputación es más necesaria cuando la proporción de datos faltantes es importante. Lamentablemente, además, los datos disponibles pueden ser poco orientadores sobre si el proceso por el cual faltan los datos es totalmente aleatorio, aleatorio, o “no despreciable”. Puede ser útil prestar atención a las causas de la falta de las respuestas en el proceso de recolección de datos (Heitjan, 1997).

[Me gustaría agradecer a Michael Berbaum y Ralph Folsom por sus pacientes explicaciones de imputaciones y por leer las versiones anteriores de esta sección.]

Análisis descriptivos

En algún momento la exploración de datos se convierte en un análisis descriptivo, para examinar y luego informar las medidas de frecuencia (incidencia, prevalencia) y de extensión (media, tiempo de sobrevida), asociación (diferencias y razones), e impacto (fracción atribuible, fracción de prevención). Estas medidas se calcularán para subgrupos importantes y probablemente para el total de la población de estudio. Pueden ser necesarios procedimientos de estandarización u otros de ajuste para tener en cuenta las diferencias en las distribuciones por edad y otros factores de riesgo, tiempo de seguimiento, etc.

Evaluación de hipótesis

Después del análisis descriptivo viene la evaluación de las hipótesis de estudio, si el estudio ha identificado alguna. En esta etapa se hará una evaluación más formal del potencial fenómeno de confusión, otras formas de sesgo, explicaciones alternativas posibles para lo que ha sido observado. Un aspecto que corresponde tanto al análisis descriptivo como a las pruebas de hipótesis, sobretodo a esta última, es la evaluación de la posible influencia de la variabilidad aleatoria (“azar”) sobre los datos. Una gran parte de la disciplina “estadística” se ha desarrollado para tratar este aspecto, al cual nos dedicaremos a continuación.

Evaluando el papel del azar – inferencia

Creamos o no las palabras de Albert Einstein, “el Señor no juega a los dados con el universo”, hay muchos eventos en el mundo que atribuimos al “azar”. Cuando tiramos un dado, el número que sale habitualmente no es predecible y no sigue un patrón evidente (o por lo menos, no debería hacerlo). De la misma manera cuando sacamos cinco cartas de un mazo recién mezclado, y no marcado, sabemos que algunas cartas tienen más probabilidad de salir (p.ej., un par igual es más probable que tres cartas iguales), pero no podemos predecir que carta vamos a obtener. Las teorías de probabilidad y estadística nacieron en los salones de Monte Carlo y maduraron en los campos de la


campiña británica. La revolución de la computación puso su potencia, para bien o para lo que sea, en manos de todos los que podemos hacer clic con el mouse.

La base de la incorporación de los frutos de las teorías de probabilidad y estadística en la investigación médica y epidemiológica ha sido relatada por Austin Bradford Hill como sigue:

“Entre las dos guerras mundiales había motivos importantes para enfatizarle a los clínicos y otros investigadores, la importancia de no dejar pasar desapercibidos los efectos del azar sobre los datos. Talvez las generalidades se basaban demasiado a menudo sobre dos hombres y un perro de laboratorio mientras que el tratamiento de elección se deducía a partir de dos pacientes y podría fácilmente no tener ningún significado. Por lo tanto, era útil que los estadísticos enfatizaran, la aplicación y la enseñanza de la necesidad de las pruebas de significancia estadística solamente para servir de guía, para tener cuidado al sacar una conclusión, antes de extrapolar lo particular a lo general.” (pg 299 en El ambiente y la enfermedad: asociación o causa. Procedimientos de la Real Sociedad de Medicina,1965: 295-300. [The environment and disease: association or causation. Proceedings of the Royal Society of Medicine].)

A partir de este comienzo inocente y de sentido común, los procedimientos estadísticos prácticamente invadieron el pensamiento de los investigadores en muchos áreas. Hill continúa:

“Me pregunto si el péndulo no se ha desplazado demasiado lejos – no sólo con los alumnos atentos sino hasta con los propios estadísticos. Por cierto, debe ser igualmente tonto negarse a llegar a conclusiones sin los errores estándar! Afortunadamente, creo que aún no hemos llegado tan lejos como nuestros amigos en EEUU, donde, me han dicho, algunos editores de revistas devuelven un trabajo porque no se han utilizado pruebas de significancia. De cualquier manera hay numerosas situaciones en que son totalmente innecesarias – porque la diferencia es grotescamente obvia, porque es insignificante, o porque, sea formalmente significativa o no, es demasiado pequeña para ser de importancia práctica. Lo que es peor, los destellos de una tabla t distraen la atención de lo inadecuado del banquete...”

El autor admite que exagera, pero sospecha que la confianza en exceso en las pruebas estadísticas debilita “nuestra capacidad para interpretar datos y tomar decisiones razonables no importa cual sea el valor de P.” Hill se refiere a las pruebas de significancia, que son probablemente los procedimientos más comúnmente utilizados para evaluar el rol del azar, o talvez más precisamente, la cantidad de evidencia numérica de que las diferencias observadas no surgirían sólo por azar

Ilustración de una prueba estadística

Tomemos los siguientes datos, del primer trabajo que informó de una asociación entre el adenocarcinoma de la vagina y el uso materno de dietilbestrol (DES). Durante la década de los 60, se observó un grupo de casos de adenocarcinoma de la vagina en mujeres jóvenes, una ocurrencia altamente improbable. La investigación de las historias de las mujeres afectadas mostró que en la mayoría de los casos, la madre de la joven había tomado dietilbestrol (DES) cuando la hija estaba en su útero. En aquel momento el DES había sido indicado por la creencia de que podía prevenir el parto prematuro en mujeres que habían perdido embarazos anteriores. ¿En cuántas pacientes tendría


que ocurrir esta historia para que los investigadores tuvieran confianza en que no era una observación al azar? Esta pregunta habitualmente se contesta por medio de una prueba estadística.

Exposición prenatal al dietilbestrol entre mujeres jóvenes con adenocarcinoma de la vagina

Exposición a dietilbestrol?

Si No Total Casos 7 1 8 Controles 0 32 32 Total 8 33 40

Fuente: Herbst AL, Ulfelder H, Poskanzer DC. Adenocarcinoma of the vagina. Association of maternal stilbestrol therapy with tumor appearance in young women. New Engl J Med 1971; 284:878-881. [From Schlesselman JJ. Case-Control Studies. New York, Oxford, l982: 54]

Todos menos uno de los casos tenían el antecedente de exposición intrauterina a dietilbestrol. Por el contrario, ninguno de los controles lo tenía. El riesgo relativo a partir de esta tabla no puede ser calculado directamente por la celda que contiene 0, pero si se agrega 0.5 a las cuatro celdas obtenemos un riesgo relativo (OR) de 325, una asociación más fuerte que la que cualquiera de nosotros puede esperar encontrar en nuestros datos alguna vez en la vida. Sin embargo, este estudio tiene sólo 8 casos. ¿Pueden deberse estos resultados al azar?

Una prueba de significancia estadística es un instrumento para evaluar la cantidad de datos numéricos sobre la cual se basa un patrón observado, para contestar preguntas como, “¿Con qué frecuencia puede surgir una asociación tan fuerte, completamente por azar, en un número infinito de experimentos análogos con el mismo número de sujetos y la misma proporción de casos (o de expuestos)? “Esta pregunta no es idéntica a: “¿qué probabilidad hay de que el azar produjo la asociación en esta tabla?” ni a “¿Cuánto de la asociación se debe al azar?”. Pero si una asociación tan fuerte surgiese sólo muy raramente debido exclusivamente al azar, es razonable suponer que por lo menos algún factor potencialmente identificable ha contribuido a la asociación observada. Este factor podría, por cierto, ser un sesgo, más que la exposición, pero por lo menos sería algo distinto al azar. A la inversa, también es posible que asociaciones mucho más fuertes podrían surgir por azar y la que hemos observado puede reflejar un proceso causal. La prueba de significancia simplemente evalúa la fuerza de la evidencia numérica para desechar el azar como una probable explicación suficiente.

Para llevar a cabo una prueba de significancia, necesitamos operacionalizar el concepto de “experimento análogo”. Ese es el problema. ¿Qué tipo de experimento es análogo a un estudio epidemiológico, es más, análogo a un estudio observacional? Para la tabla anterior, la prueba de significancia que se usaría sería la Prueba Exacta de Fisher. Aquí, el experimento análogo (modelo de probabilidad) es equivalente a lo siguiente:


Supongamos que tú tienes 40 pares de medias – 7 pares de medias rojas y 33 pares de medias azules. Quieres empacar 8 pares de medias en tu valija, de manera que sin mirar tomas 8 pares al azar y las pones en tu bolso. ¿Cuántos pares rojos has empacado para tu viaje?

Cuando este “experimento análogo” se repite un numero suficiente de veces, la proporción de veces en que el bolso tiene 7 pares rojos nos dará la probabilidad de que el azar por si sólo produciría la situación en que hayas empacado 7 pares de medias rojas. Esta probabilidad es el “valor p” de la prueba de significancia de la relación entre el adenocarcinoma de la vagina y el diestilbestrol de la tabla anterior.

Afortunadamente, la distribución del número de pares rojos en la valija ya ha sido desarrollada en forma teórica, de manera que la probabilidad exacta puede ser calculada sin tener que llevar a cabo lo que en este caso sería un número MUY importante de ensayos. La fórmula de la distribución (hipergeométrica) es:

n1 n0

C j C

(m1 – j) n1!n0!m1!m0! = –––––––––––––––––––––––– = –––––––––––––––––––––––––––Pr(A=j) n n! j! (n1 – j)! (m1 – j)! (n0 – m1 –j)!

C m1

Donde Pr(A=j) es la probabilidad de obtener j pares rojos en la valija y m0, m1, n0, n1, y n son los totales de las filas y las columnas de la tabla:

Color Rojo Azul Total Valija j m1 – j m1 En cajón n1 – j n0 – m1 – j m0

Total n1 n0 n

Así es como se aplica la fórmula:

Rojo(DES)

Azul

Total

Empacados(casos) 7 1 8 En cajón (controles) 0 32 32 Total 8 33 40


Posibles resultados (Colores de los pares de medias en la valija)

Rojo Azul

Probabilidad de cada

resultado 0 8 .181 1 7 .389 2 6 .302 3 5 .108 4 4 .019 7! 33! 8! 32! 5 3 .0015 –––––––––––– 6 2 .00005

{40! 5! 2! 3! 30!

7 1 4.3 x 10-7 8 0 0 } Valor-p 1.0000

Comentarios sobre el modelo de “las medias rojas” 1. Un modelo es un sistema o estructura que tiene como objetivo represenatr las características

esenciales de la estructura o sistema que es objeto de estudio. El modelo presentado anteriormente es una representación muy simplificada!

2. El modelo es derivado en base a ciertas constricciones o supuestos (p.ej., en este caso, 8 casos, 7 madres expuestas a DES, y 40 participantes en total – “marginales fijos” – además del hecho de que “todas las permutaciones tienen la misma probabilidad”).

3. El modelo subyacente a la prueba de hipótesis supone un experimento repetible y una especificación a priori de la “hipótesis” sometida a prueba – una hipótesis “nula” [esto está incorporado en el modelo de permutaciones con “iguales probabilidades”] y una “hipótesis alternativa” [esto trata con los resultados que consideraríamos como inconsistentes con la hipótesis nula].

4. El modelo anterior es tedioso de calcular para tablas grandes, aunque las computadoras han resuelto ese problema.

El Concepto de la prueba de hipótesis (pruebas de significancia)

Lo que realmente queremos saber es: “¿Se debe al azar la asociación observada?”, o “¿Qué tan probable es que la asociación observada se deba al azar?”. Esta probabilidad es conocida a veces como la “probabilidad posterior [a posteriori]”, la probabilidad de que la hipótesis es verdadera dados los resultados observados. (La “probabilidad previa [a priori]” de que la hipótesis es verdadera es


nuestra creencia de que la hipótesis es verdadera antes de tener los resultados). La escuela frecuentista de estadística, de la cual provienen las pruebas de significancia, no puede contestar esta pregunta directamente. En vez, las pruebas de significancia y los valores p intentan dar una respuesta indirecta, reformulando la pregunta como: “ ¿Con qué frecuencia se vería una asociación tan fuerte como la observada sólo por azar?”. El rol del azar es llevado a cabo por un modelo adecuado de probabilidad, seleccionado para representar la estructura de probabilidad de los datos y el diseño de estudio. Pero la mayor parte de los estudios epidemiológicos se desvían marcadamente de los modelos probabilísticos sobre los cuales se basan las pruebas estadísticas (p.ej., ver Sander Greenland, Aleatorización, estadística, e inferencia causal [Randomization, statistics, and causal inference]), de manera que aunque la teoría estadística es extremadamente precisa, debe ser aplicada e interpretada con mucho cuidado.

Una versión intermedia de la pregunta que subyace una prueba de significancia es “¿Qué tan consistentes son los datos numéricos con lo que se esperaría “por azar” – según un modelo de probabilidad adecuado”. El modelo de probabilidad es frecuentemente uno que supone que no hay diferencia sistemática entre los grupos, en parte porque dichos modelos son más fáciles de derivar y también porque es a menudo conveniente para el marco de la prueba de hipótesis. El resultado de una prueba de significancia es una probabilidad (el valor p) que da una respuesta cuantitativa a esta pregunta intermedia. (Nota: La “hipótesis nula” estadística es pocas veces de interés desde el punto de vista sustancial. Una hipótesis de estudio debe ser planteada en términos de ausencia de asociación sólo cuando es lo que el investigador realmente desea demostrar. De hecho, es bastante difícil demostrar la ausencia de asociación, dado que la evidencia para la ausencia de asociación está relacionada con la probabilidad de error de tipo II (1 – potencia estadística) para el estudio, que es en general considerablemente mayor que el nivel de significancia – ver más adelante).

El valor p por si mismo puede ser considerado como un estadístico descriptivo, un trozo de evidencia que tiene que ver con la cantidad de evidencia numérica para la asociación en estudio. Sin embargo, cuando se necesita tomar una decisión se necesita algún método para asignar una acción al resultado de la prueba de significancia. La toma de decisiones incluye el riesgo de cometer errores. En forma ideal la función de pérdida (los costos de los errores de diverso tipo) se conocen explícitamente. Bajo supuestos ampliamente aplicables, la teoría de la toma de decisiones provee de una técnica para la toma de decisiones basándose en los resultados de la prueba estadística. Esa técnica es la realización de una prueba de hipótesis estadística.

Como se ha señalado, la hipótesis que se prueba es generalmente una “hipótesis nula” (habitualmente indicada como H0). H0 es el modelo de probabilidad que hará el rol del azar (por ejemplo, el modelo de las medias rojas). En el contexto actual, ese modelo se basará en la premisa de que no hay asociación. Si hay suficiente evidencia numérica que nos lleve a rechazar la H0, decidiremos que lo contrario es verdadero, que hay una asociación. La inversa es llamada la “hipótesis alternativa” (HA). La regla de toma de decision es de rechazar la H0, a favor de la HA, si el valor de p es suficientemente pequeño, y sino, aceptar H0 .

Dado que debemos tomar una decisión entre dos alternativas (H0 y HA ) podemos cometer dos tipos de errores:


Error Tipo I : Rechazar erroneamente H0 (i.e., concluir, incorrectamente, que los datos no son consistentes con el modelo)

Error Tipo II No rechazar erróneamente H0 (i.e., concluir, incorrectamente, que los datos son consistentes con el modelo)

(El creador de estos términos debe haber sido más prosaico que el que creó los términos “significancia”, “potencia”, “precisión”, y “eficiencia”). Tradicionalmente, la probabilidad de error Tipo I ha recibido más atención y se denomina el “nivel de significancia” de la prueba.

En un contexto estricto de toma de decisiones, el resultado de la prueba de significancia es “Rechazar la hipótisis nula” o “No rechazar la hipótesis nula”. (Señalemos que el “no rechazar la hipótesis nula” no es equivalente a declarar que la hipótesis nula es verdadera.) Sin embargo, muy raramente debe tomarse una decisión basada en un único estudio, de manera que es preferible informar el valor p calculado (probabilidad de que el modelo de probabilidad supuesto produciría datos tan o más extremos que estos). El valor p da más información que la aseveración “los resultados fueron significativos a nivel del 5%”, dado que cuantifica el grado al cual los datos son incompatibles con el “azar” (según el modelo probabilístico), permitiendo que el lector ejerza su tolerancia para un error de Tipo 1. Señalemos que el valor p no es un indicador directo de la fuerza de una asociación en el sentido epidemiológico ni de su “significancia” biológica, clínica o epidemiológica. El valor p simplemente evalúa la compatibilidad de los datos observados con el modelo probabilístico supuesto que sirve para representar la H0.

Hay muchos métodos para obtener un valor p o llevar a cabo una prueba de significancia estadística. La selección depende del nivel de medición de las variables (dicotómica, politómica nominal, ordinal, contínua), el diseño de muestreo del cual se obtuvieron los datos, y otros factores. La prueba estadística ilustrada anteriormente es una prueba “exacta” (Prueba exacta de Fisher), dado que se basa en un modelo que considera todos los posibles resultados y de cuantas maneras puede ocurrir cada una. En una prueba exacta, el modelo probabilístico es claramente aparente.

Ilustración de una prueba asintótica

Las pruebas asintóticas son más habitualmente usadas, porque son más sencillas de calcular, (p.ej., Chi cuadrada, prueba t). Las pruebas asintóticas son aproximaciones cuya precisión mejora a medida que aumenta el tamaño muestral y en que los modelos probabilísticos subyacentes tienden a ser más abstractos. En forma típica, las pruebas asintóticas se basan en la distribución “normal” (de Gauss). ¿Por qué la distribución de Gauss? Porque ofrece una serie de ventajas analíticas y, sobre todo, por el Teorema del Límite Central (“uno de los teoremas más sorprendentes de todas las matemáticas”, Mood y Graybill, 1963:149). El Teorema del Límite Central mantiene que si tomamos muestras al azar suficientemente grandes de cualquier distribución con una varianza finita, los promedios de esas muestran tendrán una distribución aproximadamente Gaussiana.

La forma general de una prueba así es (ver Rothman, Modern epidemiology, p. 139 o Kleinbaum, Kupper, and Morgenstern, Epidemiologic research):


a – E(a) Z = ––––––––– √var(a)

Donde “a”es el valor observado (p.ej., el número de casos expuestos), E(a) es el valor esperado para “a” bajo la hipótesis nula (también conocido como experimento análogo) y var(a) es la varianza de “a” bajo la hipótesis nula. Por lo tanto, Z es el número de desviaciones estándares por las cuales “a” difiere de lo que se esperaría si no hubiera asociación y tiene una distribución aproximadamente normal. (Z se escribe a veces como Χ. , llamada “chi”, una unidad de distribución normal que es igual a la raíz cuadrada de una distribución chi cuadrada con un grado de libertad).

La probabilidad asociada con el hecho de estar a “Z” desvíos estándares del promedio de una distribución normal puede ser calculada y se obtiene fácilmente en las tablas estadísticas (ver el extracto de tabla más adelante). El valor de una variable aleatoria distribuida normalmente es habitualmente (i.e. una probabilidad de 95%) menor a dos desvíos estándares de su promedio, de manera que si Z es mayor que 1.96 decimos que “p < .05”, o con mayor precisión, tomamos el valor que hemos calculado para Z, lo buscamos en la tabla de la distribución normal y tomamos el valor correspondiente de p.

El extracto de la tabla más adelante muestra varias probabilidades derivadas de la unidad de la distribución normal. Por ejemplo, la probabilidad asociada con una distancia de 1.645 desvíos estándares por encima del promedio se puede ver en la columna B (0.05) y es idéntica a la probabilidad asociada con una distancia de 1.645 desvíos estándares por debajo del promedio (dado que la distribución normal es simétrica). La probabilidad asociada con la obtención de un valor de z que está por encima o por debajo de 1.645 desvíos estándares del promedio se ve en la columna d (0.10). De manera que si usando la fórmula planteada anteriormente (o una de las presentadas más adelante) obtenemos un valor de Z igual a 1.645, el valor p es 0.05 o 0.10, dependiendo de la hipótesis alternativa.


Extracto de una tabla de la Distribución Normal

z h A B C D E 0.00 0.3989 0.0000 0.5000 0.0000 1.0000 0.5000 0.01 0.3989 0.0040 0.4960 0.0080 0.9920 0.5040 0.02 0.3989 0.0080 0.4920 0.0160 0.9840 0.5080 . . . . . . . . . . . . . . . . . . . . .

0.8416 0.2800 0.30 0.20 0.60 0.40 0.80 . . . . . . . . . . . . . . . . . . . . .

1.282 0.1755 0.40 0.10 0.80 0.20 0.90 . . . . . . . . . . . . . . . . . . . . .

1.645 0.1031 0.45 0.05 0.90 0.10 0.95 . . . . . . . . . . . . . . . . . . . . .

1.960 0.0585 0.475 0.025 0.95 0.05 0.975 . . . . . . . . . . . . . . . . . . . . .

2.576 0.0145 0.495 0.005 0.99 0.01 0.995 . . . . . . . . . . . . . . . . . . . . .

3.090 0.0034 0.499 0.001 0.998 0.002 0.999 . . . . . . . . . . . . . . . . . . . . .

Leyenda:

z =número de desvíos estándares a la derecha del promedio

h = altura de la curva para ese número de desvíos estándares desde el promedio

A =área entre el promedio y z

B = área a la derecha de z (o a la izquierda de –z)

C = área entre -z y +z

D = área más allá de|z| (i.e., a la izquierda de -z y a la derecha de +z)

E = área a la izquierda de z

(Fuente: National Bureau of Standards – Applied Mathematics Series–23, U.S. Government Printing Office, Washington, D.C., 1953, extracto de la Tabla A-4 en Richard D. Remington y M. Anthony Schork, Statistics with applications to the biological and health sciences. Englewood Cliffs, NY, 1970.]

Valores p de una cola vs dos colas

Recordemos que el valor p es la probabilidad de obtener una asociación tan fuerte como (o más fuerte que) la asociación observada. Sin embargo, resulta que la expresión “tan fuerte como (o más fuerte que)” es ambigua, porque no especifica si están o no incluidas las asociaciones inversas, i.e., asociaciones en el sentido opuesto a la asociación putativa que motivó el estudio. Por ejemplo, si


observamos un riesgo relativo de 2.5, ¿“tan fuerte como” significa sólo riesgos relativos de 2.5 o más, o también significa riesgos relativos de 0.4 o menos? Si es lo primero (sólo 2.5 y más), el valor p es el que corresponde a una cola. Por el contrario, si HA es “sea mayor que o igual a 2.5 o [inclusive] menos que o igual a 0.4”, está indicado usar un valor p para dos colas. [Sólo los valores p de una cola pueden ser interpretados como la “probabilidad de observar una asociación tan fuerte o más fuerte bajo el modelo del azar” (Rothman and Greenland,185).]

El tema de los valores p de una cola versus valores p de dos colas puede producir emociones muy fuertes. Para un valor calculado de Z, un valor p de una cola es exactamente la mitad del valor p para dos colas. Los que apoyan los valores p de dos colas argumentan que los valores p de una cola dan una medida inflada de la significancia estadística de una asociación (baja probabilidad de obtener los resultados por azar). Las situaciones apropiadas para usar valores p de una cola a veces se caracterizan por ser aquellas en que el investigador no tiene interés en encontrar una asociación en el sentido contrario y la ignoraría aún si ocurriera. Sin embargo, un mensaje en la lista EPIDEMIOL-L solicitando situaciones como las descritas produjo muy pocos ejemplos convincentes.

A continuación hacemos una presentación dramatizada de algunos de los temas que influyen en la selección de valores p de una o dos colas:

La esposa de un buen amigo ha muerto trágicamente por cáncer de pulmón. Aunque ella nunca fumó en su vida, tu amigo era un gran fumador. Antes de su muerte, ella se había convertido en una activista anti-tabaquismo, y su último deseo fue que tu amigo le hiciera juicio a R. J. Morris Inc, el fabricante de la marca de cigarrillos que tu amigo fumaba. Sabiendo que no puede pagar un asesoramiento por expertos, tu amigo te pide que lo asistas con el juicio.

En la preparación para el juicio, la jueza revisa los estándares de evidencia con todos los participantes. Ella les explica que para que la corte falle a favor del demandante (tu lado) debe concluir que la asociación es apoyada por una “preponderancia de evidencia”, que ella caracteriza como “equivalente a 90% de probabilidad de que los cigarrillos de R. J. Morris causaron la enfermedad”. El abogado de R.J. Morris presenta objeciones, declarando que, en primer lugar, sólo la probabilidad de que los cigarrillos pueden causar la enfermedad puede ser estimada, y no la probabilidad de que los cigarrillos efectivamente causaron la enfermedad. En el momento en que la jueza está por decir que la interpretación jurídica de probabilidad permite dicha conclusión, el abogado de R.J. Morris plantea su segunda objeción: dado que el demandante está basando su caso en evidencia científica, el caso del demandante debe cumplir con el estándar convencional para la evidencia en ciencias que requiere un nivel de significancia de 5%. [Recuerda que el nivel de significancia es la probabilidad de un error de Tipo I, que en este caso significaría que se encontraría que la compañía es responsable aunque el cáncer de pulmón de la mujer de tu amigo en realidad se debió al azar. Si la corte no encontrara responsable a la compañía, aunque los cigarrillos de la compañía sí causaron el cáncer, eso sería un error de Tipo II.]

Viendo la oportunidad, le pasas una esquela a tu amigo, que se la pasa a su vez a su abogado. Al leerla, el abogado le dice al juez “Su Señoría, mi cliente está de acuerdo con aceptar la insistencia de R. J.Morris sobre el nivel de significancia del 5%, siempre y cuando se base en una hipótesis alternativa de una sola cola”. Empezando a lamentar la introducción de la metáfora de


probabilidad, la jueza se dirige al abogado de R. J. Morris, que conversa agitadamente con su bioestadístico. Luego de una rápida consulta el abogado de R. J.Morris acusa indignado al abogado del demandante de intentar, a través del engaño, de obtener menores niveles de evidencia. Acusa que un nivel de significancia de una cola de 5% es en realidad un nivel de significancia de 10%, dado que todo el mundo sabe que las pruebas de dos colas son más apropiadas. El abogado de tu amigo presiente que esta acusación pesará en la opinión de la jueza y busca tu mirada para que le aconsejes como contestar.

Con tu asesoramiento, el abogado de tu amigo responde que una prueba de dos colas está justificada sólo cuando la hipótesis alternativa apropiada (HA) es de dos colas. La pregunta en este caso es si R.J. Morris es o no responsable, i.e., si sus cigarrillos causaron o no el cáncer. Esta pregunta corresponde a una (HA) de una cola, i.e., la corte puede (1) rechazar la (H0) (no hay causa) a favor de la alternativa de que R.J. Morris es responsable o (2) no rechazar la (H0), si la corte encuentra que la evidencia es insuficiente. “Con su permiso, Señoría” continúa el abogado, “ no hay ningún planteo aquí de que el humo de cigarrillo podría haber actuado para prevenir la ocurrencia del cáncer, de manera que el requerimiento de una hipótesis alternativa de dos colas es equivalente a imponer un nivel de significancia de 2.5%, que se acerca más al nivel de un juicio criminal, más que de un juicio civil.”

Con el beneficio de consultas adicionales, el abogado de R.J. Morris “objeta enérgicamente”. “El demandante puede considerar este caso como de una HA de una cola, pero no importando el acuerdo sobre tabaquismo propuesto, la Compañía R. J. Morris está preocupada por el hecho de que la relación entre el hábito de fumar y el cáncer aún no ha sido demostrada. Por lo tanto, un hallazgo de que el hábito de fumar puede de hecho prevenir el cáncer es tan relevante como el planteo del demandante de que los cigarrillos fueron responsables.”

Naturalmente te sientes indignado por la aseveración del abogado de R.J. Morris de que la relación entre el fumar y el cáncer no está probado, pero tienes que dejar eso de lado cuando el abogado de tu amigo te pregunta si no es correcto que el nivel de significancia es simplemente un mecanismo para decidir cuantos desvíos estándar desde el promedio son necesarios para excluir el azar como explicación. Habitualmente, las personas excluyen el azar cuando la prueba estadística resulta en dos desvíos estándar desde el centro de una distribución normal (en realidad 1.96 desvíos estándar, que corresponde a un nivel de significancia de 5% de dos colas). Si la jueza acepta el nivel de significancia de 5% de una cola, aún con un buen argumento de que porque la HA apropiada es de una cola de manera que la probabilidad de error Tipo I es realmente sólo de 5%, una decisión que cumple la prueba estando a 1.65 desvíos estándar del promedio, (correspondiendo a un nivel de significancia de una cola de 5%) puede ser vulnerable en una apelación. Dado que la evidencia científica es sólida, ¿sería mejor estar de acuerdo con una prueba de dos colas?

La jueza mira su reloj, y ves gotas de transpiración en la frente del abogado de tu amigo. Mientras tanto tratas de aclarar los temas que surgieron. Acabas de recibir tu título de Epidemiólogo, y no estás muy seguro aún cómo funciona. Es verdad que la corte de apelación puede rechazar la idea de una prueba de una cola, dado que los jueces de apelación suelen ser conservadores, y es seguro que R.J. Morris apelará un juicio negativo para ellos. Pero entonces te viene una idea nefasta a la mente. ¿Y si R.J. Morris ha inventado evidencia que hace parecer de


alguna manera que tu amigo es responsable de la muerte de su esposa por cáncer de pulmón? Sabes que esto es una locura, ¿pero y si pudieran hacerlo? Con una de dos colas, la corte podría rechazarla y hallar a tu amigo responsable, destruyéndolo financiera y emocionalmente. “De una cola!”, gritas.... y de golpe te despiertas sobresaltado. El profesor y tus colegas estudiantes te están mirando con perplejidad, preguntándose qué pregunta creías estar contestando. A medida que sales del ensueño esperas no haberte perdido demasiado de la clase y juras acostarte más temprano en el futuro.

Pruebas de significancia en una tabla dos por dos

Para una tabla dos por dos, la fórmula puede ser expresada más fácilmente para el cálculo definiendo a “a” como el contenido de una única celda de la tabla, por convención la celda “a” (la de arriba a la izquierda) de manera que E(a)es el valor esperado para “a” bajo la hipótesis nula (n1m1/n), y Var(a) es la varianza de “a” bajo la hipótesis nula {(n1n0m1m0)/[n2(n-1)], basada en la distribución hipergeométrica. Entonces el estadístico de prueba es simplemente:

a – n1m1/n Z = ––––––––––––––––––––––– √{ (n1 n0m1 m0) /[ n2 (n – 1)]}

Una fórmula equivalente pero más fácil de recordar, es:

(ad – bc)2 (n – 1)

Z = √ Χ2 = –––––––––––––– √

n1 n0m1 m0

[Nota: puedes ver la fórmula anterior con n, en vez de (n-1) [p.ej., Hennekins y Buring, p. 251 usa T en vez de (n-1)]. La razón de esto es que la fórmula produce un estadístico Chi Cuadrado de Mantel y Haenszel (basado en la distribución hipergeométrica) en vez del estadístico Chi Cuadrado de Pearson (basado en la distribución normal). Para muestras grandes los dos son esencialmente equivalentes. Hay fórmulas paralelas para datos en persona-tiempo.]

Expuesto a dietilbestrol? Si No Total Casos a b m1 Controles c d m0 Total n1 n0 n

No importa cuanta desconfianza le tengamos al modelo estadístico y su aplicación, los resultados con valor p tan pequeño como el obtenido en este estudio, le producirían satisfacción a cualquier investigador que los obtuviese. Pero para apreciar la dinámica del procedimiento, y los problemas de


interpretación que surgen en las circunstancias que se prestan a más dificultad, analicemos lo que subyace un valor p pequeño.

Un valor p pequeño (i.e., una baja probabilidad de que resultados similares a los observados sean producidos por el “azar” [simulado por un modelo estadístico dado]) refleja:

Una fuerte asociacion observada ( o una diferencia observada grande) o

Un tamaño muestral grande (hablando en forma general).

Por lo tanto, cuando el valor p no es pequeño, hay dos posibilidades (ignorando las posibilidades del error sistemático, modelo estadístico no adecuado, etc.):

1. La asociación o diferencia observada no es fuerte.

2. La asociación observada es de magnitud respetable pero el tamaño del estudio es demasiado pequeño para considerarlo “significante”.

La interpretación de las circunstancias en que no se obtiene un valor p pequeño depende de nuestra interpretación de la magnitud de la asociación observada y de la potencia estadística del estudio para detectar una diferencia verdadera importante.

Si el valor p es pequeño (p.ej., menor al (típico) cinco por ciento, diez por ciento [menos común], o uno por ciento [para los más exigentes o que tienen muchos datos]), los resultados observados son algo inconsistentes con una explicación basada sólo en el azar, de manera que nos inclinamos a considerarlos debidos a algún factor que vale la pena investigar (p.ej., influencias sistemáticas por la manera en que se diseñó o llevó a cabo el estudio, procesos biológicos o sicosociales relacionados a los factores en estudio, etc). Si la diferencia o asociación observada es demasiado pequeña para ser científica o clínicamente significativa (en oposición a estadísticamente significativa), no nos interesará seguir el análisis no importa cual sea el valor de p.

Si el valor p no es pequeño (i.e., los resultados “no son significativos”), ¿se observó una asociación? Si no se observó una asociación, la caracterización apropiada del hallazgo es de “no se observó asociación” (pero, ver más adelante). Si se observa una asociación, podemos decir que “se observó una asociación pero los datos eran insuficientes para descartar el azar como explicación” [no, “no había asociación”!]

Si no se observa asociación, necesitamos preguntarnos además, cuáles eran nuestras posibilidades de detectar una asociación significativa si una existiese. Si la potencia estadística era baja, entonces no podemos decir mucho. Si la potencia estadística era alta, podemos decir que los datos dan evidencia (suponiendo, siempre, que no hay sesgo) en contra de la existencia de una asociación fuerte.

Si la asociación observada es suficientemente fuerte para ser importante si no se debe al azar, la única conclusión a la que podemos llegar es que los datos no proveen suficiente evidencia para


descartar una explicación de debido sólo al azar – lo cual no es equivalente a una conclusión de que “no se observó una asociación” [dado que sí se observó una] o que “la asociación observada se debe al azar” [que nadie sabe si es así]. Otras caracterizaciones a menudo utilizadas también son desafortunadas:

“ La asociación observada no es significante” [lo cual tiende a impugnarla]

“ La asociación no llegó a la significancia estadística” [que implica que la asociación debería haber sido más fuerte – puede ser tan fuerte como debe ser pero basado en demasiado pocos sujetos.]

Es mejor decir “se observó una asociación de ____, pero los datos eran demasiado escasos para descartar una explicación basada en el azar” o algo similar. [Nota: Cualquier resultado puede volverse “no significativo” si estratificamos lo suficiente.]

Una posibilidad alternativa es que la asociación observada era demasiado débil para ser significativa aún si se hubiera asociado a un valor p pequeño. En este caso nuestra conclusión dependería del tamaño del estudio, i.e., su potencia estadística para detectar una asociación de una magnitud particular. Si la potencia era baja, si la capacidad del estudio para detectar una diferencia que consideraríamos importante es baja, entonces no hay mucho que podamos decir o concluir, salvo que nuestro fracaso en encontrar una asociación podría bien ser debido al azar (i.e., podríamos haber cometido un “error de Tipo II”). Esta incapacidad es una de las razones para desaconsejar a los investigadores a emprender estudios pequeños, salvo que sea como estudio piloto para desarrollar procedimientos e instrumentos. Si la potencia era alta, entonces estamos en mejor posición para interpretar nuestros resultados como evidencia contra la existencia de una verdadera asociación.

Potencia estadística y tamaño muestral

La potencia estadística se refiere a la capacidad de detectar una asociación de interés en el marco de un error de muestreo. Supongamos que hay una verdadera asociación de cierta magnitud y grado, pero por culpa del azar nuestros estudios observarán la asociación como más débil o más fuerte. Para estar razonablemente seguros que nuestro estudio detectará la asociación, el estudio tiene que ser suficientemente grande para que el error de muestreo sea controlado.

Por ejemplo, supongamos que estamos comparando un grupo de casos de pacientes con enfermedad de Alzheimer con un grupo control para ver si los casos son diferentes con respecto a la presencia de un gen específico. Supongamos también que este gen está en realidad presente en 20% de los casos y en 10% de la población de la cual surgieron los casos (i.e., el OR en un gran estudio caso control no sesgado sería de 2.25). Si estudiamos 20 casos y 10 controles, podríamos encontrar 4 casos con el gen y dos controles con el gen, de manera de estimar correctamente la prevalencia del gen en los casos y en la población y el OR.

Con tan pocos participantes, podríamos sólo obtener 3 casos con el gen y 3 controles con el gen, no detectando la diferencia en la prevalencia (OR = 1.0). De hecho podríamos tener 4 controles con el gen y sólo 2 casos con el gen de manera que pareciera que el gen es protector (OR = 0.44). Por supuesto, no queremos reaccionar a una diferencia o un OR que podría deberse al azar, de manera


que realizaríamos una prueba a cualquier resultado que observemos para asegurarnos de que es mayor del que se esperaría que ocurriera sólo por azar (i.e., “significativo”). Esto significa que descartaríamos cualquier asociación que observemos si es menor de lo que consideramos dentro de lo esperado por azar. (O recordando nuestra fantasía de la corte, una “preponderancia de la evidencia”, no solamente una sospecha.)

Por lo tanto, para detectar una asociación, debemos (1) observarla en nuestro estudio y (2) decidir que es poco probable que el azar la hubiera creado. Cada uno de estos requerimientos tiene exigencias sobre el tamaño del estudio. Necesitamos por lo menos un número mínimo de sujetos de manera que (1) tengamos una expectativa razonable de observar una asociación si es que alguna existe (i.e., no cometer un error Tipo II), y (2) creamos poco probable que el azar produzca una asociación de esa magnitud.

Potencia estadística para detectar un OR ≠ 1.0 con una prueba de significancia de una cola

Distribución del estadístico de prueba si el verdadero OR =1.0

(H0) z=–1 z=0 z=1 Prob.error Tipo I. (alfa) → zα→ ←zβ

← probabilidad de error Tipo II (beta) z=0 z=1 (HA) Distribución del estadístico deprueba si OR es,

p.ej., 2.25

Este diagrama ilustra la superposición entre los sectores centrales de las distribuciones de los estadísticos de prueba (p.ej., Z) esperadas bajo la hipótesis nula (p.ej., verdadero OR es 1.0) y la hipótesis alternativas (p.ej., verdadero OR es 2.25). Cuando obtenemos los resultados del estudio calcularemos el estadístico de prueba (p.ej., Z) y lo compararemos con su distribución bajo la H0 (la distribución superior de las dos del diagrama). Si el valor calculado de Z es menor que el zα, i.e., cae a la izquierda del punto de corte que hemos determinado (definido por la probabilidad de error Tipo I, alfa), concluiremos entonces que los datos que observamos vinieron de la distribución superior (la de no asociación, verdadero OR =1.0). Aún si el OR que observamos fuera mayor que 1.0 (que implica que Z es mayor de 0), dado que Z no fue mayor que nuestro punto de corte, consideramos el OR observado como una desviación al azar a partir del 1.0. Si la verdad desconocida es que realmente no hay asociación, nuestra conclusión sería correcta. Si en vez el verdadero OR es realmente 2.25, y los datos que observamos en realidad provienen de la distribución inferior, nuestra conclusión representa un error de Tipo II. El área a la izquierda del punto de corte en la distribución


inferior representa la probabilidad de cometer un error de Tipo II, “beta”. La potencia estadística – la probabilidad de detectar una verdadera diferencia- es igual a uno menos beta (i.e.,1 – beta).

A la inversa si observamos un valor de Z a la derecha del punto de corte, concluiremos que los datos que hemos observado no provienen de la distribución superior y que por lo tanto el verdadero OR es mayor que 1.0. Si nos equivocamos – si la asociación que observamos era en realidad un hallazgo casual – nuestra conclusión representa un error de Tipo I. El área a la derecha del punto de corte en la distribución superior representa la probabilidad de cometer un error Tipo I, “alfa”.

Si nos horroriza cometer un error Tipo I, podemos correr el punto de corte a la derecha, lo cual reduce alfa – pero aumenta beta. Si preferimos disminuir beta, podemos correr el punto de corte hacia la izquierda – pero eso aumenta alfa. Lo que realmente querríamos hacer es disminuir tanto alfa como beta, haciendo que las distribuciones sean más estrechas (de manera que más del área sombrada se ubica en el centro de cada distribución, simbolizando una mayor precisión de la estimación). El ancho de la distribución es controlado por el tamaño muestral. Con una luz potente podemos distinguir fácilmente por ejemplo, entre una víbora y un palo. Pero con una luz débil, no podemos estar seguros de lo que estamos viendo. Podemos elegir errar en un sentido o el otro, pero la única forma de disminuir nuestra posibilidad de error es obtener una luz más potente.

Los valores habitualmente usados para alfa y beta son, respectivamente, 0.05 y 0.20 (potencia = 0.80), para una probabilidad total de error de 0.25. Si el tamaño del estudio es limitado por la baja incidencia de la enfermedad, la baja prevalencia de la exposición o una limitación en el presupuesto, nuestras estimaciones del estudio serán poco precisas – las distribuciones en el diagrama anterior serán anchas. La probabilidad total de error estará por debajo de 0.25 sólo cuando la distribución se encuentre más a la derecha, i.e., cuando corresponde a una asociación más fuerte.

En esencia, la intolerancia para el error (i.e., alfa y beta pequeños) y el deseo de detectar asociaciones débiles debe pagarse con el tamaño muestral. En nuestro sueño de la corte judicial, cuanto más posibilidad queremos de ganar el caso contra R.J. Morris (nuestra potencia) y/o cuanto más puede R.J. Morris convencer al Juez que aumente el estándar de evidencia (nivel de significancia), mayor el precio que tendremos que pagar para nuestra representación legal (más sujetos de estudio). El Apéndice contiene un sector que traduce estos conceptos en estimaciones de tamaños muestrales.

Sesgo de los estudios pequeños

En términos amplios, los estudios grandes son potentes, los estudios pequeños son débiles. El concepto de “sesgo de los estudios pequeños” ilustra la importancia de comprender la potencia estadística cuando se interpretan investigaciones epidemiológicas.

La idea detrás del sesgo de los estudios pequeños (Richard Peto, Malcolm Pike, y cols., Br J Cancer 34:585-612, 1976) es que dado que los estudios pequeños son más fáciles de llevar a cabo que los grandes, muchos más son realizados. Los estudios pequeños que no encuentran resultados “significativos” a menudo no son publicados. Las revistas tienden a no interesarse, dado que como se explicó anteriormente, no hay mucha información en un estudio negativo que tiene poca


potencia. Por el contrario, los estudios grandes son costosos e involucran muchos investigadores. Cualesquiera sean los resultados provenientes de un estudio grande, hay más interés de parte de todos para publicarlo.

En la medida que este escenario describe la realidad, el cuerpo de estudios publicados está formado fundamentalmente por estudios pequeños con resultados “significativos” y estudios grandes con resultados “significativos” y “no significativos”. Sin embargo, si hay muchos pequeños (i.e., fáciles, económicos) estudios en marcha, la probabilidad de 5% de cometer un error Tipo I se traduce en un número grande de hallazgos positivos y por lo tanto, de publicaciones. Así, muchos de los pequeños estudios en la literatura están informando errores Tipo I más que verdaderas asociaciones.

El siguiente ejemplo, basado en ensayos aleatorios de tratamientos nuevos, es de un artículo de Peto, Pike, y cols. Supongamos que hay 100 ensayos grandes y 1,000 ensayos pequeños de tratamientos que no difieren en realidad, y 20 ensayos grandes y 200 ensayos pequeños de tratamientos que realmente difieren. Los ensayos grandes tienen una potencia estadística de 95%; los ensayos pequeños tienen una potencia estadística de 25%. El nivel de significancia es de 5%, y sólo los ensayos que tuvieron resultados significativos son publicados. Estos supuestos, algo pesimistas, pero tal vez muy realistas, llevan al siguiente escenario hipotético para el número de ensayos de tratamiento en marcha que son “estadísticamente significativos” (p <0.05):

Tasa de mortalidad

verdadera en Número que se espera

encontrar Tamaño

planificado del ensayo Controles Tratamiento

# de ensayos plantead

os

p>0.05 p<0.05

250 50% 50% 100 95 (VN)* 5 (FP)* 250 50% 33% 20 1 (FN) 19 (VP) 25 50% 50% 1,000 950 (VN) 50 (FP) 25 50% 33% 1,000 150 (FN) 50 (VP)

* VN, FP, FN, VP son una analogía para sensibilidad y especificidad (ver más adelante).

En este escenario, 100 ensayos pequeños con resultados “significativos” serán publicados, pero sólo la mitad de ellos reflejarán una diferencia verdadera entre tratamientos. La conclusión a la que llegan Peto, Pike y cols. es de que hay que prestar atención sólo a los ensayos grandes, sobretodo aquellos suficientemente grandes para ser publicados aún si no encuentran diferencias significativos entre tratamientos.

Estos resultados pueden ser considerados en términos de los conceptos de sensibilidad, especificidad, y valores predictivos. En estos conceptos, la sensibilidad corresponde a la potencia estadística para detectar una verdadera diferencia (95% para los ensayos grandes, 25% para los ensayos pequeños), especificidad corresponde a uno menos el nivel de significancia – la probabilidad de identificar correctamente un resultado aleatorio (95% de especificidad para un nivel de


significancia de 5%), y el valor predictivo positivo es la probabilidad de que un resultado “significativo” de hecho refleje una verdadera diferencia en la efectividad del tratamiento.

Ensayos grandes (p.ej., 250 muertes)

Verdadera tasa de mortalidad en el

grupo de tratamiento (suponiendo una tasa de mortalidad de 50% en el grupo control)

P < 0.05 33% 50% Total Si 19 5 24

No 1 95 96 Total 20 100 120

De esta manera, el valor predictivo de una p < 0.05 = 19/24 = 79%

Ensayos pequeños (p.ej., 25 muertes)

Verdadera tasa de mortalidad en el

grupo de tratamiento (suponiendo una tasa de mortalidad de 50% en el grupo control)

P < 0.05 33% 50% Total Si 50 50 100

No 150 950 1,100 Total 200 1,000 1,200

Valor predictivo de P<.05 = 50/100 = 50%

Evaluando el rol del azar - estimación de intervalos [Los estudiantes de EPID 168 deben conocer de estos conceptos, pero no de los cálculos]

Las pruebas de significancia estadística, con su orientación hacia la toma de decisiones, han caído un poco en desgracia en las investigaciones epidemiológicas. Con la premisa de que un estudio epidemiológico es esencialmente un procedimiento de medición (ver Rothman), se argumenta que el enfoque estadístico más apropiado es uno de estimación (p.ej., de la medida de efecto) más que de prueba de significancia. Por supuesto, igual hay una necesidad de cuantificar el rol del azar, pero en


un marco de estimación el azar es cuantificado por un intervalo de confianza o límites de confianza alrededor de la estimación puntual. Los límites de confianza cuantifican la magnitud de la incertidumbre en una estimación definiendo un intervalo que debería incluir el parámetro poblacional que se intenta estimar (p.ej., medida de efecto) un porcentaje conocido de las veces. Varios autores han argumentado que los intervalos de confianza son superiores a los valores p como mecanismo de cuantificar el grado de error aleatorio subyacente a la asociación.

Los intervalos de confianza contestan la pregunta, “¿qué posibles valores de un parámetro poblacional (p.ej., razón de densidad de incidencia) son consistentes con los resultados observados?” Dicho de otra manera, “¿cuál es rango de verdaderos valores que, cuando son distorsionados por influencias no sistemáticas, podrían producir los resultados observados?” Los intervalos de confianza pueden dar información sobre la precisión de una estimador o estimadores basado en la cantidad de datos disponibles para el estimador. Si no se observó una asociación “significativa”, el intervalo de confianza puede dar una idea de que tan fuerte puede ser una asociación existente y sin embargo, por efecto del azar, no ser observada.

La naturaleza de un intervalo de confianza y lo que puede y no puede dar, sin embargo, es un poco complicado (basado en una discusión sobre intervalos de confianza en la lista de internet STAT-L que se prolongó durante semanas y atrajo una cantidad de respuestas y contra-respuestas). La perspectiva frecuentista es que un “intervalo de confianza del 95%” es un intervalo obtenido por un procedimiento que el 95% de las veces produce un intervalo que contiene el verdadero parámetro. En forma ideal, un intervalo del 95% sería aquel que “contiene el parámetro con una probabilidad de 95%”. Pero los frecuentistas argumentan que el intervalo es fijado por los datos, y el parámetro poblacional ya existe en la naturaleza. El parámetro puede o no, estar en el intervalo. No hay probabilidades involucradas en eso. Lo único que podemos decir es que el 95% de las veces el procedimiento obtendrá un intervalo que incluye el valor del parámetro (y que el 5% de las veces el procedimiento producirá un intervalo que no lo contiene). Desde esta perspectiva,un intervalo de 95% es como un estudiante que típicamente saca 95% del puntaje – la probabilidad de que él o ella dará la respuesta correcta a una pregunta es 95%, pero la respuesta que él o ella da para una pregunta particular puede ser correcta o incorrecta.

Como calcular un intervalo de confianza para una medida de efecto de razón

Los cursos introductorios de bioestadística incluyen los métodos para obtener intervalos de confianza del 95% para la estimación de la proporción poblacional p. Si la muestra es suficientemente grande de forma que np > 5 y n(1-p) > 5, los límites de confianza son:

p ± 1.96 √ [var(p)]

p ± 1.96 √[p(1 – p)/n]

donde p es la proporción observada, var(p) es la varianza de la estimación de p (de manera que √var (p) es el error estándar), y n es el número de observaciones. Para una proporción, var(p) es igual a p(1 – p)/n.

Possible true values Observed result

The concept behind the confidence interval


Este método puede ser usado para estimar intervalos de confianza para prevalencia, incidencia acumulada, y otras proporciones simples. Muchas medidas epidemiológicas, sin embargo, son razones (p.ej., RIC, RDI, y OR). Dado que las medidas de efecto de razón tienen distribuciones fuertemente asimétricas (la mayor parte de los valores posibles caen a la derecha del valor nulo, 1.0, el enfoque habitual es estimar primero el intervalo de confianza para el logaritmo natural [ln(RIC), ln(RDI),o ln(OR)] y luego tomar el anti-logaritmo (exponente) de los límites de confianza:

IC 95% para ln(OR) = ln(OR) ± 1.96 √{var[ln(OR)]}

IC 95% para OR = exp{ln(OR) ± 1.96 √([var[ln(OR)])}

= OR exp{± 1.96 √([var([ln(OR)])}

Para obtener la varianza del ln(OR), usamos una fórmula simple (que ha sido derivada por medio de una aproximación de series de Taylor al ln[OR]):

var{[ln(OR)] = 1/a + 1/b + 1/c + 1/d}

que funciona bien si a, b, c, y d tienen todos valores de por lo menos 5.

Por lo tanto el intervalo de confianza del 95% para el ln(OR) es:

ln(OR) + 1.96 √[(1/a + 1/b + 1/c + 1/d)]

y el intervalo de confianza del 95% para el OR es:

OR exp{+ 1.96 √ (1/a + 1/b + 1/c + 1/d)}

o

OR e+ 1.96 √ (1/a + 1/b + 1/c + 1/d)

Las formulas de los intervalos de confianza de la RIC y la RDI se pueden encontrar en Kleinbaum, Kupper y Morgenstern y Rothman y Greenland. Por cierto, si la población de estudio es muy seleccionada (i.e., no representativa de ninguna otra población de interés), ¿qué tan útil es el valor de una estimación?

ADVERTENCIA IMPORTANTE: toda esta sección, obviamente, se ha basado en el supuesto de que el muestreo y la medición son perfectas (no sesgados, independientes). Cualquier cosa que no sea una muestra al azar simple no sesgada y cualquier error de medición invalidará lo anterior por lo menos en alguna medida.

Meta-análisis

El meta-análisis es un enfoque cuantitativo para resumir y sintetizar los hallazgos de distintos estudios sobre una relación particular de interés. El meta-análisis surge del reconocimiento de que el fracaso en encontrar “resultados significativos” puede deberse tanto a una limitación de la potencia

_____________________________________________________________________________________________ www.epidemiolog.net, © Victor J. Schoenbach 14. Análisis e interpretación de datos – 482rev. 11/8/1998, 10/26/1999, 12/26/1999, trad. 7.7.2004

estadística de los estudios individuales como a la ausencia de una relación. La combinación de información a partir de múltiples estudios puede dar una evaluación más precisa y definitiva de la existencia y fuerza de una relación que la que se obtiene de un único estudio o, se ha argumentado, de la revisión no cuantitativa de la literatura.

Hay cuatro pasos en la realización de un meta-análisis: 1) formulación del problema, 2) identificación de los trabajos (publicados y no publicados), 3) codificación y evaluación de los trabajos, y 4) análisis estadístico. Los pasos 2) y 3) son esenciales para la validez del meta-análisis, dado que las conclusiones que surjan del meta-análisis dependerán de lo adecuado que sea la evidencia sobre la relación representada por los trabajos de investigación que son incluidos finalmente en el análisis (la posibilidad de un sesgo de publicación contra los estudios “negativos” implica que se debe realizar un esfuerzo para ubicar los estudios no publicados). La estrategia para el análisis estadístico puede ser similar al del análisis estratificado, tomando cada trabajo como un “estrato” separado. Enfoques más refinados reconocen que los propios trabajos pueden ser considerados una muestra de un universo de trabajos posibles, de manera que el plan de ponderación necesita tomar en cuenta la variabilidad entre estudios además de la variabilidad intra-estudio (como en el modelos de efectos aleatorios del análisis de varianza).

En su forma pura, se predica el meta-análisis basado en el supuesto de que el conjunto de trabajos representa una muestra al azar de observaciones obtenidas en forma equitativa de una asociación, de manera que las diferencias entre los trabajos pueden ser consideradas variabilidad aleatoria (de muestreo). Así una medida de resumen construida por la combinación de estudios nos da una estimación más precisa de la verdadera asociación. En la práctica real, sin embargo, los estudios epidemiológicos raramente son equivalentes, dado que difieren a menudo en cuanto a la población estudiada, las medidas tomadas, y los enfoques analíticos. Aún los estudios que parecen ser equivalentes (p.ej. “estudio caso control basado en población, no apareado, con una medida fisiológica de la exposición y controlado para el mismo conjunto de potenciales factores de confusión”) serán diferentes en formas menos obvias: las poblaciones probablemente sean diferentes en maneras desconocidas y no medidas, los sistemas de diagnóstico de la enfermedad pueden ser distintos entre poblaciones, los factores de respuesta en la selección de controles pueden ser diferentes, los procedimientos de recolección y los análisis de laboratorio de la exposición pueden ser diferentes en formas sutiles que, sin embargo, pueden afectar los resultados (p.ej., ver los ejemplos que involucran las pruebas para VIH y los análisis de homocisteína en J Clin Epidemiol 2001(5)), y pueden diferir los métodos de recolección de datos y el manejo analítico de los potenciales factores de confusión. Una exploración de la heterogeneidad en los meta-análisis de estudios de Síndrome de Muerte Súbita del Lactante y posiciones al dormir (Dwyer et al, 2001) demuestra algunos de estos temas.

Interpretación de los resultados: Preguntas claves 1. ¿Qué tan buenos son los datos?2. ¿Podría el azar o algún sesgo explicar los resultados?3. ¿Cómo se comparan los resultados con los de otros trabajos?4. ¿Qué teorías o mecanismos podrían explicar los hallazgos?5. ¿Qué hipótesis nuevas son sugeridas?6. ¿Cuáles son los próximos pasos de investigación?7. ¿Cuáles son las implicancias clínicas y de políticas?


Bibliografía

General

Ahlbom, Anders. Biostatistics for epidemiologists. Boca Raton, Florida, Lesis Publishers, 1993, 214 pp., $45.00 (reviewed in Am J Epidemiol, April 15, 1994).

Bailar, John C., III; Thomas A. Louis, Philip W. Lavori, Marcia Polansky. Studies without internal controls. N Engl J Med 1984; 311:156-62.

Bauer UE, Johnson TM. Editing data: what difference do consistency checks make. Am J Epidemiol 2000151:921-6.

Bulpitt, C.J. Confidence intervals. The Lancet 28 February 1987: 494-497.

Dwyer, Terence; David Couper, Stephen D. Walter. Sources of heterogeneity in the meta-analysis of observational studies: The example of SIDS and sleeping position. J Chron Dis 2001;54:440-447.

Feinstein, Alvan R. The fragility of an altered proportion: a simple method for explaining standard errors. J Chron Dis 1987; 40:189-192.

Feinstein, Alvan R. X and iprr: An improved summary for scientific communication. J Chron Dis 1987; 40:283-288.

Frank, John W. Causation revisited. J Clin Epidemiol 1988; 41:425-426.

Gerbarg, Zachary B.; Ralph I. Horwitz. Resolving conflicting clinical trials: guidlines for meta-analysis. J Clin Epidemiol 1988; 41:503-509.

Glantz, Stanton A. Primer of biostatistics. NY, McGraw-Hill, 1981.

Godfrey, Katherine. Comparing means of several groups. N Engl J Med 1985;313:1450-6.

Hertz-Picciotto, Irva. What you should have learned about epidemiologic data analysis. Epidemiology 1999;10:778-783.

Northridge, Mary E.; Bruce Levin, Manning Feinleib, Mervyn W. Susser. Statistics in the journal–significance, confidence, and all that. Editorial. Am J Public Hlth 1997;87(7):1092-1095.

Powell-Tuck J, MacRae KD, Healy MJR, Lennard-Jones JE, Parkins RA. A defence of the small clinical trial: evaluation of three gastroenterological studies. Br Med J 1986; 292:599-602.


Ragland, David R. Dichotomizing continuous outcome variables: dependence of the magnitude of association and statistical power on the cutpoint. Epidemiology 1992;3:434-440

Rothman - Modern Epidemiology, Chapters 9, 10, 14.

Schlesselman - Case-control studies, Chapters 7-8. (Especially the first few pages of each of these chapters).

Woolf SH, Battista RN, Anderson GM, Logan AG, et al. Assessing the clinical effectiveness of preventive maneuvers: analytic principles and systematic methods in reviewing evidence and developing clinical practice recommendations. J Clin Epidemiol 1990; 43:891-905.

Zeger, Scott L. Statistical reasoning in epidemiology. Am J Epidemiol 1991; 134(10):1062-1066.

El papel de las pruebas de hipótesis estadísticas, los intervalos de confianza y otras medidas de resumen de significancia estadística y precisión de las estimaciones

Allan H. Smith and Michael N. Bates. Confidence limit analyses should replace power calculations in the interpretation of epidemiologic studies. Epidemiology 1992;3:449-452

Browner, Warren S.; Thomas B. Newman. Are all significant P values created equal? JAMA 1987; 257:2459-2463.

Fleiss, Joseph L. Significance tests have a role in epidemiologic research: reactions to A.M. Walker (Am J Public Health 1986; 76:559-560). See also correspondence (587-588 and 1033).

George A. Diamond and James S. Forrester. Clinical trials and statistical verdicts: probable grounds for appeal. Annals of Internal Medicine 1983; 93:385-394

Greenland, Sander. Randomization, statistics, and causal inference. Epidemiology 1990;1:421-429.

Maclure, Malcome; Greenland, Sander. Tests for trend and dose response: misinterpretations and alternatives. Am J Epidemiol 1992;135:96-104.

Mood, Alexander M. and Franklin A. Graybill. Introduction to the theory of statistics. 2ed. NY, McGraw-Hill, 1963.

Oakes, Michael. Statistical inference. Chestnut Hill, Mass., Epidemiology Resources, 1986.

Peace, Karl E. The alternative hypothesis: one-sided or two-sided? J Clin Epidemiol 1989; 42(5):473-477.


Poole, Charles. Beyond the confidence interval Am J Public Health 1987; 77:195-199.

Poole, C. Confidence intervals exclude nothing Am J Public Health 1987; 77:492-493. (Additional correspondence (1987; 77:237)).

Savitz DA, Tolo KA, Poole C. Statistical significance testing in the American Journal of Epidemiology, 1970-1990. Am J Epidemiol 1994;139:1047-.

Thompson, W. Douglas. Statistical criteria in the interpretation of epidemiologic data Am J Public Health 1987; 77:191-194.

Thompson, W.D. On the comparison of effects Am J Public Health 1987; 77:491-492.

Walker, Alexander M. Reporting the results of epidemiologic studies Am J Public Health 1986; 76:556-558.

Woolson, Robert F., and Joel C. Kleinman. Perspectives on statistical significance testing. Annual Review of Public Health 1989(10).

Estimación de tamaño muestral

Donner A, Birkett N, and Burk C. Randomization by Cluster: sample size requirements and analysis. Am J Epidemiol 1981; 114:706

Snedecor GW, Cochran WG. Statistical Methods, 1980 (7th ed) see pages 102-105, 129-130 (Table A is from page 104).

Imputación

Heitjan, Daniel F. Annotation: what can be done about missing data? Approaches to imputation. Am J Public Hlth 1987;87(4):548-550.

Little RJA, Rubin DB. Statistical analysis with missing data. NY, Wiley, 1987.

Interpretación de múltiples pruebas de significancia estadística

Bulpitt, Christopher J. Subgroup analysis. Lancet 1988 (July 2);31-34.

Cupples, L. Adrienne; Timothy Heeren, Arthur Schatzkin, Theodore Coulton. Multiple testing of hypotheses in comparing two groups. Annals of Internal Medicine 1984; 100:122-129.

Holford, Theodore R.; Stephen D. Walter, Charles W. Dunnett. Simultaneous interval estimates of the odds ratio in studies with two or more comparisons. J Clin Epidemiol 1989; 42(5):427-434.


Jones, David R. and Lesley Rushton. Simultaneous inference in epidemiological studies. Int J Epidemiol 1982;11:276-282.

Lee, Kerry L., Frederick McNeer, Frank Starmer, et al. Lessons from a simulated randomized trial in coronary artery disease. Circulation 61:508-515, 1980.

Stallones, Reuel A. The use and abuse of subgroup analysis in epidemiological research. Preventive Medicine 1987; 16:183-194 (from Workshop on Guidelines to the Epidemiology of Weak Associations)

See also Rothman, Modern Epidemiology.

Interpretación de estudios “negativos”

Freiman, Jennie A., Thomas C. Chalmers, Harry Smith, Jr., and Roy R. Kuebler. The importance of beta, the Type II error and sample size in the design and interpretation of the randomized control trial. N Engl J Med 1978;299:690-694.

Hulka, Barbara S. When is the evidence for `no association' sufficient? Editorial. JAMA 1984; 252:81-82.

Meta-análisis

Light, R.J.; D.B. Pillemer. Summing up: the science of reviewing research. Cambridge MA, Harvard University Press, 1984. (very readable)

Longnecker M.P.; J.A. Berlin, M.J. Orza, T.C. Chalmers. A meta-analysis of alcohol consumption in relation to risk of breast cancer. JAMA 260(5):652-656. (example)

Wolf, F.M. Meta-Analysis: quantitative methods for research synthesis. Beverly Hills, CA, Sage, 1986.

Sesgo

Greenland, Sander. The effect of misclassification in the presence of covariates. Am J Epidemiol 1980; 112:564-569.

Walter, Stephen D. Effects of interaction, confounding and observational error on attributable risk estimation. Am J Epidemiol 1983;117:598-604.

_____________________________________________________________________________________________ www.epidemiolog.net, © Victor J. Schoenbach 14. Análisis e interpretación de datos – 494rev. 11/8/1998, 10/26/1999, 12/26/1999, trad. 7.7.2004

Meditaciones sobre pruebas de hipótesis y significancia estadística

La teoría estadística de prueba de hipótesis y evaluación de la “significancia” estadística surge de un análisis de toma de decisiones con respecto a dos hipótesis que compiten: una hipótesis “nula” y una hipótesis alternativa. Dos tipos de errores son posibles.

Tipo I: Rechazar equivocadamente la “hipótesis nula” (H0), a favor de la hipótesis alternativa (HA), i.e., rechazar errónemante al azar como explicación suficiente para los resultados observados.

Tipo II: Equivocadamente no logramos rechazar H0, i.e., erróneamente aceptamos el azar como explicación. [veremos una dicotomía paralela más adelante en el curso cuando discutamos sensibilidad y especificidad.]

Tradicionalmente, la probabilidad de error de Tipo I ha recibido más atención y es conocido como el “nivel de significancia” de la prueba. El error de Tipo I presumiblemente debe su importancia al deseo de la comunidad científica para evitar falsas alarmas, i.e., para evitar reaccionar frente a resultados que bien podrían ser fluctuaciones aleatorias. Por otro lado, la probabilidad de error de Tipo I es más fácil de estimar, dado que la probabilidad de error de Tipo II depende de la identificación del tamaño de la verdadera diferencia que uno busca detectar.

En las últimas décadas, el cálculo y la presentación de valores p (que dan información sobre la probabilidad del error de Tipo I) se han vuelto de rigor en la literatura científica empírica. De hecho, hay un número significativo (!) de personas que se niegan a prestar atención a resultados que tienen valores de p mayores de .05 (probabilidad de un error de Tipo I).

Esta actitud es un buen artefacto para generar trabajo, pero tal vez sea un poco cruel. Después de todo, un resultado con un valor p de .10 resultaría de un proceso aleatorio en sólo uno de diez ensayos. ¿Debería descartarse semejante hallazgo? Es más, dado que el valor p refleja el número de sujetos además del tamaño de la diferencia observada, un pequeño estudio tendría valores p muy pequeños sólo en el caso de diferencias observadas muy grandes (¿y tal vez poco realistas?) Si el tamaño de la diferencia observada es extraordinariamente grande, podemos sentir cierta sospecha sobre el hallazgo, a pesar de un valor p pequeño. Si la diferencia observada es plausible, pero el valor p es “no significativo” porque el estudio es pequeño, podríamos tal vez prestarle algo de atención.

Otra razón para un enfoque reflexivo de los valores p (y la estadística inferencial en general) es que las propias estimaciones de probabilidad son precisas sólo con respecto a los modelos que los subyacen. No sólo ocurre que los modelos matemáticos pueden no captar adecuadamente la verdadera situación, sino que además el contexto en que son utilizados puede confundir aún más la situación. Un supuesto crítico es el del muestreo al azar o aleatorización (como en un ensayo

APENDICE:


aleatorio controlado).Aunque este supuesto es la base de toda la teoría estadística de prueba de hipótesis e intervalos de confianza, raramente se logra en los estudios observacionales y las limitaciones que impone sobre la interpretación de las pruebas estadísticas a menudo son poco apreciadas (Greenland S. Randomization, statistics, and causal inference Epidemiology 1990;1:421-249).

Los problemas de interpretación existen aún en los ensayos clínicos aleatorizados. Por ejemplo, el valor p de un único resultado en un único estudio puede ser 5 por ciento. Pero eso significa que 20 estudios independientes de dos fenómenos idénticos observarían, en promedio, una diferencia que resulta “significativa” al nivel de cinco por ciento. Un investigador prolífico que lleva a cabo 200 estudios en su vida profesional puede esperar que diez sean “significativos” sólo por azar. Es más, un estudio a menudo investiga múltiples resultados, incluyendo maneras diferentes de definir las variables involucradas.

Estas “comparaciones múltiples” aumentan la probabilidad de que diferencias al azar sean consideradas “significativas”. Pero los procedimientos estadísticos para manejar esta “inflación de significancia” tienden, igual que las medidas para controlar la inflación de precios o inflación de notas académicas, a producir recesión o aún depresión [de los hallazgos del estudio.] ¿Debería obligarse a un investigador a jurar que (1) especificó una hipótesis a priori, incluyendo los procedimientos para definir y manipular todas las variables, decisiones sobre todas las relaciones a examinar, qué factores controlar, etc; (2) procedió directamente a la prueba estadística pre-especificada sin mirar los demás datos; y (3) no llevará a cabo más pruebas estadísticas con los mismos datos? (Ver Modern Epidemiology para más discusión sobre estos temas.)

¿Y qué ocurre con las llamadas “expediciones de pesca” (N.T. “fishing expeditions” en inglés) en que un investigador (o su computadora) estudian una base de datos para encontrar relaciones “significativas”? ¿Debe caracterizarse este procedimiento como “busca y encontrarás” o más bien “búsqueda y destrucción”? Algunos analistas recomiendan ajustar el nivel de significancia para tomar en cuenta dichas “comparaciones múltiples”, pero un investigador con energías puede llevar a cabo suficientes pruebas de manera que el nivel de significancia ajustado es imposible de lograr. Otros autores (p.ej., Rothman, Poole) aseguran que no es necesario ajustar – que una vez que los datos están incluidos, el número de pruebas no es relevante. Otros (p.ej. Greenland) han propuesto enfoques más sofisticados al ajuste. Tal vez el mejor camino en este momento es doble:

(1) Si estás llevando a cabo una investigación, por ejemplo, en ensayo aleatorizado, en que tienes grandes posibilidades de satisfacer los supuestos de una prueba de hipótesis estadística y esperas probar una hipótesis específica, sobretodo una que pueda ayudar a tomar una decisión, probablemente sea mejor adherir lo mejor posible al formato de prueba de hipótesis de Neyman-Pearson. Este enfoque asegura el máximo impacto de tus resultados;

(2) Si estás llevando a cabo una investigación con algunas de las características anteriores, o ya has completado la prueba de hipótesis establecida a priori, analiza todo lo que quieras pero sé cándido describiendo como has procedido. Así los lectores podrán interpretar los resultados como consideren más apropiado.


La potencia aparente (calculada) raramente se logra porque amenudo supone que no hay errores en la clasificación de los participantes. Un estudio con una potencia anunciada de 90% podría haber tenido una probabilidad mucho menor de detectar una verdadera diferencia dada por la dilución producida por un sesgo de información. De igual manera, podemos en principio mejorar la potencia efectiva de un estudio si podemos aumentar la precisión con que las variables importantes son medidas.

Louis Guttman ha escrito que la estimación y aproximación, nunca olvidando la replicación, pueden ser más productivos que la prueba de significancia para el desarrollo de la ciencia. . [Louis Guttman. What is not what in statistics. The Statistician 25(2):81-107.]

La replicación independiente es el pilar del conocimiento científico.

Enfoque Bayesiano de la interpretación de un valor p

La utilización de los conceptos de sensibilidad, especificidad, y valor predictivo para interpretar pruebas de hipótesis estadísticas sugiere una analogía entre las pruebas estadísticas y las pruebas diagnósticas (ver Browner y Newman, 1987; Diamond y Forrester, 1983; y Feinstein, Clinical Biostatistics). Así como la interpretación de una prueba diagnóstica depende de la prevalencia de la enfermedad (la “probabilidad a priori de que el paciente tiene la enfermedad”) la interpretacion de las pruebas estadísticas puede ser considerado como dependiente de “la prevalencia de la verdad”, i.e., la razonabilidad de la hipótesis.

Como señalamos anteriormente, nos gustaría que la inferencia estadística nos diera una estimación de la probabilidad de que la hipótesis de interés (H) es verdadera dados los resultados observados. En vez, el valor p nos da la probabilidad de observar un resultado extremo bajo una hipótesis nula (clásicamente la inversa de la hipótesis de interés). El enfoque bayesiano de la interpretación de los valores p trata de dar una respuesta que se acerca más al objetivo original. En el enfoque bayesiano, comenzamos con una probabilidad previa para la verdad de la hipótesis y luego ajustamos esa probabilidad basándonos en los resultados de una investigación, para obtener una probabilidad posterior. El efecto que pueden tener los resultados de estudio sobre nuestra evaluación de la credibilidad de la hipótesis depende de nuestra evaluación originad de su credibilidad.

T significa que una prueba estadística es “significativa”. Según el Teorema de Bayes, si Pr(H) es la probabilidad “a priori” de H, i.e., la probabilidad de que H sea verdadera se basa sólo en información previa, entonces la probabilidad de H a posteriori (la probabilidad de que H sea verdadera basado en información previa y el resultado de la actual prueba) es:

Pr(H) Pr(T|H) Pr(H|T) = ––––––––––––––––––––––––––––

Pr(H) Pr(T|H) + Pr(h) Pr(T|h)

[donde Pr(T|h) significa la probabilidad de una prueba positiva dada una hipótesis que no es verdadera] lo cual puede escribirse como:


Pr(H) Pr(T|H) Pr(H|T) = –––––––––––––––––––––––––––––––

Pr(H) Pr(T|H) + [1 – Pr(H)] Pr(T|h)

Dado que Pr(T|H) es la potencia estadística (la probabilidad de una prueba positiva dada una hipótesis verdadera) y Pr(T|h) es el valor p (la probabilidad de una prueba positiva dada una hipótesis que no es verdadera), la probabilidad posterior puede expresarse como:

Pr(H) (potencia)

Pr(H|T) = ––––––––––––––––––––––––––––––– Pr(H) (potenciar) + [1 – Pr(H)] (valor p)

Pr(H|T) es por lo tanto una función de la probabilidad “a priori” de la hipótesis, la potencia estadística y el valor p. Por lo tanto el valor p tiene más impacto sobre Pr(H|T) cuando Pr(H) es pequeña (i.e., cuando una hipótesis no es respaldada por investigación previa o datos de laboratorio) (ver Diamond y Forrester).

Para tener una idea de cómo funcionan estas fórmulas con los valores típicos para los múltiples elementos, veamos las siguientes tablas:


Evaluación de la probabilidad posterior basada en la probabilidad previa, la potencia estadística y el valor p

Probabilidad previa

(Antes del estudio)

Potencia estadística

del estudio

Valor P (Hallazgos

del estudio)

Probabilidad

Posterior (Después

del estudio)

Pr(H) Pr(T|H) Pr(T|h) Pr(H|T)

Hipótesis 0.60 0.8 0.100 0.92 creíble 0.60 0.8 0.050 0.96 Alta

potencia 0.60 0.8 0.001 1.00 0.60 0.5 0.100 0.88 0.60 0.5 0.050 0.94 Baja

potencia 0.60 0.5 0.001 1.00

_Hipótesis 0.05 0.8 0.100 0.30 poco creíble 0.05 0.8 0.050 0.46 Alta

potencia 0.05 0.8 0.001 0.98 0.05 0.5 0.100 0.21 0.05 0.5 0.050 0.34 Baja

potencia 0.05 0.5 0.001 0.96

En esta tabla, por ejemplo, un valor p muy fuerte (p.ej., 0.001) da una alta credibilidad (probabilidad posterior) aún para una hipótesis poco creible estudiada en una investigación de poca potencia estadística. Un valor p que es “apenas significativo”, sin embargo, no hace que la hipótesis sea altamente creíble salvo que se considere más probable que no, antes del estudio. Aún un valor p “no significativo” (p.ej., 0.10) nos aumenta en algo la credibilidad de la hipótesis, de manera que en el pensamiento bayesiano un valor p de 0.10 no se consideraría un resultado “negativo” que hiciera dudar la existencia de una asociación. El meta-análisis, donde los resultados de múltiples estudios son combinados para obtener una evaluación cuantitativa de la asociación del total del cuerpo de evidencia, también toma en cuenta la evidencia a favor de la asociación de estudios que observaron una asociación pero que tuvieron un valor p mayor de 0.05. El uso formal de los métodos Bayesianos en el trabajo diario, sin embargo, está algo restringido por la ausencia de un método obvio para obtener una probabilidad previa.


Más meditaciones sobre la interpretación depruebas de significancia estadísticas

Algunos conceptos de la interpretación de las pruebas estadísticas de significancia pueden talvez ser ilustrados a través de un ejemplo basado en el glorioso origen de la teoría de probabilidad – los juegos de azar. Supongamos que un amigo te dice que tiene una intuición sobre la rueda de la ruleta. Mirando al que hace girar la rueda, tu amigo puede, según asegura, predecir donde caerá la bola dentro de un margen muy pequeño. Si para simplificar el ejemplo, la ruleta tiene los números 1-100, tu amigo dice que puede predecir los números en que caerá la bola. Quiere que le entregues dinero para mandarlo a Monte Carlo para hacer una fortuna para todos.

Naturalmente te entusiasma la idea de la riqueza instantánea pero también estás un poco escéptico. Para verificar la afirmación de tu amigo, llevas a cabo una prueba estadística. Le das a tu amigo $5 para que demuestre su habilidad en el casino local, y esperas los resultados para ver que pasa.

La hipótesis nula para tu prueba estadística es que tu amigo no tiene una habilidad especial de manera que sus posibilidades de predecir el lugar en que caerá la bola en cualquier vuelta son simplemente 1 en 100 (.01). La hipótesis alternativa de una cola es que tu amigo sí tiene esa habilidad y puede predecir el número correcto en forma más frecuente que 1 en 100 veces. [la hipótesis alternativa de dos colas es que tu amigo va predecir el lugar en que cae la bola más veces que las esperadas por el azar, o menos veces que lo esperado.]

Tu amigo vuelve con $400. Sabiendo que la probabilidad de que estuviera en lo cierto en cualquier vuelta sólo por azar es sólo 1%, tú estás impresionado. ¡Su desempeño fue “significativo al nivel .01”! ¿Le financias el viaje a Monte Carlo? ¿Cómo interpretas sus predicciones correctas?

¿Es correcto decir que hay sólo una probabilidad de 1% que la precisión de su predicción se debió a la “suerte”? No exactamente. Según la interpretación frecuentista, la predicción fue hecha y la rueda de la ruleta ya ha girado. La precisión se debió al “azar” (“suerte”) o a la habilidad de tu amigo, pero sólo uno de los dos fue realmente resposable en ese momento. De manera que la probabilidad de que la predicción correcta se debió al azar es cero (i.e., tu amigo puede predecir) o uno (tu amigo no puede predecir.) ¡El único problema es que no sabes cuál es el caso aquí!

Puedes decir (antes de que gire la rueda y suponiendo que es una rueda balanceada) que si tu amigo no tenía una habilidad especial había sólo una probabilidad de uno por ciento de que hiciera una predicción correcta y que por lo tanto el hecho de que haya ganado es evidencia en contra de la hipótesis nula (de no habilidad) y a favor de la hipótesis alternativa (habilidad de predecir). Si tienes que decidir ese mismo día, puedes calcular que valdría la pena financiarle el viaje a Monte Carlo, pero estarías al tanto de que su predicción correcta podría deberse al azar porque había una probabilidad de uno por ciento de que en ausencia de cualquier clarividencia su predicción hubiera sido correcta (no es exactamente lo mismo que una probabilidad de uno por ciento de que su predicción correcta se debió al azar.) De manera que le das a tu amigo $2,000. Te lo agradece efusivamente, y al partir, te comenta que en realidad le llevó 30 intentos para realizar la predicción correcta - pidió prestado el dinero para los otros 29 intentos.


Esta información te hace pensar. Seguramente no te hubiera impresionado tanto si te hubiera dicho que podía hacer una predicción correcta en 30 intentos. Si la probabilidad de una predicción correcta (i.e., adivina correctamente) en ausencia de cualquier habilidad especial es 0.01, la probabilidad de una o más adivinanzas correctas en 30 intentos es 0.26 (1.0 menos la cantidad 0.99 elevado a la potencia 30). Veintiséis por ciento sigue siendo menor que 50%, i.e., la probabilidad de ganar usando la tirada de una moneda, pero no en forma impresionante. La evidencia en contra de la hipótesis nula no es ahora tan fuerte. Este cambio en tu interpretación demuestra los puntos que surgen en relación con pruebas de significancia múltiples y sesgos de los estudios pequeños.

Es posible, usando la teoría estadística, ajustar los niveles de significancia y los valores p para tomar en cuenta el hecho de que se han realizado múltiples pruebas de significancia independientes. Pero hay varios problemas prácticos para la aplicación de dichos procedimientos, uno de los cuales es la falta de independencia entre las múltiples pruebas en un conjunto particular de datos. Por ejemplo, si tu amigo explicara que hace una predicción incorrecta tan raramente que cuando le ocurre se molesta tanto que le lleva una hora entera (y 29 predicciones más) recuperar su capacidad de predecir, aunque sigas siendo escéptico te sería muy difícil calcular un valor p ajustado para tu prueba si creyeras que te está diciendo la verdad. De igual manera, en un conjunto dado de datos, ¿el hecho de que el investigador pruebe la misma diferencia de distintas maneras (p.ej., obesidad indexada por peso/altura2 [índice de Quetelet], peso/altura 3 [índice ponderal], por ciento encima del peso ideal, grosor del pliegue, y densidad corporal) debilita los hallazgos de cada prueba? Si también mirara las diferencias de presión arterial, ¿eso debilitaría la credibilidad de la significancia estadística de las diferencias en obesidad?

“Pagas tu dinero, y eliges lo que quieras”.


CONTENIDO 9

International Journal of Clinical and Health Psychology ISSN 1697-2600 2007, Vol. 7, No. 3, pp. 863-882

Normas para el desarrollo y revisión de estudios instrumentales: consideraciones

sobre la selección de tests en la investigación psicológica

Hugo Carretero-Dios1 y Cristino Pérez (Universidad de Granada, España)

(Recibido 7 de mayo 2007 / Received May 7, 2007) (Aceptado 11 de junio 2007 / Accepted June 7, 2007)

RESUMEN. En este trabajo se discuten los criterios a tener en cuenta a la hora de seleccionar tests de evaluación psicológica en un contexto de investigación. Tradicionalmente la atención se ha centrado y se centra sobre las fases que deben regir todo proceso de construcción/adaptación de tests. Estándares internacionalmente aceptados sirven para dirigir este trabajo, y la comunidad científica coincide en la importancia de éstos. No obstante, y más allá de cualquier proceso de construcción/adaptación, el hecho es que el uso de tests es una constante en la investigación psicológica, y una adecuada selección de las pruebas resulta un asunto de vital importancia. Por ello, y esquematizando en primer lugar los criterios que deben guiar la construcción/adaptación de test, en este estudio teórico se desarrollan unas directrices generales a tener en cuenta a la hora de seleccionar tests para efectuar una investigación psicológica. La información va a presentarse organizada en un total de seis apartados, cada uno de los cuales corresponde a una fase distinta dentro del proceso de creación de tests: a) delimitación conceptual del constructo objeto de evaluación; b) información sobre la construcción y evaluación cualitativa de ítems; c) resultados del análisis estadístico de los ítems; d) evidencias empíricas de la estructura interna de la prueba; e) resultados de la estimación de la fiabilidad; y f) evidencias externas de la validez de la puntuaciones. Se finaliza el trabajo reflexionando sobre el alcance de las directrices propuestas y sobre la importancia de seleccionar bajo criterios claros los tests que vayan a usarse en una investigación.

PALABRAS CLAVE: Normas para la revisión de estudios instrumentales. Construcción de tests. Adaptación de tests. Selección de tests. Estudio Teórico.

ABSTRACT. This paper discusses the criteria that should be considered when selecting psychological assessment tests in a research context. Traditionally attention has focused – and still does – on the stages that must govern any process of test construction/adaptation. This work is guided by internationally accepted standards, whose scientific importance is agreed by the scientific community. However, beyond any construction/adaptation process, the use of tests is a constant feature of psychological research, so it is of vital importance to select the tests adequately. For this reason, in this theoretical study we provide a summary of the criteria that should guide test construction/adaptation as well as some general

1 Correspondencia: Facultad de Psicología. Universidad de Granada. Campus Cartuja. 18071 Granada (España). E-mail: [email protected]

CARRETERO-DIOS y PEREZ. Desarrollo y revisión de estudios instrumentales

Int J Clin Health Psychol, Vol. 7, No. 3 864

guidelines to consider when selecting tests for psychological research. The information presented is organized into six sections, each of which corresponds to a different stage in the process of test creation: a) conceptual definition of the construct to assess; b) information about item construction and qualitative assessment; c) results of the statistical analysis of the items; d) empirical evidence of the internal structure of the test; e) results of the reliability estimation; and f) external evidence of score validity. The study ends with a reflection on the scope of the proposed guidelines and the importance of using clear criteria to select the tests used in research.

KEY WORDS. Standards for the review of instrumental studies. Test construction. Test adaptation. Test selection. Theoretical study.

RESUMO. Neste trabalho discutem-se os critérios a considerar na hora de seleccionar os testes de avaliação psicológica num contexto de investigação. Tradicionalmente a atenção tem-se centrado e centra-se sobre as fases que devem orientar todo o processo de construção / adaptação de testes. Critérios standards internacionalmente aceites servem para dirigir este trabalho, e a comunidade científica coincide na importância que lhes atribui. No entanto, e para além de qualquer processo de construção/adaptação, o facto é que o uso de testes é uma constante na investigação psicológica, e uma selecção adequada das provas torna-se num assunto de grande importância. Por isso, e esquematizando em primeiro lugar os critérios que devem guiar a construção / adaptação de testes, neste estudo teórico desenvolvem-se algumas directrizes gerais a ter em consideração na altura de seleccionar testes para efectuar una investigação psicológica. A informação apresentada está organizada num total de seis pontos, cada um dos quais corresponde a uma fase distinta dentro do processo de criação de testes: a) delimitação conceptual do construto objecto de avaliação; b) informação sobre a construção e avaliação qualitativa dos itens; c) resultados da análise estatística dos itens; d) evidências empíricas da estrutura interna da prova; e) resultados da estimação da fiabilidade; f) evidências externas da validade das pontuações. O trabalho termina com reflexões sobre o alcance das directrizes propostas e sobre a importância de seleccionar sob critérios claros os testes que venham a usar-se numa investigação.

PALAVRAS CHAVE. Normas para a revisão de estudos instrumentais. Construção de

testes. Adaptação de testes. Selecção de testes. Estudo teórico.

Introducción En la investigación psicológica actual, el uso de instrumentos o herramientas, tales

como las computadoras, sistemas de registro, instrumentos de medida, etc. supone una característica definitoria de la propia investigación. De hecho, sin dichos instrumentos, la investigación científica, tal y como actualmente se conoce, sería imposible, requiriéndose un análisis cuidadoso y cíclico de éstos y de su influencia sobre los resultados de investigación (Sturm y Ash, 2005). Dentro de los múltiples y variados instrumentos que pueden ser empleados en un contexto de investigación psicológica, la utilización de tests de evaluación es algo más que frecuente, sin olvidar igualmente lo generalizado que está el uso de éstos dentro de la práctica profesional que genera la Psicología como disciplina (Muñiz et al., 2001).

El hecho es que los psicólogos trabajan con fenómenos no directamente observables, los cuales pretenden medirse, y para lo que se usan aproximaciones indirectas.



De esta forma, su medición está condicionada a la obtención de indicadores observables, y es aquí donde cabría resaltar la importancia de las respuestas generadas ante un test como material esencial para los psicólogos. Estas respuestas sirven para generar puntuaciones que finalmente sirven para múltiples objetivos, tales como la puesta a prueba de teorías, la toma de decisiones acerca de la efectividad de un tratamiento psicológico, la verificación experimental del impacto de una o varias variables independientes, etc. Así pues, las puntuaciones que se obtienen a partir de los tests tienen implicaciones de suma importancia sobre el resultado final de cualquier investigación que haga uso de ellos, al igual que sobre las consecuencias aplicadas que se derivan de la actividad de los profesionales, y que en su día a día toman decisiones en función del resultado generado por dichos tests (Padilla, Gómez, Hidalgo y Muñiz, 2006, 2007).

Los Standars for Educational and Psychological Testing (AERA, APA y NCME, 1999) intentan dar respuestas a las problemáticas que se generan en el proceso de creación/adaptación y uso de tests. Los investigadores que dirigen sus esfuerzos a la creación/adaptación de tests tienen en estos estándares una referencia que guía su trabajo y unifica criterios de valoración. De hecho, el debate sobre los estándares está continuamente abierto (Linn, 2006) y las sugerencias para su perfeccionamiento y mejora son objeto de publicaciones (Koretz, 2006; Wise, 2006), lo que lleva a contar con unas directrices que responden a las exigencias de cada momento y que son una fuente de indudable valor para el perfeccionamiento del trabajo llevado a cabo por los investigadores. Sin embargo, y a pesar de la importancia de estos estándares, su uso está más relacionado a los investigadores que centran sus esfuerzos en los denominados estudios instrumentales, consistentes en el “desarrollo de pruebas y aparatos, incluyendo tanto el diseño (o adaptación) como el estudio de las propiedades psicométricas de los mismos” (Montero y León, 2005, p. 124). Esto no significa, no obstante, que de los estándares no puedan derivarse importantes implicaciones para aquellos investigadores que hacen uso de tests para objetivos no vinculados a los que son propios de los estudios instrumentales.

En la actualidad, todo investigador que se disponga a hacer un estudio para el que requiera hacer uso de tests, cuenta, en la mayoría de las ocasiones, con varias alternativas posibles con objetivos similares. En estos casos, y dada la influencia directa que el uso de un instrumento u otro va a tener sobre los resultados finales, la selección razonada de los tests debe ser un criterio necesario a no obviar, salvando pues justificaciones centradas, por ejemplo, en el acceso más fácil a un test que a otro, o cualquier otra razón que se aleje de lo que se supone un esquema de acción científica. Ocurre, no obstante, que la importancia supuesta de trabajar con un instrumento u otro parece no tener su reflejo en las publicaciones. Así, más que poder concluir que la selección de tests está gobernada por criterios no científicos, habría que decir que en muchos de los casos existe una ausencia de información sobre las razones que han llevado a emplearlos. Por ejemplo, Hogan y Agnello (2004) pusieron de manifiesto que sólo el 55% de 696 publicaciones científicas donde se hacía uso de tests proporcionaba alguna evidencia sobre la validez de las puntuaciones generadas por los instrumentos usados. Además, y tal y como puede comprobarse fácilmente, una gran mayoría de autores justifican su uso refugiándose en la mera notificación de los valores numéricos relativos a los coeficientes de fiabilidad y validez de los mismos. Con esta forma de proceder se salva toda responsabilidad en relación con la selección y utilización de las pruebas, aún a sabiendas de que al final de todo proceso de investigación, la responsabilidad de los resultados obtenidos no es de los creadores de las pruebas, sino de los autores de estas investigaciones.



Lo indicado anteriormente se agrava aún más por el hecho incontestable de que la mayoría de las pruebas publicadas -tanto en revistas de toda índole como por empresas especializadas en su construcción y comercialización-, adolecen de los mínimos exigidos en los Standars for Educational and Psychological Testing (AERA, APA y NCME, 1999). Se construyen muchas pruebas y muy diversas, a veces por especialistas y, otras muchas, por investigadores muy alejados de este ámbito. Un alto porcentaje de ellas se desarrollan a colación de necesidades de investigación muy específicas, siendo mínimo el conocimiento psicométrico al que puede llegarse a través de su uso. Así, al revisar muchos de los tests publicados, se puede comprobar que tras intuir, no sin dificultad, la definición de la variable objeto de evaluación, de inmediato se observan los valores de los coeficientes de fiabilidad y validez, no encontrándose la información necesaria sobre el procedimiento seguido, sobre su justificación, o acerca de otros aspectos a tener en cuenta al enjuiciar la calidad de cualquier test.

Suponer que un test, por el hecho de estar publicado, cumple con los requisitos científicos mínimos, resulta, cuanto menos, arriesgado. Así, y en relación con las pruebas publicadas, se quiere llamar la atención acerca de cómo, en general, se ofrece nada o muy poca información sobre el proceso de edición de los ítems, la justificación del número de ítems necesario para representar al constructo evaluado, la adecuada representación de las dimensiones a través de los ítems considerados, etc. Además, y en este caso destacando su ausencia más si cabe, hay que notar como existe una carencia casi absoluta de datos en cuanto a los controles aplicados, tanto cualitativos como cuantitativos, para garantizar a la calidad de los ítems, y que hagan referencia a los criterios de eliminación, sustitución, modificación, etc. de éstos.

Son también numerosos los problemas que se aprecian en lo referente a la idoneidad de los procedimientos seguidos para el cálculo de la fiabilidad, o en lo que concierne a las estrategias empleadas para mostrar las evidencias de validez de las puntuaciones de la prueba. Valga a modo de ejemplo alguno de los resultados asociados al ya clásico test PMA: Aptitudes Mentales Primarias de Thurstone y Thurstone, en su adaptación española (TEA, 1996). Cuando se ofrece el coeficiente de fiabilidad del factor numérico, el dato es de 0,99. Este resultado, alarmante a todas luces, debería ser una llamada de atención para los investigadores y psicólogos aplicados que eligen dicha prueba para su uso. Así, si se indaga sobre las razones de este inesperado e inaceptable valor del coeficiente de fiabilidad, se puede apreciar como fue el uso de un procedimiento inadecuado el que elevó hasta la cuantía comentada el valor de dicho coeficiente: se trata de ítems de rapidez y para el cálculo del mencionado coeficiente se siguió la estrategia de la división del test en dos mitades (TEA, 1996, p. 13).

En cuanto a las evidencias de validez de las puntuaciones de las pruebas en sí, es imprescindible que los autores de las mismas destaquen y justifiquen una definición sintáctica en la que relacionen, con más o menos firmeza, las conexiones del constructo objeto de medida con otros constructos constitutivos de una red conceptual bien asentada o, en última instancia, con indicadores empíricos que posibiliten la posterior puesta en marcha de las pertinentes estrategias de confirmación. Sin estos previos, las evidencias de validez de las distintas pruebas no dejan de ser resultados estadísticos aislados, sin forma de poder asignarles u otorgarles un significado o utilidad, y que finalmente sólo sirven para ocultar las deficiencias de un proceso de construcción deficiente.

Lo hasta ahora apuntado, que duda cabe, debe resultar alarmante, teniendo en cuenta la importancia que tiene el uso de tests en la investigación psicológica. Además de la influencia directa sobre los resultados, habría que hablar del alcance o uso generalizado de



los tests en la mayoría de las publicaciones. Por ejemplo, en un medio como el presente, el International Journal of Clinical and Health Psychology, el 100% de los estudios originales publicados durante 2007 han hecho uso de tests para el desarrollo de la investigación. Por ello, se hace necesario tener en cuenta ciertos criterios para la selección de los tests antes de proceder a su uso, considerando pues que la mera publicación de un test no garantiza su calidad. No obstante, y dentro de un contexto delimitado por los artículos científicos, el debate no estaría centrado en la calidad científica de las medidas usadas, ya que en el ámbito comentado se entiende que dicha calidad estaría presente como necesidad básica de toda investigación. La discusión sería otra: ¿los tests usados en las investigaciones publicadas han sido seleccionados bajos unos criterios de decisión objetivos?, ¿se han considerado los aspectos diferenciales que presentan instrumentos distintos construidos bajo objetivos de evaluación similares?, ¿los criterios empleados permiten una mayor seguridad a la hora de concluir que la herramienta empleada es la mejor opción de entre todas las disponibles?

El objetivo del presente trabajo es proponer unas directrices generales que guíen la selección de tests en un contexto de investigación, aunque sin olvidar que muchos de los criterios propuestos deberían ser igualmente tenidos en cuenta por los profesionales aplicados. Como resulta lógico, dicha selección debe estar regida por el hecho de poder garantizar que el instrumento utilizado cumple con unas propiedades científicas mínimas, y esto significaría que se han seguido las normas internacionalmente aceptadas para la construcción de tests (AERA et al., 1999). Recientemente se discutieron dichas normas, y se propusieron unas pautas básicas para el desarrollo y revisión de estudios instrumentales (Carretero-Dios y Pérez, 2005). Sobre dichas pautas (Anexo 1) se asienta el presente trabajo, haciendo ahora hincapié en el ejercicio responsable de toma de decisiones que debe hacer todo investigador que pretenda hacer uso de tests ya disponibles, y por lo tanto sometidos a análisis científico previo. Este estudio se inserta dentro de una marco más general que se ocupa de la estandarización de los procederes científicos presentes en sus distintos ámbitos de acción (Blanton y Jaccard, 2006; Botella y Gambara, 2006; Ramos-Álvarez, Valdés-Conroy y Catena, 2006).

Criterios para la selección de tests Las directrices que van a presentarse a continuación van a tener un contexto de

aplicación concreto, y que no es otro que aquel donde se haga necesario el uso de instrumentos objetivos de medida, ya sea en un área aplicada o de investigación, e independientemente de la categoría donde puedan encuadrarse dichos instrumentos: autoinformes, cuestionarios, tests psicológicos en general, etc. Lo que vendría a defenderse es que siempre que para el desarrollo de un trabajo se necesite evaluar un constructo a partir de una prueba desarrollada para tal fin, resultaría conveniente hacer uso de unas directrices generales para una óptima selección de entre los instrumentos disponibles, así como para detectar alguna deficiencia en los mismos. Téngase en cuenta, no obstante, que el contenido del presente trabajo va a estar influido por el medio donde es publicado, y por la intención de que su contenido sea significativo desde el inicio para la audiencia que dicho medio tiene. Esto tendrá consecuencias sobre los ejemplos que se usen y sobre las publicaciones a las que se acuda para ejemplificar algunas cuestiones.

Para este trabajo, el término constructo se entiende como “el concepto, atributo o variable objeto de medición. Los constructos pueden diferir en su grado de especificidad desde un nivel molar, con variables latentes tales la responsabilidad, hasta un nivel



molecular con variables que requieren un menor nivel de inferencia tales como la ingesta de alcohol o la agresión física” (Haynes, Richard y Kubany, 1995, p. 239). A pesar de esta definición, debe tenerse en cuenta que las variables objeto de evaluación dentro de la Psicología son fundamentalmente constructos que hacen referencia a atributos de carácter general de las personas evaluadas, y para los que se requiere una aproximación a su definición que permita tratar con un nivel de especificidad del constructo mucho más concreto. Esto, tal y como se verá a continuación, tiene importantes implicaciones para la selección de los tests, y en concreto para la fase en la que se tiene que analizar la definición aportada de los constructos evaluados. A continuación se presentan las recomendaciones a tener en cuenta para la selección de tests. Estas recomendaciones van a desarrollarse en seis apartados, cada uno de los cuales corresponde a una etapa crucial dentro del proceso de construcción/adaptación de tests (véase su desarrollo en Carretero-Dios y Pérez, 2005 o un resumen en Anexo 1). Por ello, el investigador debería hacer un análisis de dichas etapas, y delimitar cómo éstas quedan reflejadas en los instrumentos con los que pretenda trabajar. La estructuración del trabajo parte del supuesto de que la persona encargada de la selección de un test ha considerado, y en primer lugar, el objetivo de evaluación y el para qué de ésta. Por ello, la exposición se centra a partir del momento en el que el involucrado en la selección de un test se encuentra con distintas alternativas posibles para un mismo objetivo de evaluación y uso previsto de las puntuaciones. De esta forma, los apartados que van a guiar la presentación son: a) delimitación conceptual del constructo objeto de evaluación; b) información sobre la construcción y evaluación cualitativa de ítems; c) resultados del análisis estadístico de los ítems; d) evidencias empíricas de la estructura interna de la prueba; e) resultados de la estimación de la fiabilidad; y f) evidencias externas de la validez de la puntuaciones. Delimitación conceptual del constructo objeto de evaluación

Resulta obvio apuntar que a la hora de seleccionar un test, el interesado debe tener claro qué se evalúa. La respuesta a la pregunta qué es lo que se evalúa no puede contentarse con la corroboración de que aparece una etiqueta indicativa de su objetivo insertada en el nombre que defina al test, como por ejemplo depresión, ansiedad social, búsqueda de sensaciones, etc. Téngase en cuenta que la parte más importante para la construcción de un instrumento que acabe presentando las adecuadas garantías psicométricas es partir de una definición completa y exhaustiva del constructo evaluado (Nunnally y Berstein, 1995). De hecho, de una definición ambigua e inespecífica se derivan ítems ambiguos e inespecíficos, y por ende puntuaciones no concretas y cuyo significado final resultaría difícil de concretar.

En la actualidad existe gran cantidad de tests que tienen como objetivo de evaluación una misma etiqueta, lo que no significa que un mismo concepto. Detrás de una misma etiqueta se esconden aproximaciones conceptuales distintas, definiciones distintas y, por lo tanto, objetivos de medición distintos, aunque no siempre explícitos. A la hora de decidir qué test seleccionar se debe consultar, en el caso de que se encuentre disponible, la definición ofrecida sobre el constructo evaluado. El investigador que se disponga a realizar un estudio para el que le resulte esencial trabajar con unos tests concretos tendrá unos objetivos específicos de investigación y, por ello, para cubrir éstos deberá cerciorarse de que los instrumentos que escoja se centran en sus conceptos de interés más allá de una etiqueta común a través de instrumentos.

Al adoptar este procedimiento, es decir, analizar las definiciones ofrecidas por los creadores de pruebas, el encargado de esta selección podrá constatar que resulta más común de lo que cabría esperar encontrar estudios donde se presenta una escala que se asienta



sobre una delimitación conceptual inespecífica del constructo evaluado. La definición se suele basar en una afirmación genérica de lo que el constructo es y que a su vez se basa en otros constructos igualmente no delimitados. Sin embargo, esta forma de proceder se aleja de las recomendaciones presentes en los trabajos especializados (véase Murphy y Davidshofer, 1994; Walsh, 1995).

Al autor o autores de una prueba debe exigírsele que proporcionen una delimitación concreta de los componentes o facetas que definen su constructo objeto de evaluación y que a su vez concreten operacionalmente a lo que se refiere cada uno de estos componentes, es decir, se debe facilitar lo que ha venido a denominarse como definición semántica de la variable (Lord y Novick, 1968). Debido a la complejidad de los constructos psicológicos, la presentación pormenorizada y justificada de esta definición sobrepasaría lo que son los límites al uso de un artículo de investigación. A pesar de esto, al menos en el trabajo debe aparecer una referencia que permita consultar de manera detallada la definición ofrecida, y donde el espacio no sea una limitación (por ejemplo, el manual del test, un libro centrado en el constructo evaluado, etc.). La persona encargada de seleccionar un test debe tener como principio que la prueba que no presente claramente los elementos diferenciadores del constructo evaluado, que no recoja la variedad de manifestaciones operativas de éste, o que no concrete claramente sus componentes, va a provocar un proceso de construcción/adaptación impreciso y caracterizado por unas deficientes evidencias de validez de contenido (Downing y Haladyna, 2004; Haynes et al., 1995; Smith, 2005).

A la hora de seleccionar un test, se tendrían mayores garantías acerca de que se ha efectuado una adecuada definición operativa del constructo si se pusiera de manifiesto que los autores han seguido las recomendaciones existentes sobre cómo presentar dicha definición, y en concreto, que hacen uso de una tabla de especificaciones del test donde se inserte toda la información de interés del constructo evaluado (Osterlind, 1989). Así, junto a la presentación pormenorizada de la definición del constructo, debe corroborarse si dicha definición ha sido sometida a una revisión por parte de expertos antes de la creación de ítems propiamente dicha (véase Carretero-Dios, Pérez y Buela-Casal, 2006). Aunque es común no hacer uso de esta valoración a través de expertos, ésta ha sido planteada como un elemento esencial para proporcionar evidencias teóricas de validez de contenido (Rubio, Berg-Weger, Tebb, Lee y Rauch, 2003) y posibilita que desde el inicio o primeras fases de construcción de una prueba se facilite la representatividad de los ítems que se construyan para el constructo de interés. De esta forma, es una vez que se concluye con el juicio de expertos de la definición cuando se concreta definitivamente la tabla de especificaciones del test (Spaan, 2006), tabla donde se debería encontrar qué constructo se va a evaluar, cuáles son sus componentes y cómo deberían verse representados éstos en el instrumento final según su importancia diferencial.

Nótese como el hecho de disponer de la tabla de especificaciones del test sería un aspecto crucial para facilitar los procesos de adaptación de las escalas a distintas culturas (Balluerka, Gorostiaga, Alonso-Arbiol y Aramburu, 2007), proporcionándose una herramienta esencial para conseguir que las adaptaciones guarden equivalencia conceptual con las escalas origen. De hecho, en las adaptaciones lo relevante no es exclusivamente mostrar evidencias de una posible equivalencia lingüística entre el instrumento origen y el adaptado, aspecto éste que parece ser el único que preocupa en la mayoría de las ocasiones a los autores de las adaptaciones. Por contra, la clave es poner de manifiesto que las adaptaciones son equivalentes conceptualmente hablando, y en este sentido, contar con la tabla de especificaciones del test sería un elemento a considerar a la hora de poder establecer la conexión conceptual obligada. Así pues, ya sea a la hora de valorar escalas



originales, o bien sus posibles adaptaciones, al seleccionar un test debería tenerse en cuenta si se parte de la denominada tabla de especificaciones del test (Spaan, 2006).

Lord y Novick (1968) también subrayaron la relevancia de especificar una vez operativizado el construco, la definición sintáctica de la variable o relaciones esperadas entre el constructo evaluado y otros constructos o indicadores. Al seleccionar un instrumento se debe tener en cuenta que lo que finalmente le va a dar significado o utilidad a unas puntuaciones es el entramado de relaciones contrastadas. Por ello, dichas relaciones deben plantearse a modo de hipótesis a verificar, lo que finalmente posibilitará obtener las evidencias externas de validez del instrumento, elemento esencial de su validez de constructo (Smith, 2005).

Para resumir este apartado se insiste en que el autor o autores de una investigación que han hecho uso de un determinado test deben dejar constancia de que a la hora de seleccionar éste han atendido a la definición operativa del constructo de interés y a cómo se ha llegado a ésta, considerando además que dicha definición está insertada en un entramado teórico de relaciones, el cual permite asignarle significado al trabajo que se haga con la escala. Información sobre la construcción y evaluación cualitativa de ítems

Es inusual encontrar en los trabajos donde se presentan los datos referidos a la creación/adaptación de un test, información acerca de los criterios usados para la creación de ítems, justificación sobre las opciones de respuesta, etc. Existen trabajos que sirven para guiar este proceso (Martínez, Moreno y Muñiz, 2005; Moreno, Martínez y Muñiz, 2006; Osterlind, 1989) y a la hora de seleccionar un instrumento la elección debe inclinarse a favor de aquellos donde se deje constancia de al menos los criterios de referencia empleados. Este aspecto resulta esencial ya que los ítems no son ni más ni menos que la concreción operativa de los componentes a evaluar. Así, de ítems inadecuados surge siempre una delimitación operativa errónea, y por lo tanto unos resultados finales alejados de los propósitos iniciales.

Al seleccionar un instrumento, el encargado debe tener claro qué respuestas referentes a un constructo le interesan, y comprobar cuál es la prueba que se ajusta mejor a eso. Por ejemplo, en algunos casos, y para algunos trastornos psicológicos, se puede tener interés por su frecuencia de ocurrencia, pero en otros quizá se quiera evaluar su intensidad en el momento actual. Según este ejemplo, en función de cuál sea el objetivo se debería atender a que los ítems y su formato de respuesta se centrasen en intensidad o en frecuencia.

A los creadores/adaptadores de tests se les debe exigir el uso de la denominada tabla de especificaciones de los ítems (Osterlind, 1989; Spaan, 2006), y al menos insertarla en el manual del test o en una publicación similar. En esta tabla, y de manera resumida, aparecen todos los elementos referentes a los ítems generados (formato, escala de respuesta, proporción dentro de la escala, ejemplos redactados, etc.). A través de esta tabla se garantiza una creación dirigida y estandarizada de los ítems por parte de los encargados, mejorándose así la calidad de los mismos. Constatar la presencia de una tabla de especificaciones de los ítems como elemento que ha guiado la creación de ítems debería ser un elemento a considerar para la selección de un instrumento u otro.

Téngase en cuenta lo ya comentado en el apartado anterior en cuanto a la importancia de la tabla de especificaciones del test para los procesos de adaptación, y que sería aplicable a la tabla de especificaciones de los ítems. No obstante, hay que subrayar que para los casos en los que los instrumentos a elegir son adaptaciones y, por lo tanto, los ítems en muchos casos suelen ser traducciones de los originales, debe corroborarse que se han



seguido las recomendaciones existentes sobre este proceso de traducción (Balluerka et al., 2007; Hambleton, 1994, 1996; Hambleton y Jong, 2003; Gordon, 2004), sin olvidar la necesaria equivalencia conceptual entre los ítems originales y traducidos.

Deberá observarse si creados los ítems, las instrucciones de la escala y demás aspectos formales del futuro instrumento, los autores sometieron a evaluación dichos aspectos con la intención de detectar fallos en las instrucciones, ítems mal redactados, etc. Además, téngase en cuenta que al usar un test debemos tener datos que permitan concluir que sus ítems resultan relevantes desde un punto de vista teórico para los componentes del constructo (Clark y Watson, 2003). Por ello, debería estudiarse si el test sobre el que se está interesado proporciona información que asegure que los ítems creados son teóricamente pertinentes para cada componente, y si éstos están representados por una proporción de ítems adecuada, es decir, si los autores del instrumentos proporcionan resultados sobre la validez de contenido del test (Armstrong, Cohen, Eriksen y Cleeland, 2005; Haynes et al., 1995). En este proceso de valoración de los aspectos formales del tests, y de la relevancia teórica de los ítems, normalmente se produce una eliminación determinada de elementos. A la hora de seleccionar un test es importante corroborar que los autores informan sobre qué se ha eliminado y porqué, ya que da información valiosa sobre lo que se queda y sobre la estrategia seguida.

Resultados del análisis estadístico de los ítems

Un aspecto esencial a considerar dentro del proceso que finalmente lleve a seleccionar un test frente a otro, está relacionado con las propiedades métricas de los ítems del instrumento. Una vez constatado que se partió de una batería de ítems claramente superior a los necesitados, y que éstos han pasado los filtros formales y teóricos pertinentes, se debe atender a los resultados encontrados al analizar estadísticamente los ítems. Se debe prestar atención a que en la construcción de la escala se haya procedido efectuando un primer análisis estadístico de éstos a modo de estudio piloto, y donde los criterios de eliminación de los ítems hayan sido claramente especificados. Es conveniente que los resultados de este estudio piloto se hayan visto corroborados con una muestra mayor, y que para ambos casos la muestra de participantes sea de unas características semejantes a las posteriormente usadas para la aplicación de la escala.

En cuanto a la inspección de los estadísticos de los ítems, el investigador debe tener claro para qué va a usar la escala, y así estimar si los estadísticos encontrados le permiten concluir que el test es adecuado para sus intereses. De esta forma, hay que subrayar que no hay criterios estadísticos universales y que deban aplicarse para todos los ítems sea cual sea la escala de la que formen parte. Por ello, y quizá lo más importante al revisar los análisis de ítems asociados a un instrumento, es observar si la decisión de eliminar o conservar un ítem estuvo basada exclusivamente en la aplicación irreflexiva de ciertos índices numéricos, o si se consideraron dichos criterios a la luz de la definición del constructo inicial y de los objetivos de aplicación (para una revisión de los estadísticos más comúnmente usados y cómo valorarlos véase Muñiz, Hidalgo, García-Cueto, Martínez y Moreno, 2005).

Evidencias empíricas de la estructura interna de la prueba

Al analizar la dimensionalidad de una prueba se busca estimar “el grado en el que los ítems y los componentes del test conforman el constructo que se quiere medir y sobre el que se basarán las interpretaciones” (Elosua, 2003, p. 317). Así, las conclusiones sobre si la estructura interna de un instrumento representa fielmente a los componentes o dimensiones del constructo no pueden basarse en las suposiciones teóricas de los autores de la prueba o



en la coherencia aparente que presentan los ítems. Para poder concluir esto, se hace necesario constatar que se ha usado algún procedimiento que permita evaluar empíricamente la estructura interna de la escala. Si los autores del instrumento parten de una definición clara del constructo y de sus componentes, al inspeccionar el test se debe corroborar que se ha usado una estrategia dirigida a contrastar la hipótesis del investigador basada en cómo deben de agruparse los ítems.

Tradicionalmente, y desde un punto de vista empírico, la tarea dirigida a explorar la estructura interna de un test ha sido llevada a cabo a través de la aplicación del análisis factorial (Floyd y Widaman, 1995). A la hora de seleccionar una prueba, se debería al menos estar familiarizado con los pormenores de esta técnica. Hay varios trabajos que han tratado el uso inadecuado e irreflexivo de análisis factorial o temáticas relacionadas (e.g. Batista-Foguet, Coenders y Alonso, 2004; Elosua, 2005; Ferrando, 1996) siendo un clásico el apartado “cómo engañarse a uno mismo con el análisis factorial” (Nunnally y Bernstein, 1995 pp. 599-601). Así, a la hora de seleccionar una prueba debería tenerse en cuenta esta información, y hacer una valoración crítica tanto de los resultados encontrados como del proceso de aplicación seguido.

En otro lugar (Carretero-Dios y Pérez, 2005) ya insistimos en subrayar que el análisis factorial exploratorio no entiende de Psicología. El análisis sólo “agrupa” correlaciones similares, pero conviene resaltar que la agrupación puede ser debida a más elementos que los propiamente conceptuales, como por ejemplo el formato y tipo de ítems. “Se recuerda que la técnica debe estar sometida a los intereses conceptuales, y que un agrupamiento de ítems es sólo eso, un agrupamiento, y que aunque empíricamente relevante, puede carecer de significado psicológico. Los factores “no psicológicos” que pueden hacer que unos ítems aparezcan juntos son tantos, que la aplicación de esta técnica de análisis en el vacío teórico es totalmente improductiva e ineficaz” (Carretero-Dios y Pérez, 2005, p. 536). Por lo anterior, al seleccionar un test debe apreciarse que la aplicación de los análisis factoriales ha estado sujeta a premisas teóricas sobre la dimensionalidad subyacente a los ítems usados. Además, debería apreciarse una contrastación de la dimensionalidad de la prueba a través de muestras distintas (Elosua, 2005). Resultados de la estimación de la fiabilidad

La fiabilidad de las puntuaciones de una prueba supone otro criterio esencial a tener en cuenta a la hora de seleccionar un test u otro. De hecho, normalmente es uno de los tópicos que se tratan en primer lugar en las monografías especializadas sobre la construcción de tests, y es el valor al que únicamente se suele recurrir para justificar la selección de una prueba. A pesar de esto, en la presentación que se ha seguido se ha optado por tratar la fiabilidad una vez que se han discutido los aspectos que se consideran previos, cronológicamente hablando, en el proceso que constituye la construcción de un instrumento de evaluación. De hecho, no es hasta que se cuenta con un agrupamiento “definitivo” de ítems por componente, cuando se cuenta con el test “definitivo”, cuando la estimación de la fiabilidad adquiere su mayor alcance. No obstante, en muchos trabajos se recurre a presentar estimaciones de la fiabilidad dentro de la fase de análisis de ítems, y se incluye normalmente el alfa de Cronbach como un indicador más del análisis de ítems. Sin embargo, se quiere resaltar que a la hora de seleccionar un instrumento, y al revisar la información disponible, se debe apreciar que se ofrecen estimaciones de la fiabilidad de las puntuaciones obtenidas a partir de la forma definitiva o publicada del test, y no de versiones previas o experimentales.



De nuevo, y para evaluar la adecuación de un test en cuanto a la fiabilidad de sus puntuaciones, el investigador interesado debe preguntarse por ciertos aspectos que se relacionan estrechamente con el juicio final que se emita. Por ejemplo, para qué van a ser usadas las puntuaciones, si los participantes con los que se va a trabajar tienen características semejantes a los usados para estudiar la prueba, si las condiciones de evaluación van a ser similares, etc. Junto a estas preguntas, no debe perderse de vista el concepto propio de fiabilidad, además de las características que presentan los distintos estimadores. Así, la valoración de nuevo debe ser razonada y no sólo guiada por la aplicación de reglas estándar.

Sabiendo que son tres los métodos habituales para obtener estimaciones del coeficiente de fiabilidad (Traub, 1994), tales como el método de formas paralelas, el basado en el test-retest y el método centrado en una única aplicación de la prueba, al seleccionar un instrumento u otro debe hacerse un análisis del método aplicado, las razones de su aplicación y su idoneidad para el test en concreto. Desde un punto de vista teórico, y si la prueba y otros aspectos relevantes lo permiten (Muñiz, 1998), la aplicación repetida del test en dos momentos temporales distintos sería el método de preferencia. Si el investigador interesado en seleccionar un test observara que han sido usadas formas paralelas, debería atender a los problemas relacionados con este procedimiento, entre los que destaca la verificación de que realmente se cuenta con formas paralelas del test en cuestión. Sea como fuere, tanto el test-retest como el método de formas paralelas se enfrentan a problemas más generales y que deben considerarse para juzgar las estimaciones de fiabilidad ofrecidas. Entre éstos podrían destacarse el efecto de la experiencia o práctica de la primera evaluación sobre la segunda, los cambios “reales” que se producen en el constructo evaluado y el intervalo de tiempo usado para llevar a cabo la nueva administración del test o de una forma paralela de éste (Muñiz, 1998).

En general, al revisar los tests publicados, puede constatarse que los constructores/adaptadores de un test tienden a estimar la fiabilidad a partir de una única administración del instrumento, recurriendo a los procedimientos basados en el cálculo de la consistencia interna (Osburn, 2000). En el caso de ítems con una escala tipo Likert, el índice de consistencia interna más usado es el alfa de Cronbach, el cual en muchas ocasiones se aplica incumpliendo las recomendaciones sobre su uso (Cortina, 1993). Ya se propusieron varios ejemplos (Carretero-Dios y Pérez, 2005) para evidenciar ciertos problemas asociados a la aplicación indiscriminada del alfa de Cronbach o a la interpretación superficial de los resultados que facilita. No obstante, la frecuencia con la que puede observarse un uso deficiente de este índice, hace que se le dedique más extensión a este contenido.

El encargado de la selección de un tests deberá cerciorarse de que las estimaciones sobre la fiabilidad a través de un índice de consistencia interna son calculadas para las puntuaciones de cada uno de los componentes supuestos del constructo evaluado. Normalmente, los constructos se ven delimitados por varias facetas o componentes que se postulan como elementos a considerar aisladamente. Por ello, la consistencia interna debería ser estimada para cada faceta del constructo.

El juicio sobre la fiabilidad obtenida a través del alfa de Cronbach debe estar muy conectado con el formato de los ítems o con algunas propiedades métricas de éstos que se encuentran muy relacionadas con el resultado final del alfa de Cronbach, tal y como por ejemplo la dificultad de los ítems. Así, en algunos autoinformes, al usar ítems que consisten en preguntas o afirmaciones muy inespecíficas, con un formato muy semejante entre ellos, y con opciones de respuesta comunes, se puede provocar que la respuesta de los participantes



sea “consistente” a través de los ítems, pero que lo que refleje este resultado sea una consistencia a través de ítems que se conectan más con un factor denominado “formato del instrumento”, que con el concepto subyacente teóricamente supuesto. Además, esta problemática podría vincularse a los valores “artificialmente” altos que pueden encontrarse a través del alfa de Cronbach, que los investigadores suelen juzgar como algo muy positivo, y que sin embargo servirían para poner de manifiesto un grave problema de representación del constructo por parte de los ítems (consultar la ya clásica problemática de la denominada paradoja de la atenuación, Loevinger, 1957). “En psicología, valores de consistencia interna entorno a 0,95 pondrían de manifiesto más un problema de infra-representación del constructo y validez deficiente, que de adecuada fiabilidad” (Carretero-Dios y Pérez, 2005 p. 541).

Usando valores que puedan servir de guía, que no de constatación irreflexiva, se podría afirmar que índices de fiabilidad situados alrededor de 0,70 resultarían adecuados si el objetivo de la escala es la investigación. Cuando el objetivo del test es el diagnóstico o clasificación, el valor mínimo aconsejado debe situarse entorno a 0,80 (Nunnally y Bernstein, 1995). Evidencias externas de la validez de las puntuaciones

Las evidencias externas de validez se basan en el análisis de las relaciones entre la puntuación o puntuaciones ofrecidas por el test y: a) un criterio que se esperaba fuera predicho; b) otros tests con el mismo objetivo de medición o con otros constructos con los que se esperaría relación; c) otras variables o constructos con los que se esperaría ausencia de relación, o una relación menor que la esperada con otras variables (AERA et al., 1999).

Al iniciar la presentación de las directrices a seguir a la hora de seleccionar un test de evaluación, se insistió en que el constructo objetivo debía definirse operativamente (semánticamente) pero también ofrecer una definición conceptual delimitada por las relaciones esperadas con otros constructos (sintáctica), o lo que es lo mismo, ubicar al constructo en un entramado de relaciones teóricas. Por parte de la persona que busca seleccionar un test, de lo que se trataría es de establecer hasta qué punto, usando las puntuaciones del test, se han obtenido evidencias que confirman las relaciones esperadas. Es la inspección de los resultados encontrados en este sentido lo que le facilitaría al investigador la información referente a la utilidad o significado de las puntuaciones del test.

El interesado en llevar a cabo la selección de un test en particular, debe tener presente que no existe una estrategia metodológica o técnica de análisis estadístico al uso que sea exclusiva de los estudios que se hayan encargado de obtener evidencias externas de validez. Los resultados podrían derivarse de usar estrategias experimentales, cuasi-experimentales o no experimentales, y por lo tanto las técnicas de análisis podrían apreciarse como diversas. Por ello, en este contexto, lo realmente relevante es apreciar si los autores de un test concreto han justificado las relaciones aportadas a partir de las teorías de interés o resultados de investigación previos, y que en su momento se deberían haber reflejado en la definición sintáctica de la variable. Por supuesto, se deberá verificar si en función de los objetivo de análisis específicos, se ha usado la metodología de estudio más afín a éstos, y los procedimientos de análisis más convenientes, hecho no obstante que es generalizable a la revisión científica de cualquier estudio publicado. Además, habría que recordar que las puntuaciones de un test no “consiguen” evidencias que denoten que ya está fijada su validez de una vez y para siempre. La obtención de evidencias de validez conlleva un proceso inacabado por definición, en continua revisión, y sensible a la evolución del



conocimiento sobre el constructo medido, aspectos a los que debe ser igualmente sensible el responsable de la selección de un test.

Conclusiones El uso de un test u otro para ser usado en una investigación resulta una problemática de suma importancia. Con la intención de discutir sobre las posibles dificultades que pueden aparecer en este proceso de selección de tests, y con la idea de clarificar algunas directrices que ayuden a realizar dicha selección, se ha escrito este trabajo. Sin embargo, las directrices propuestas más que convertirse en una guía esquemática y concreta de aplicación, buscan ser una herramienta que conduzca a la reflexión sobre ciertos elementos y que hagan sopesar de manera más mesurada algunas de las decisiones. Un investigador jamás podrá llegar a unas conclusiones rigurosas si la materia prima que usa para plantear éstas son puntuaciones ofrecidas por instrumentos deficientes. De igual forma, y por la propia ética que define la actividad científica, el responsable de un estudio no puede contentarse con el hecho de haber usado un test con cierto respaldo psicométrico y con unas garantías científicas suficientes. Por el contrario, debe haber una información de base que asegure que ha usado la mejor opción posible de entre todas las que estaban en su conocimiento. Un informe de investigación de una revista científica al uso tiene un espacio restringido. La justificación de por qué un instrumento y no otro rebasaría este espacio, y por ende resultaría inviable el tratamiento exhaustivo de las razones que han llevado a trabajar con un test y no con otro. Sin embargo, esto no es óbice para que el autor o autores de un trabajo de investigación hagan uso del esquema presentado o de cualquier otro que garantice una selección científica de los tests. Así, y al igual que en otros apartados de un informe se obvia información para simplemente señalar un procedimiento seguido o estrategia empleada, en este campo de la selección de tests los editores de las publicaciones científicas y los revisores deberían insistir en que los autores de un trabajo indiquen al menos los criterios seguidos para seleccionar los instrumentos y dónde estos criterios pueden ser tratados con más detenimiento. Resulta sorprendente encontrar en muchas revistas científicas, y dentro del apartado instrumentos, un mero listado de escalas, y para las que se informa como mucho de su fiabilidad y de algunas referencias donde éstas se han aplicado para ser estudiadas. Junto a la indicación de las escalas empleadas se reclama que deba haber una pregunta que sirva de hilo conductor del apartado citado: ¿por qué estos tests y no otros? Pregunta que debería poder ser contestada por los autores de cualquier trabajo científico donde se haga uso de tests de evaluación psicológica.

Referencias AERA, APA y NCME, (1999). Standards for educational and psychological tests. Washington

DC: American Psychological Association, American Educational Research Association, National Council on Measurement in Education.

Armstrong, T.S., Cohen, M.Z., Eriksen, L. y Cleeland, C. (2005). Content validity of self-report measurement instruments: An illustration from the development of the Brain Tumor Module of the M.D. Anderson Symptom Inventory. Oncology Nursing Forum, 32, 669-676.

Batista-Foguet, J.M., Coenders, G. y Alonso, J. (2004). Análisis factorial confirmatorio. Su utilidad en la validación de cuestionarios relacionados con la salud. Medicina Clínica, 122, 21-27.



Balluerka, N., Gorostiaga, A., Alonso-Arbiol, I. y Aranburu, M. (2007). La adaptación de instrumentos de medida de unas culturas a otras: una perspectiva práctica. Psicothema, 19, 124-133.

Blanton, H. y Jaccard, J. (2006). Arbitrary metrics in Psychology. American Psychologist, 61, 27-41.

Botella, J. y Gambara, H. (2006). Doing and reporting a meta-analysis. Internacional Journal of Clinical and Health Psychology, 6, 425-440.

Carretero-Dios, H. y Pérez, C. (2005). Normas para el desarrollo y revisión de estudios instrumentales. International Journal of Clinical and Health Psychology, 5, 521-551.

Carretero-Dios, H., Pérez, C. y Buela-Casal, G. (2006). Dimensiones de la apreciación del humor. Psicothema, 18, 465-470.

Clark, L.A. y Watson, D. (2003). Constructing validity: Basic issues in objective scale development. En A.E. Kazdin (Ed.), Methodological issues & strategies in clinical research (3ª ed.) (pp. 207-231). Washington, D.C.: APA.

Cortina, J.M. (1993). What is coefficient alpha? An examination of theory and applications. Journal of Applied Psychology, 78, 98-104.

Downing, S.M. y Haladyna, T.M. (2004). Validity tretas: overcoming interferente with proponed interpretations of assessment data. Medical Education, 38, 327-333.

Elosua, P. (2003). Sobre la validez de los tests. Psicothema, 15, 315-321. Elosua, P. (2005). Evaluación progresiva de la invarianza factorial entre las versiones original y

adaptada de una escala de autoconcepto. Psicothema, 17, 356-362. Ferrando, P.J. (1996). Evaluación de la unidimensionalidad de los ítems mediante análisis

factorial. Psicothema, 8, 397-410. Floyd, F.J. y Widaman, K.F. (1995). Factor análisis in the development and refinement of

clinical assessment instruments. Psychological Assessment, 7, 286-299. Gordon, J. (2004). Developing and improving assessment instruments. Assessment in

Education: Principles, Policy and Practice, 11, 243-245. Hambleton, R.K. (1994). Guidelines for adapting educational and psychological tests: A

progress report. European Journal of Psychological Assessment, 10, 229-240. Hambleton, R.K. (1996). Adaptación de tests para su uso en diferentes idiomas y culturas:

fuentes de error, posibles soluciones y directrices prácticas. En J. Muñiz (Ed.), Psicometría (pp. 203-238). Madrid: Universitas.

Hambleton, R.K. y Jong, J.H. (2003). Advances in translating and adapting educational and psychological tests. Language Testing, 20, 127-134.

Haynes, S.N., Richard, D.C.S. y Kubany, E.S. (1995). Content validity in psychological assessment: a functional approach to concepts and methods. Psychological Assessment, 7, 238-247.

Hogan, T.P. y Agnello, J. (2004). An empirical study of reporting practices concerning measurement. Educational and Psychological Measurement, 64, 802-812.

Koretz, D. (2006). Steps toward more effective implementation of the Standards for Educational and Psychological Testing. Educational Measurement: Issues & Practice, 25, 46-50.

Linn, R.L. (2006). Following the Standards: Is it time for another revisions? Educational Measurement: Issues & Practice, 25, 54-56.

Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, 635-694.

Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison Wesley.

Martínez, R.L., Moreno, R. y Muñiz, J. (2005). Construcción de ítems. En J. Muñiz, A.M. Hidalgo, E. García-Cueto, R. Martínez, y R. Moreno, Análisis de ítems (pp. 9-52). Madrid: La Muralla.



Montero, I. y León, O. (2005). Sistema de clasificación del método en los informes de investigación en Psicología. International Journal of Clinical and Health Psychology, 5, 115-127.

Moreno, R., Martínez, R.J. y Muñiz, J. (2006). New guidelines for developing multiple-choice items. Methodology, 2, 65-72.

Muñiz, J. (1998). Teoría clásica de los tests. Madrid: Pirámide. Muñiz, J., Bartram, D., Evers, A., Boben, D., Matesic, K., Glabeke, K., Fernández-Hermida,

J.R. y Zaal, J.N. (2001). Testing practices in european countries. European Journal of Psychological Assessment, 17, 201-211.

Muñiz, J., Hidalgo, A.M., García-Cueto, E., Martínez, R. y Moreno, R. (2005) Análisis de ítems. Madrid: La Muralla.

Murphy, K.R. y Davidshofer, C.O. (1994). Psychological testing: Principles and applications (3ª ed.). Englewood Cliffs, NJ: Prentice-Hall.

Nunnally, J.C. y Bernstein, I.J. (1995). Teoría psicométrica. Madrid: McGraw-Hill. Osburn, H.G. (2000). Coefficient alpha and related internal consistency reliability coefficients.

Psychological Methods, 5, 343-355. Osterlind, S.J. (1989). Constructing Test Items. Londres: Kluwer Academic Publishers. Padilla, J.L., Gómez, J., Hidalgo, M.D. y Muñiz, J. (2006). La evaluación de las consecuencias

del uso de los tests en la teoría de la validez. Psicothema, 18, 307-312. Padilla, J.L., Gómez, J., Hidalgo, M.D. y Muñiz, J. (2007). Esquema conceptual y

procedimientos para analizar la validez de las consecuencias del uso de los tests. Psicothema, 19, 173-178.

Ramos-Álvarez, M.M., Valdés-Conroy, B. y Catena, A. (2006). Criterios para el proceso de revisión de cara a la publicación de investigaciones experimentales y cuasi-experimentales en Psicología. International Journal of Clinical and Health Psychology, 6, 773-787.

Rubio, D.M., Berg-Weger, M., Tebb, S.S., Lee, E.S. y Rauch, S. (2003). Objectifying content validity: Conducting a content validity study in social work research. Social Work Research, 27, 94-104.

Smith, G.T. (2005). On Construct Validity: Issues of Method and Measurement. Psychological Assessment, 17, 396-408.

Spaan, M. (2006). Test and item specifications development. Language Assessment Quarterly, 3, 71-79.

Sturm, T. y Ash, M.G. (2005). Roles of instruments in psychological research. History of Psychology, 8, 3-34.

TEA (1996). PMA: Aptitudes Mentales Primarias (9ª edición). Madrid: TEA. Traub, R.E. (1994). Reliability for the social sciences: Theory and applications. Londres: Sage. Walsh, W.B. (1995). Tests and assessment. Nueva York: Prentice-Hall. Wise, L.L. (2006). Encouraging and supporting compliance with Standards for Educational

Tests. Educational Measurement: Issues & Practice, 25, 51-53.



ANEXO 1. Normas para el desarrollo y revisión de estudios instrumentales (tomado de Carretero-Dios y Pérez, 2005). (A) Justificación del estudio. Sí Dudoso No A.1. Los antecedentes sobre los que se asienta la justificación son

relevantes.

A.2. La creación/adaptación del instrumento va a suponer una aportación significativa para al área de estudio.

A.3. El objetivo general de evaluación del test está claramente especificado.

A.4. Se concreta la población a la que irá destinado el test. A.5. Se especifica el propósito o finalidad para el que van a usarse

las puntuaciones del test.

A.6. El proceso de creación/adaptación resulta viable. (B) Delimitación conceptual del constructo a evaluar. Sí Dudoso No B.1. Aparecen claramente especificados los intentos de

conceptuación más relevantes del constructo de interés.

B.2. Las distintas propuestas conceptuales se presentan integradas en uno o varios marcos teóricos de referencia.

B.3. Se hace una revisión de los principales instrumentos de evaluación encargados de evaluar a éste o a constructos relacionados.

B.4. Tras la revisión se realiza una propuesta operativa de las facetas o componentes operativos del constructo a evaluar, la cual es sometida a evaluación a través de expertos.

B.5. Se presenta detalladamente la información relacionada con el juicio de expertos (selección de expertos, material utilizado, forma de evaluar, etc.)

B.6. Considerando los resultados de la evaluación de los expertos, los datos de investigación, y los marcos teóricos de referencia, se concreta definitivamente la definición operativa del constructo.

B.7. Teniendo en cuenta la definición adoptada del constructo, se concretan las relaciones esperadas entre éste y otras variables.

B.8. Las relaciones predichas para la puntuación total en el constructo están adecuadamente justificadas.

B.9. En el caso de que el constructo esté compuesto por distintas facetas o componentes, también son establecidas las relaciones esperadas para cada uno de estos componentes.

B.10. Las relaciones predichas se presentan claras, especificándose cuando el constructo va ser variable predictora, cuando predicha y cuando covariado.

(C) Construcción y evaluación cualitativa de ítems. Sí Dudoso No C.1. La información que justifica el tipo de ítems a construir

(incluyendo formato, tipo de redacción, escala de respuesta, etc.) es presentada con claridad.



C.2. El autor hace uso de una tabla de especificaciones de los ítems para guiar la elaboración de éstos.

C.3. La tabla de especificaciones de los ítems recoge toda la información necesaria para la construcción de éstos.

C.4. Se justifica adecuadamente el número de ítems final de la escala a crear/adaptar.

C.5. La batería de ítems inicial está compuesta por al menos el doble de ítems por componente de los que finalmente pretenden usarse.

C.6. En caso de traducir los ítems, se ha usado una estrategia que asegura la equivalencia conceptual entre los originales y los traducidos.

C.7. En caso de haber traducido los ítems, el autor proporciona nuevos ítems vinculados a los componentes del constructo a evaluar.

C.8. Se presentan las evidencias de validez de contenido proporcionadas por la valoración de un grupo de jueces acerca de la batería inicial de ítems.

C.9. Aparece toda la información relacionada con el procedimiento seguido para la valoración de los ítems por parte de un grupo de jueces.

C.10. La valoración de los ítems por parte de un grupo de jueces ha sido llevada a cabo adecuadamente.

C.11. Los ítems eliminados una vez terminado el proceso de valoración llevado a cabo por un grupo de jueces están claramente especificados.

C.12. Los ítems conservados una vez terminado el proceso de valoración llevado a cabo por un grupo de jueces están claramente especificados.

(D) Análisis estadístico de los ítems. Sí Dudoso No D.1. La delimitación del trabajo es clara (primer estudio de los

ítems, estudio piloto o validación cruzada)

D.2. Los objetivos del análisis aparecen claramente especificados (homogeneidad y consistencia de la escala frente a validez de criterio).

D.3. Es facilitada toda la información referente a los ítems, instrucciones a los participantes, contexto de aplicación ,etc.

D.4. La muestra de estudio tiene características similares a la de la población objetivo del test.

D.5. El tamaño de la muestra es adecuado para los objetivos del estudio.

D.6. El procedimiento de evaluación es similar al que se tiene planificado para la escala definitiva (muestreo).

D.7. Se especifican con claridad los criterios a considerar para la selección-eliminación de los ítems.

D.8. Los cálculos estadísticos efectuados resultan pertinentes. D.9. Los resultados (cualitativos y cuantitativos) se discuten con

claridad.

D.10. Las decisiones sobre los ítems tienen en cuenta cuestiones



teóricas. D.11. Se especifica claramente que ítems son eliminados y por qué. D.12. Los ítems seleccionados quedan claramente delimitados. (E) Estudio de la dimensionalidad del instrumento (estructura interna). Sí Dudoso No E.1. La delimitación del trabajo es clara (primer estudio de

dimensionalidad de la escala o validación cruzada de resultados previos)

E.2. Los objetivos del análisis aparecen claramente especificados (estudio exploratorio frente a análisis confirmatorio, o ambos).

E.3. La información presentada sirve para justificar con claridad los objetivos propuestos.

E.4. Es facilitada toda la información necesaria para que el lector conozca los antecedentes que justifican la escala y la dimensionalidad esperada de ésta.

E.5. Información sobre la muestra es completa y pertinente. E.6. La muestra de estudio tiene características similares a la de la

población objetivo del test.

E.7. El tamaño de la muestra es adecuado para los objetivos del estudio.

E.8. El procedimiento de muestreo seguido es correcto para los objetivos del estudio.

E.9. En el caso de usarse un procedimiento exploratorio de análisis factorial, aparece justificada su necesidad.

E.10. Se razona con claridad el por qué ha decidido usarse un tipo concreto de análisis factorial exploratorio y no otro.

E.11. Con anterioridad a la aplicación del análisis factorial exploratorio el autor informa sobre la adecuación de la matriz de correlaciones (esfericidad de Barlett e índice de Kaiser-Meyer-Olkin)

E.12. La interpretación de la dimensionalidad de la escala es efectuada sobre la solución factorial rotada.

E.13. El procedimiento de rotación factorial usado es justificado correctamente.

E.14. El procedimiento de rotación factorial usado es adecuado. E.15. La información facilitada sobre la solución factorial resultante

es la adecuada (número de factores, saturaciones factoriales relevantes de los ítems que los integran, porcentaje de varianza explicada y comunalidad).

E.16. Los procedimientos estadísticos usados para discutir cuáles son los factores relevantes a tener en cuenta son adecuados.

E.17. La discusión sobre los factores a tener en cuenta es enmarcada en la investigación teórica y empírica previa.

E.18. En el caso de aplicarse un procedimiento basado en el análisis factorial confirmatorio, el modelo de medida (forma de distribuirse los ítems) a analizar es claramente delimitado.

E.19. En el estudio, junto al modelo de referencia, se someten a diagnóstico comparativo propuestas alternativas.

E.20. Se justifica el procedimiento de estimación usado. E.21. El procedimiento de estimación elegido en el estudio resulta



adecuado. E.22. Para el diagnóstico del modelo el autor usa simultáneamente

varios índices.

E.23. En el trabajo se informa sobre el por qué de los índices seleccionados y cuáles van a ser los valores de corte a considerar para estimar la bondad de ajuste del modelo.

E.24. En el trabajo se presentan con claridad los resultados para los distintos índices de bondad de ajuste.

E.25. Si el autor hace modificaciones para mejorar el ajuste, las decisiones están claramente fundamentadas (teóricas y empíricamente), y aparecen con claridad en el estudio.

E.26. El autor presenta el diagrama (path diagram) donde aparece la distribución de los ítems por factor, el “grado” en el que cada uno de éstos es predicho por el factor de pertenencia, y en general todos los parámetros considerados relevantes en la especificación inicial del modelo.

(F) Estimación de la fiabilidad. Sí Dudoso No F.1. En el trabajo se justifica el procedimiento de estimación de la

fiabilidad a usar (adecuación teórica).

F.2. El método de estimación de la fiabilidad empleado se considera adecuado.

F.3. Si en el informe se usa el método test-retest, son proporcionados y discutidos los aspectos más significativos que afectan a este cálculo aparte de las cuestiones teóricas (intervalo temporal, condiciones de evaluación, correspondencia muestral, etc.).

F.4. Teniendo en cuenta los aspectos más significativos que afectan a la aplicación del método test-retest (intervalo temporal, condiciones de evaluación, correspondencia muestral, etc.), ésta se considera adecuada.

F.5. Si en el informe se usa el método de formas paralelas, son proporcionados y discutidos los aspectos más significativos que afectan a este cálculo aparte de las cuestiones teóricas (datos sobre la equivalencia de las pruebas, además de la información común al test-retest, como intervalo temporal, condiciones de evaluación, correspondencia muestral, etc.)

F.6. Teniendo en cuenta los aspectos más significativos que afectan a la aplicación de las formas paralelas (equivalencia de las pruebas, intervalo temporal, condiciones de evaluación, correspondencia muestral, etc.), ésta se considera adecuada.

F.7. Si en el informe se usa el índice alpha de Cronbach basado en la consistencia interna, son proporcionados y discutidos los aspectos más significativos que afectan a este cálculo aparte de las cuestiones teóricas (número de ítems por componente del constructo, y formato de éstos).

F.8. Teniendo en cuenta los aspectos más significativos que afectan a la aplicación del alpha de Cronbach (número de ítems por componente del constructo y formato de éstos), ésta se considera adecuada.



F.9. Si en el informe se usa un procedimiento basado en la obtención de dos mitades de un test para el cálculo de la consistencia interna, son proporcionados y discutidos los aspectos más significativos que afectan a este cálculo aparte de las cuestiones teóricas (procedimiento para obtener las dos partes y número de ítems que las integran).

F.10. Teniendo en cuenta los aspectos más significativos que afectan a la aplicación del procedimiento basado en la obtención de dos mitades de un test (número de ítems y formato de éstos), ésta se considera adecuada.

F.11. El tamaño de la muestra de estudio es adecuado para los objetivos de la investigación.

F.12. Las características de los participantes son adecuadas en función de los objetivos del test y finalidad de las puntuaciones

F.13. El procedimiento de evaluación utilizado es adecuado en función de las características de la prueba.

F.14. Los resultados derivados de la estimación de la fiabilidad se muestran con claridad.

F.15. La discusión de los resultados se hace teniendo en cuenta tanto aspectos metodológicos como teóricos.

F.16. En el caso de obtenerse unos datos deficientes de fiabilidad, en el trabajo son discutidas las estrategias a adoptar.






GUIA DE LECTURA

Contenido 1. La investigación en Psicología Clínica.

1. ¿Cómo se aplica el método científico en el ámbito de la Psicología Clínica?

2. ¿Qué han querido resaltar Edwards y Cronbach en su cita referente a las “dos

personalidades” del psicólogo clínico?

3. ¿Cuáles son los objetivos de la Psicología Clínica?

4. ¿En qué consiste la especulación y cómo ésta ayuda en la investigación clínica?

5. ¿Qué utilidad tienen los trabajos publicados por otras personas?

6. ¿Qué implicancias tiene la definición correcta de variable dependiente y

variable independiente en la investigación clínica?

7. ¿Cuáles son las estrategias de investigación clínica?

8. ¿Cuáles son las áreas o temas que abarca la Psicología Clínica?

9. ¿Qué ámbitos de investigación se desprenden de estas áreas temáticas?

10. ¿Qué dilemas éticos pueden estar implicados en la investigación clínica?

Contenido 2. Diseños de investigación.

a. Problema central en las decisiones referente a diseños.

11. ¿Cuáles son los componentes esenciales de un diseño de investigación?

12. ¿Qué aspectos son los que deben cuidarse como parte de un diseño de

investigación?

13. ¿Cuál es el propósito de un diseño de investigación?

14. ¿Por qué es importante elegir adecuadamente un diseño de investigación?

15. Errores y sesgos, ¿Cuáles son y en qué consisten los sesgos en los que se

puede incurrir en una investigación?

16. Existen cuatro tipos de variables que intervienen en la investigación ¿cuáles

son y qué función cumplen?

17. Representación, aleatoriedad y realismo ¿cómo se vinculan con los diseños de

investigación?

18. ¿Qué función cumple la aleatorización?



b. Diseños de investigación clínica más utilizados.

19. Habitualmente suelen distinguirse tres métodos generales de investigación

¿cuáles son los aspectos críticos que los identifica?

20. ¿Qué diseños específicos son utilizados con mayor frecuencia en la

investigación clínica?

21. ¿En qué se diferencian básicamente?

22. Según las recomendaciones expresadas en el material, ¿qué criterios o

condiciones se deben presentar la utilización de tal o cual diseño?

c. El concepto de causalidad.

23. ¿Cuáles son los factores que definen o aumentan el valor de asociación

(explicativa de carácter causal) entre dos variables?

24. ¿En qué consiste el Principio de Precedencia Temporal (PPT)?

25. ¿Qué posiciones existen respecto a la búsqueda de asociaciones causales en

estudios transversales?

26. ¿Qué tipo de diseño debería emplearse para garantizar el PPT?

Contenido 3. La validez de la investigación científica.

a. La varianza sistemática y la varianza error.

27. ¿En qué consisten la varianza sistemática y la varianza error?

28. La varianza sistemática y la varianza error ¿de qué manera están vinculados

con la validez y la confiabilidad?

b. El diseño de investigación como control de varianza.

29. ¿Cuándo se realiza un experimento, cuál es la varianza que se busca evitar y

cuál es la que se busca asegurar de que ocurra?

30. ¿Cómo se entiende y aplica el principio MAX-MIN-CON?

c. Validez y confiabilidad en los diseños de investigación.

31. ¿En qué consisten la validez y la confiabilidad en los diseños de investigación?

32. ¿Con cuál de las dos se relaciona el concepto de sesgo?

33. ¿Cuáles son las medidas que debería adoptar quien investiga a fin de aumentar

la confiabilidad?

34. En forma sintética y global, ¿con qué factor está vinculado la validez de la

investigación?

d. Tipos de validez en la investigación.

35. ¿Cuáles son los tipos de validez involucrados en toda investigación?

36. ¿Existe una validez más importante que las demás? Justifica tu respuesta.

37. ¿Cómo se relacionan la validez interna y la validez externa entre sí?



e. Amenazas a la validez.

38. ¿Cuáles son las amenazas a la validez interna?

39. ¿Cuáles son las amenazas a la validez externa?

Contenido 4. Estrategias para la atención a las amenazas a la validez

a. Amenazas a la validez interna:

40. La incorporación de un “grupo de control”, ¿a qué amenazas a la validez

interna puede ayudar a proteger?

41. ¿Cuáles son las ventajas y desventajas de implementar diseños con pre-test?

42. ¿Qué efecto podría generar la selección de “casos extremos” para un estudio

clínico?

43. ¿Cuáles son las principales estrategias utilizadas para disminuir las amenazas a

la validez interna?

b. Amenazas a la validez externa:

44. ¿La amenaza a la validez externa, además de las características específicas de

las personas que participan del estudio, de qué otros factores depende?

45. ¿Cómo afectan las condiciones específicas del estudio a los resultados?

46. ¿A qué se refiere el efecto de “reactividad”?

Contenido 5. Evaluación de impacto de la intervención clínica

a. Revisión conceptual

47. ¿En qué consiste la evaluación del impacto de la intervención?

48. ¿Cuáles son las razones y el propósito principal de la realización de evaluación

del impacto de intervención?

49. ¿Qué criterios se utilizan para establecer una “evidencia científica?

b. Problemas interpretativos más frecuentes

50. ¿Qué problemas de interpretación se pueden presentar a hora de evaluar los

resultados?

51. ¿Qué condiciones se pueden presentar cuando se evalúan intervenciones?

52. ¿Cuáles son los problemas habituales en el proceso de evaluación de las

intervenciones clínicas?

c. Establecimiento de intervenciones eficaces

53. ¿Cómo se establece que una intervención es eficaz?

54. ¿Cuándo no se tiene experiencia suficiente en investigación de intervenciones,

qué tipo de estudio es lo más recomendable?



d. El meta-análisis

55. ¿En qué consiste el meta-análisis y de qué forma ayuda en la evaluación de las

intervenciones clínicas?

56. ¿Qué sitio ocupa en el aporte de evidencia científica?

Contenido 6. Estudios de caso.

a. El estudio de caso en Psicología Clínica

57. ¿Qué condiciones son las que impulsan la implementación del estudio de caso

opción metodológica?

58. ¿Es científicamente cuestionable el uso de estudios de caso en la investigación

clínica?

59. ¿Qué nivel de evidencia científica aporta el estudio de casos?

60. ¿De qué tipos de amenazas adolecen los estudios de caso?

b. Diseños experimentales de caso único

61. ¿Es posible controlar las fuentes de amenazas en estudios de caso?, es decir,

¿es posible incorporar el paradigma del “control experimental” en los estudios

de caso?

62. ¿Podrías señalar cuáles son las características de los diseños experimentales

cuando se utiliza un solo sujeto?

c. Principales estrategias de diseño experimental

63. ¿Cuáles son los paradigmas aplicados en los diseños experimentales de sujeto

único?

64. Describe las características principales de cada paradigma.

65. ¿Qué restricciones específicas definen qué tipo de diseño es mejor utilizar?

d. Análisis de datos en diseños de caso único

66. Describe las dos perspectivas utilizadas para analizar datos en diseños N=1:

Análisis no-estadístico.

Análisis estadístico.

e. Cuasi experimentos en diseños de caso único

67. ¿En qué se diferencian, metodológicamente hablando, los diseños

cuasiexperimentales de los experimentales que utilizan un solo sujeto?

68. ¿Qué circunstancias limitan el uso de experimentos en el estudio de casos?

Contenido 7. Métodos de investigación cualitativa.

a. Estrategias, métodos y técnicas cualitativas.

69. ¿En qué se diferencian las estrategias cualitativas de las cuantitativas?



70. Lo cualitativo… ¿qué tipo de conocimiento aporta?

71. ¿Qué tan habitual es requerir de información cualitativa en Psicología?

72. ¿Qué problemas de la psicología clínica, consideras, deben ser abordados

desde la perspectiva cualitativa?

b. Análisis de datos en la investigación cualitativa:

73. ¿De qué manera se procede para analizar los datos cualitativos?

Datos verbales y datos visuales

Análisis de datos cualitativos.

Interpretación de los resultados.

Utilización de programas informáticos.

c. La calidad de la investigación cualitativa

74. ¿Cuáles son los criterios utilizados para evaluar la calidad de la investigación

cualitativa?

75. ¿Validez y confiabilidad son aplicables a esta perspectiva?

Contenido 8. Métodos estadísticos para la evaluación de los resultados.

76. La estadística descriptiva ¿qué utilidad tiene en la investigación clínica?

77. ¿Cuáles son los principales índices o estadísticos del análisis descriptivo?

78. ¿En qué consiste la inferencia estadística?

79. Elabora un cuadro resumen relacionando los diseños de investigación con las

estrategias analíticas utilizando técnicas estadísticas concretas.

80. ¿De qué manera se procede para elaborar una conclusión estadística, a partir

del análisis de resultados de investigación?

Contenido 9. Medición en psicología clínica.

81. ¿Cuáles son las principales estrategias de medición en la Psicología Clínica?

82. ¿Por qué es importante la consideración del constructo de un instrumento?

83. ¿En qué aspectos puede afectar la confiabilidad del instrumento?

84. ¿Cuáles son los procedimientos utilizados para evaluar la confiabilidad?

85. ¿Es el coeficiente alfa de Cronbach el mejor índice de confiabilidad? ¿Por qué?

86. ¿Cuáles son los tipos de validez que pueden afectar a un instrumento?

87. ¿Qué estrategias se utilizan para evaluar cada tipo de validez?

88. ¿Cuáles son los principales índices referidos al análisis de ítems?

89. ¿A qué se refiere la “estructura interna” de instrumento?

90. En resumen, ¿cuáles son los criterios más importantes que se deben considerar

al momento de seleccionar un instrumento de evaluación clínica?






GUÍA PARA LA INTERPRETACIÓN DE PUNTAJES BASE DE DATOS PARA EJERCICIOS

Con la intención de facilitar la comprensión de los valores presentes en las bases de datos

distribuidas para el informe de investigación, se presentan a continuación:

a. El diccionario de la base de datos para los ejercicios.

b. Tablas de interpretación y equivalencias.

Tabla 1. Diccionario de variables de la base de datos de ejercicios

Variable Etiqueta Valor Etiqueta

NID Número de Identificación ## número consecutivo

red_soc Red Social a la que pertenece 0 Andrés

1 Silvina

sex Sexo consignado en el documento 0 Varón

1 Mujer

edad Edad en años ## valor en años

nse Nivel Socioeconómico

1 Bajo

2 Medio

3 Alto

est_fam Estructura Familiar

1 Nuclear

2 Extensa

3 Monoparental

4 Ensamblada

lech_mat Consumió Leche Materna 0 No

1 Sí

escolar Nivel de Escolaridad alcanzado

1 Primario

2 Secundario

3 Terciario

bachiller Modalidad de Bachiller

1 Humanístico

2 Científico

3 Administración

4 Informático

CI Coeficiente Intelectual ## escala numérica



Variable Etiqueta Valor Etiqueta

sat_vit Satisfacción Vital ## escala numérica

cons_alc Consumo de Alcohol 0 No

1 Sí

cons_alc_f Frecuencia de Consumo de Alcohol

1 Ocasionalmente

2 1 o 2 veces al mes

3 Muy frecuentemente

otr_sust Otras sustancias consumidas 0 No

1 Sí

depres Nivel de depresión - Escala Beck ## escala numérica

int_suic Intentos de suicidio 0 No

1 Sí

ansied Nivel de ansiedad - Escala Hamilton ## escala numérica

strs Nivel de estrés

1 Muy bajo

2 Bajo

3 Moderado

4 Alto

vehic Tipo de vehículo con que se moviliza

0 T. público

1 Motocicleta

2 Automóvil

ac_veh Tuvo algún en accidente vehicular 0 No

1 Sí

imc Índice de masa corporal Kg/m2 ## escala numérica

deporte Práctica deportiva 0 No

1 Sí

niv_gluc Nivel de glucosa en sangre (mg/dl) ## escala numérica

pres_art_sis Presión arterial sistólica (mmHg) ## escala numérica

pres_art_dias Presión arterial diastólica (mmHg) ## escala numérica

Ed_1a_relsx Edad en la que tuvo la primera relación sexual

## escala numérica

uso_pres Utilizó preservativo en aquella ocasión

0 No

1 Sí

ult_rel Utilizó preservativo en la última relación

0 No

1 Sí

rel_sex_anal Mantuvo relaciones anales desprotegidas durante los últimos 3 meses

0 No

1 Sí

dx_ITS Diagnóstico de ITS

0 Ninguno

1 Sífilis

2 VIH



Tabla 2. Tabla de equivalencias de las puntuaciones de coeficiente intelectual (CI)

Nivel de depresión Puntaje en el test

> 130 Muy dotada

121-130 Dotada

111-120 Inteligencia por encima de la media

90-110 Inteligencia media

80-89 Inteligencia por debajo de la media

70-79 Retraso mental

Tabla 3. Tabla de equivalencias del nivel de satisfacción vital


30 - 35 Altamente satisfecho

25 - 29 Satisfecho

20 - 24 Ligeramente satisfecho

15 - 19 Ligeramente por debajo de la media

10 - 14 Insatisfecho

05 - 09 Muy Insatisfecho

Tabla 4. Tabla de equivalencias del test de Depresión


Ausente Menor o igual a 10

Leve De 19 a 24

Moderada De 25 a 29

Grave Igual o mayor a 30

Tabla 5. Tabla de equivalencias del test Hamilton de ansiedad

Nivel de ansiedad Puntaje en el test

Ausente Menor o igual a 5

Leve De 6 a 14

Moderada a grave Igual o mayor a 15



Tabla 6. Tabla de equivalencias para interpretar el Índice de Masa Corporal IMC

Clasificación IMC (kg/m2)

Valores principales Valores adicionales

Infrapeso <18,50 <18,50

Delgadez severa <16,00 <16,00

Delgadez moderada 16,00 - 16,99 16,00 - 16,99

Delgadez no muy pronunciada

17,00 - 18,49 17,00 - 18,49

Normal 18.5 - 24,99 18.5 - 22,99

23,00 - 24,99

Sobrepeso ≥25,00 ≥25,00

Preobeso 25,00 - 29,99 25,00 - 27,49

27,50 - 29,99

Obeso ≥30,00 ≥30,00

Obeso tipo I 30,00 - 34,99 30,00 - 32,49

32,50 - 34,99

Obeso tipo II 35,00 - 39,99 35,00 - 37,49

37,50 - 39,99

Obeso tipo III ≥40,00 ≥40,00

Tabla 7. Tabla resumida de equivalencias para interpretar el Índice de Masa Corporal IMC

Condición Rango de IMC

Bajo peso < 18.5

Peso adecuado 18.5 - 24.9

Sobrepeso 25 - 29.9

Obeso 30 - 39.9

Extremadamente obeso >= 40

Tabla 8. Valores normales de glucosa en sangre

Categorías Niveles de Glucosa

Valores normales 72 – 145 mg/dl

Hipoglucemia Inferior a 72 mg/dl

Hiperglucemia (diabetes) Superior a 145 mg/dl



Tabla 9. Valores de equivalencia para interpretar los niveles de presión arterial

Categoría Sistólica (mmHg) Diastólica (mmHg)

Óptima** < 120 y < 80

Normal <130 y < 85

Normal-Alta 130-139 ó 85-89

Hipertensión***

Estadío 1 140-159 ó 90-99

Estadío 2 160-179 ó 100-109

Estadío 3 180 ó más ó 110 ó m

Tabl

a 1.

Tab

la d

e 2.

200

núm

eros

(pse

udo)

alea

torio

s

Ejer

cici

os d

e an

ális

is d

e da

tos

5588

6261

7298

5232

5467

0338

9018

9956

4415

4869

9696

8799

5378

6538

8799

4149

4156

7732

5830

4457

4852

0358

6718

2578

6056

0523

2450

3546

2275

5337

0192

4829

2864

6641

3375

9875

4045

6377

0557

5677

6494

5902

2641

6794

0715

9063

0518

9302

2303

8241

4252

5531

4513

2460

1336

3618

1420

3331

1739

9083

2660

1992

7063

5087

6845

6589

1248

8726

6572

2961

2655

9572

8176

1964

6302

8838

8865

2685

6336

4945

0205

6218

4163

9299

6408

6016

5054

2463

3726

2469

5621

2111

2777

0952

3743

6960

0521

4971

6086

9105

7929

2248

7377

1979

4804

4634

1803

3777

4705

0126

1941

2768

2718

1133

9404

5707

9719

6163

3235

7449

2046

7989

9043

3033

0639

0968

3634

7148

9382

9269

5838

0876

5479

7009

4480

3499

9977

88

3107

6727

6813

6673

0124

9918

4342

4374

3045

5802

2080

4354

6171

7412

0172

2116

2324

7865

8271

3609

5479

6568

2334

5645

9032

7194

2724

7927

1520

1104

6442

7235

3907

8155

0888

5429

5618

6189

2809

6926

3891

3139

6932

9946

4192

3434

8281

5219

5737

0387

2852

7463

4707

7520

5308

0428

6688

5479

5593

9114

5950

0453

3213

0145

2536

8152

9552

4387

7868

0556

4722

3807

8995

3896

8925

6478

8321

3026

2490

4893

8819

7721

2840

1030

4632

9692

8714

2276

0643

5842

0908

9003

1901

1172

1707

2611

0655

7063

2703

7171

7294

3848

8456

9670

3802

5087

9127

1796

3671

0458

4017

6833

6978

1882

1738

2976

4191

5812

3538

2496

0229

8511

6417

5906

4231

7444

1615

0111

0636

9292

3780

2111

5619

1604

0590

1562

4697

25

4502

9349

3657

1463

2333

3658

1734

9708

0692

0798

1354

6727

4771

4391

6684

7868

3701

5698

8929

1125

2193

6354

3698

3621

6148

2978

9452

0686

8762

3258

9974

0350

0909

5339

9970

2978

6985

2206

1840

8337

1160

2943

1445

2985

7348

3872

6397

4779

9105

5780

9648

7152

5424

0363

5363

2461

5055

5820

8081

9912

3517

9621

8616

9660

4965

5670

2607

3129

9288

2872

3721

9367

0927

9109

2202

3453

7880

1146

8150

1272

7930

6206

9131

7874

3879

7741

1354

5154

9413

3860

8640

9032

9033

1158

7022

3097

1910

5645

8664

6327

3521

8354

3017

1412

7398

6729

6773

4393

2966

6159

5172

8994

5220

1504

8319

6649

9465

6433

3289

6520

7370

7501

6283

8120

3692

3920

2655

0360

2160

6397

1633

8646

6720

5075

9332

4536

6065

88

1119

2316

1485

4656

1065

9228

7951

9152

5420

8905

8874

9047

7450

5691

3919

8646

6391

8179

7229

2219

3505

8518

1761

4614

5660

6958

0601

1554

0378

1278

7605

7353

2651

1363

3929

0521

7448

3633

4591

8616

0263

3998

1163

7544

3365

9345

7196

3455

7240

9952

3509

4312

9277

5135

7937

5306

1691

0493

2709

5686

3670

8303

9732

6138

2270

1589

3880

6235

5864

9247

3951

9352

2212

8012

7283

0555

1019

4927

1125

2630

6663

0426

5160

8463

8217

0598

5201

0432

3271

3663

6336

6747

3375

2070

9871

1374

8589

1516

8129

6074

5206

2073

5467

7792

7853

2727

1104

5422

8053

5245

2352

1624

5169

7504

1510

2485

8526

0853

6672

3497

8530

7783

5995

1634

9292

0516

8141

5128

8594

9092

6471

3841

3943

2261

7006

1677

8090

33

3725

4547

2718

1067

8050

2248

3723

3825

6537

6304

4240

7220

2571

5806

4318

4031

0830

0613

0351

8597

7382

7089

7191

2525

4265

9351

4356

6205

3908

6748

8067

7713

0591

6648

5076

3102

7985

0765

0787

3159

7603

7984

7490

4953

7007

6099

8638

4661

6603

6292

3937

6940

2292

3651

4204

0525

2285

6981

7139

4565

0735

0620

4004

8507

1433

9338

2174

6206

4221

8595

4946

5694

9730

9130

6942

3319

3357

6384

0582

1782

3375

8485

8612

5346

5722

8185

8542

3736

3070

3407

1756

0185

7269

9937

0914

9776

2091

8115

9047

8724

4196

4184

2250

7646

4434

1192

4948

0909

7743

4509

7925

2860

3075

6261

4142

7350

5605

8045

9059

8269

8596

8133

3955

7450

7682

2988

9150

8433

5798

9906

7577

1756

9766

2179

5799

0119

1537

69

7748

7048

7532

0498

8494

5138

0547

2824

8778

9976

6310

5137

3019

9584

9102

6050

5235

6465

2256

7856

3592

4996

8012

9450

9507

2293

8020

4358

9924

2306

2332

7274

3994

7943

7571

7271

4266

4072

0871

6203

0193

4541

9161

8887

5526

4393

5830

6558

0146

7507

3777

4269

8507

7234

3202

2064

7170

3427

4685

0801

0143

2691

6819

8692

9814

3113

3085

6491

4188

5209

3621

0732

9547

4238

7159

2501

8689

7593

9868

4499

9849

5275

4632

8393

1446

5847

8211

3057

4738

0733

2994

9391

0893

8049

7263

7421

8409

6099

1005

6846

0596

2537

3169

5415

3044

1903

8716

6289

7316

6848

3995

1672

3494

7026

2289

3156

0806

6506

0403

2206

9670

5879

1542

1567

2386

4021

8217

9622

1821

9922

0897

7223

4080

6677

8833

0931

1625

14

9555

7467

2013

7116

7681

9425

3112

9949

0464

3186

1033

5826

3471

9551

6289

5293

9244

7699

3376

6903

8389

1026

5478

0359

6994

5750

4373

2898

0436

7983

5267

3346

7393

8565

6259

7915

8924

2139

5502

1867

1561

8752

4541

4959

3716

2918

8597

2670

2433

5327

0182

7076

4521

3922

5036

7730

2122

4395

6357

1975

1139

6522

5842

2923

8160

4305

3860

1266

9232

0351

7795

0252

2223

9506

3036

2366

8123

1867

9996

3720

6797

1236

3009

1464

2392

0760

3991

8011

3244

3595

9067

1047

0244

3620

0818

7986

2891

9661

0388

5766

1124

8559

1668

2007

1552

1425

2926

7432

1163

5620

7078

1549

7423

2230

0191

1986

1018

5874

5031

2857

9823

2520

7166

2513

9055

6107

0938

6771

4908

1919

5296

1669

0617

4894

4301

7154

9290

09

5063

5160

6106

1347

7671

1297

0303

7535

4857

3619

5225

1687

0307

3885

9442

8409

6138

2206

0564

5558

4723

3934

6090

5713

1854

2827

5894

2158

8351

5325

5496

7329

7030

8358

5180

1446

7382

2522

1802

7175

2361

1195

5075

9808

3284

6273

6136

9751

6909

1834

3779

0561

7607

3594

7938

0883

4517

6751

7475

8143

8836

4692

6876

0477

2465

7526

6276

8339

2791

9909

4448

4702

9186

3280

4791

4736

9188

7954

8368

2491

1958

1599

9043

1563

2472

9462

5991

3110

1994

6349

7797

6325

0452

2790

9870

9504

3433

3679

9157

6810

6330

9238

0476

9231

5584

0508

4933

6730

5286

8233

4698

8472

8495

4169

0593

6483

6271

3513

3013

0640

6329

4020

0206

9435

3773

9005

4220

9536

6482

2954

3713

0832

5090

5947

6346

3355

4106

96

Núm

eros

gen

erad

os c

on so

port

e in

form

átic

o (L

ibre

Offi

ce) s

igui

endo

el f

orm

ato

de R

AND

Corp

orat

ion

Investigación Clínica. Guía de estudio. Felipe Recalde, Enrique Morosini

Documents

Transcript of Investigación Clínica. Guía de estudio. Felipe Recalde, Enrique Morosini