Una oportunidad para Bayes

2
252 Med Clin (Barc) 2002;119(7):252-3 48.462 Si preguntamos a lectores de revistas biomédicas qué indi- ca el nivel de significación o p-value, posiblemente aparece- rán tres grandes grupos. Uno de ellos dirá que el nivel de significación es la probabilidad de que la conclusión alcan- zada sea errónea. Otro, que es la probabilidad de que la hi- pótesis nula sea cierta. El tercer grupo, en cambio, dirá que sabe que el nivel de significación no es nada de esto, pero que ni se atreve a decir lo que es ni acaba de entender por qué se utiliza una herramienta cuya interpretación es tan compleja. Estos investigadores se preguntan por qué los estadísticos no proponen una medida más simple. A mediados del pasado siglo XX R.A. Fisher propuso y consi- guió estandarizar el uso de la prueba de significación, lo que supuso un salto de gigante en la formalización de la in- ferencia científica. Esta estandarización condujo a una re- pentina popularidad que fue a la vez buena y mala para la práctica estadística. Buena porque los investigadores apli- cados comenzaron a utilizar la estadística (valores de p) de forma habitual; mala porque el valor de p empezó a malin- terpretarse con casi igual universalidad con que se usaba, exagerándose la evidencia en contra de la hipótesis nula y produciéndose una plétora de resultados «significativos» en revistas de investigación que luego, en la práctica, se han quedado en nada. El uso habitual de los valores de p para cuantificar la evidencia en contra de la hipótesis nula (y, por tanto, como base para encontrar «efectos» terapéuticos) ha sido muy criticado tanto en foros médicos 1-4 como estadísti- cos 5 . Multitud de referencias acerca de este debate, así como enlaces a páginas web aplicadas, y una aplicación in- formática muy instructiva pueden encontrarse en http:// www.stat.duke.edu/~berger/p-values.html. Queremos defen- der a continuación el uso de dos procedimientos alternati- vos a la prueba de significación que permiten un nuevo paso en la formalización del conocimiento científico. El primero consiste en utilizar el intervalo de confianza en lugar del nivel de significación. Sin lugar a dudas el intervalo de confianza, que proporciona los valores del parámetro compatibles con la información muestral, es una herramien- ta de inferencia más positiva que el nivel de significación, que intenta cuantificar hasta qué punto la información muestral es incompatible con un único valor del parámetro especificado en la hipótesis nula. Entre otras ventajas, la amplitud del intervalo de confianza y los valores de sus ex- tremos informan de la cantidad de información disponible, de si es conveniente recurrir a una nueva recogida de infor- mación o de si ya estamos en condiciones de tomar una de- cisión práctica. Estas ventajas han sido ampliamente defen- didas 6-8 , hasta el punto de que ya han sido recogidas por los redactores de las recomendaciones para los autores de re- vistas biomédicas, que anteponen el uso de intervalos de confianza al de pruebas de significación o de contrastes de hipótesis 9 : «Aunque los valores de p se pueden añadir a los intervalos de confianza, los resultados no deben expre- sarse solamente como valores de p». El siguiente y necesa- rio paso es que los autores y los editores de revistas biomé- dicas avancen definitivamente en esta línea. La segunda alternativa al uso del nivel de significación que deseamos fomentar consiste en recurrir al teorema de Ba- yes para poder calcular, a partir de los resultados muestra- les, la probabilidad de que cierta hipótesis sea cierta lo que muchos erróneamente creen que están proporcionando el nivel de significación (valor de p) o el intervalo de confianza. Para conseguirlo, es preciso recurrir a una formalización del conocimiento científico previo: antes de los datos que ac- tualmente estamos analizando, ¿qué se sabía sobre este tema?, ¿qué se sabía sobre el valor de este parámetro? Si se acepta representar el nivel de incertidumbre previa en for- ma de probabilidades sobre los diferentes valores del pará- metro, ya se tienen todos los elementos necesarios para ac- tualizar la información científica mediante el teorema de Bayes. De manera modesta, a las probabilidades asignadas a priori al conocimiento previo disponible se las denomina subjeti- vas, pero no porque se asignen sin criterio, sino para recor- dar que el conocimiento científico en un momento determi- nado no puede disponer de todas las teorías alternativas que compiten para repartirse esta probabilidad a priori. Sin embargo, el hecho de que la inferencia bayesiana haga ex- plícita la gran debilidad de todo proceso inferencial –depen- der de los conocimientos previos que motivan el estudio y su diseño– no puede nunca ir en su contra, ya que esta de- bilidad es común a toda investigación científica. En cual- quier caso, ésta es la gran discusión que subyace en el uso de la inferencia bayesiana: si hacer patente la subjetividad del conocimiento previo es un precio muy alto para poder asignar probabilidades a las teorías. Por otra parte, es muy importante resaltar de forma rotunda y clara que, aunque la utilización de información a priori «subjetiva», es decir que refleja el conocimiento del experto, es el aspecto más llamativo de la metodología bayesiana, porque es la única metodología que puede incorporarla, en realidad esta característica no es ni definitoria ni esencial en muchos análisis estadísticos bayesianos. En efecto, para problemas de estimación (puntual o por intervalo) se puede, si así se desea, usar la «aproximación bayesiana objetiva», que no utiliza ninguna información externa al experimento y es, por tanto, tan objetiva como cualquier método tradicio- nal y mucho más fácil de interpretar y de calcular. En pro- blemas de contraste de hipótesis, durante mucho tiempo se ha creído que la incorporación explícita de información a priori (externa al experimento) no podía obviarse. Sin em- bargo, últimamente se está desarrollando toda una serie de EDITORIAL Una oportunidad para Bayes María Jesús Bayarri a y Erik Cobo b a Departamento de Estadística e Investigación Operativa. Universitat de València. Valencia. España. b Universitat Politècnica de Catalunya. Barcelona. España. Correspondencia: Prof. M.J. Bayarri. Departamento de Estadística e Investigación Operativa. Universitat de València. Avda. Dr. Moliner, 50. 46100 Burjassot. Valencia. Correo electrónico: [email protected] Recibido el 23-5-2002; aceptado para su publicación el 29-5-2002.

Transcript of Una oportunidad para Bayes

252 Med Clin (Barc) 2002;119(7):252-3

48.462

Si preguntamos a lectores de revistas biomédicas qué indi-ca el nivel de significación o p-value, posiblemente aparece-rán tres grandes grupos. Uno de ellos dirá que el nivel designificación es la probabilidad de que la conclusión alcan-zada sea errónea. Otro, que es la probabilidad de que la hi-pótesis nula sea cierta. El tercer grupo, en cambio, dirá quesabe que el nivel de significación no es nada de esto, peroque ni se atreve a decir lo que es ni acaba de entender por qué se utiliza una herramienta cuya interpretación estan compleja. Estos investigadores se preguntan por qué losestadísticos no proponen una medida más simple.A mediados del pasado siglo XX R.A. Fisher propuso y consi-guió estandarizar el uso de la prueba de significación, loque supuso un salto de gigante en la formalización de la in-ferencia científica. Esta estandarización condujo a una re-pentina popularidad que fue a la vez buena y mala para lapráctica estadística. Buena porque los investigadores apli-cados comenzaron a utilizar la estadística (valores de p) deforma habitual; mala porque el valor de p empezó a malin-terpretarse con casi igual universalidad con que se usaba,exagerándose la evidencia en contra de la hipótesis nula yproduciéndose una plétora de resultados «significativos» enrevistas de investigación que luego, en la práctica, se hanquedado en nada. El uso habitual de los valores de p paracuantificar la evidencia en contra de la hipótesis nula (y, portanto, como base para encontrar «efectos» terapéuticos) hasido muy criticado tanto en foros médicos1-4 como estadísti-cos5. Multitud de referencias acerca de este debate, asícomo enlaces a páginas web aplicadas, y una aplicación in-formática muy instructiva pueden encontrarse en http://www.stat.duke.edu/~berger/p-values.html. Queremos defen-der a continuación el uso de dos procedimientos alternati-vos a la prueba de significación que permiten un nuevopaso en la formalización del conocimiento científico.El primero consiste en utilizar el intervalo de confianza enlugar del nivel de significación. Sin lugar a dudas el intervalode confianza, que proporciona los valores del parámetrocompatibles con la información muestral, es una herramien-ta de inferencia más positiva que el nivel de significación,que intenta cuantificar hasta qué punto la informaciónmuestral es incompatible con un único valor del parámetroespecificado en la hipótesis nula. Entre otras ventajas, laamplitud del intervalo de confianza y los valores de sus ex-tremos informan de la cantidad de información disponible,de si es conveniente recurrir a una nueva recogida de infor-mación o de si ya estamos en condiciones de tomar una de-cisión práctica. Estas ventajas han sido ampliamente defen-

didas6-8, hasta el punto de que ya han sido recogidas por losredactores de las recomendaciones para los autores de re-vistas biomédicas, que anteponen el uso de intervalos deconfianza al de pruebas de significación o de contrastes de hipótesis9: «Aunque los valores de p se pueden añadir alos intervalos de confianza, los resultados no deben expre-sarse solamente como valores de p». El siguiente y necesa-rio paso es que los autores y los editores de revistas biomé-dicas avancen definitivamente en esta línea.La segunda alternativa al uso del nivel de significación quedeseamos fomentar consiste en recurrir al teorema de Ba-yes para poder calcular, a partir de los resultados muestra-les, la probabilidad de que cierta hipótesis sea cierta lo quemuchos erróneamente creen que están proporcionando elnivel de significación (valor de p) o el intervalo de confianza.Para conseguirlo, es preciso recurrir a una formalización delconocimiento científico previo: antes de los datos que ac-tualmente estamos analizando, ¿qué se sabía sobre estetema?, ¿qué se sabía sobre el valor de este parámetro? Si seacepta representar el nivel de incertidumbre previa en for-ma de probabilidades sobre los diferentes valores del pará-metro, ya se tienen todos los elementos necesarios para ac-tualizar la información científica mediante el teorema deBayes.De manera modesta, a las probabilidades asignadas a priorial conocimiento previo disponible se las denomina subjeti-vas, pero no porque se asignen sin criterio, sino para recor-dar que el conocimiento científico en un momento determi-nado no puede disponer de todas las teorías alternativasque compiten para repartirse esta probabilidad a priori. Sinembargo, el hecho de que la inferencia bayesiana haga ex-plícita la gran debilidad de todo proceso inferencial –depen-der de los conocimientos previos que motivan el estudio ysu diseño– no puede nunca ir en su contra, ya que esta de-bilidad es común a toda investigación científica. En cual-quier caso, ésta es la gran discusión que subyace en el usode la inferencia bayesiana: si hacer patente la subjetividaddel conocimiento previo es un precio muy alto para poderasignar probabilidades a las teorías.Por otra parte, es muy importante resaltar de forma rotunday clara que, aunque la utilización de información a priori«subjetiva», es decir que refleja el conocimiento del experto,es el aspecto más llamativo de la metodología bayesiana,porque es la única metodología que puede incorporarla, enrealidad esta característica no es ni definitoria ni esencial en muchos análisis estadísticos bayesianos. En efecto, paraproblemas de estimación (puntual o por intervalo) se puede,si así se desea, usar la «aproximación bayesiana objetiva»,que no utiliza ninguna información externa al experimento yes, por tanto, tan objetiva como cualquier método tradicio-nal y mucho más fácil de interpretar y de calcular. En pro-blemas de contraste de hipótesis, durante mucho tiempo seha creído que la incorporación explícita de información apriori (externa al experimento) no podía obviarse. Sin em-bargo, últimamente se está desarrollando toda una serie de

EDITORIAL

Una oportunidad para Bayes

María Jesús Bayarria y Erik Cobob

aDepartamento de Estadística e Investigación Operativa. Universitat de València. Valencia. España.bUniversitat Politècnica de Catalunya. Barcelona. España.

Correspondencia: Prof. M.J. Bayarri.Departamento de Estadística e Investigación Operativa.Universitat de València.Avda. Dr. Moliner, 50. 46100 Burjassot. Valencia.Correo electrónico: [email protected]

Recibido el 23-5-2002; aceptado para su publicación el 29-5-2002.

técnicas que permiten incluso el contraste de hipótesis, laselección de variables y modelos desde una perspectiva ba-yesiana objetiva. Un resumen muy lúcido y escueto del de-sarrollo bayesiano, así como multitud de referencias, puedeencontrarse en el trabajo de Berger10.Citemos a continuación algunas de sus ventajas. La prime-ra es precisamente poder combinar el conocimiento previocon la información empírica aportada por los datos. La críti-ca más feroz de un revisor es: «demasiado bonito para sercierto». Nótese que esta afirmación resalta la discrepanciaentre unas expectativas basadas en unas creencias previasy unos resultados muestrales. El planteamiento bayesianopermite abordar frontalmente este problema y mezclar esteescepticismo previo con los resultados observados. En reali-dad, la «actualización» que supone la información muestralserá mayor cuanto más escéptica sea la posición previa.Este punto lo recoge de forma natural el planteamiento ba-yesiano que muestra la convergencia de opiniones a la queconduce una misma información muestral, independiente-mente del grado de escepticismo del punto de partida. Ade-más, esta capacidad «integradora» de diversas fuentes deinformación no sólo se aplica a integrar información previa e información experimental, sino que puede aplicarse encualquier situación en la que se quiere aunar la informaciónproveniente de fuentes diversas. Por ejemplo, los métodosbayesianos han demostrado ser herramientas muy potentesen los metaanálisis de varios experimentos.La segunda ventaja del planteamiento bayesiano es que laadición de nueva información se incorpora con absoluta na-turalidad, sin todos los problemas de multiplicidad que su-ponen desde el planteamiento de la prueba de significación.No es necesario resaltar que algo no funciona en el plantea-miento metodológico si el hecho de disponer de nueva in-formación se convierte en un problema. Esta ventaja es ex-traordinariamente valiosa en planteamientos secuenciales,en los que un bayesiano puede «pararse» cuando quiera,mirar los datos cuanto desee, y tomar una decisión óptimacuando considere que cuentan con suficiente información(no es preciso seguir con el tratamiento inferior si muchoantes de lo previsto ya hay una evidencia apabullante deque el otro tratamiento es mejor).La tercera ventaja del planteamiento bayesiano es que, tam-bién de forma natural, conduce desde la inferencia científi-ca hasta la toma práctica de decisiones. Permite, pues,combinar la toma cotidiana de decisiones de un profesionalcon la adquisición científica de conocimiento. En otras pala-bras, hace transparente el paso de la investigación epide-miológica a las decisiones de salud pública o de la investi-gación farmacológica a las decisiones de las agencias detecnología sanitaria.Quizá la ventaja «técnica» más espectacular de la inferenciabayesiana es su capacidad para evaluar correctamente laincertidumbre (errores de estimación, intervalos sobre losparámetros, etc.) en modelos complejos. En estos modelos,la estadística tradicional suele sustituir los parámetros (mar-ginales) desconocidos por estimaciones, como si fuesen losverdaderos valores. La inferencia bayesiana permite prome-diar sobre los posibles valores de estos parámetros, ponde-rando dichos valores según su credibilidad, incorporandoasí, de forma natural, la incertidumbre existente sobre di-

chos parámetros. El mismo argumento se aplica a los pro-blemas de predicción, en que los métodos bayesianos sonclaramente superiores a los tradicionales en modelos no es-tándar, sobre todo debido a su gran simplicidad metodológi-ca. Esta capacidad de predicción se convierte en una herra-mienta muy valiosa en problemas de diseño11.A estas ventajas filosóficas y potenciales cabe añadir que lainferencia bayesiana es metodológicamente muy sencilla,con pocos principios y muy fáciles de entender, no importacuán complejo sea el modelo. Hasta hace pocos años, sinembargo, la aplicación práctica estaba limitada por las difi-cultades de cálculo numérico de las integrales involucradas.Hoy día, el análisis bayesiano no plantea especiales dificul-tades: disponemos de las herramientas matemáticas e in-formáticas necesarias. La «solución» ha venido gracias aldesarrollo de métodos avanzados de simulación (métodosMonte Carlo o MC, y Markov Chain Monte Carlo o MCMC)12,13.Más importante aún, en nuestro entorno disponemos degrandes expertos, procedentes especialmente de las Uni-versidades Carlos III, Granada, Málaga, Madrid, Rey JuanCarlos, Valencia, Politécnicas de Valencia y Cataluña, y mu-chas otras .Por todo ello, invitamos al lector a leer los artículos especia-les sobre el tema publicados en MEDICINA CLÍNICA14,15.Digamos, para acabar, que las recomendaciones internacio-nales para el desarrollo de fármacos claramente especifi-can16: «Puede considerarse el empleo de enfoques bayesia-nos y de otros enfoques cuando las razones para su usosean claras y cuando las conclusiones resultantes sean losuficientemente sólidas».

REFERENCIAS BIBLIOGRÁFICAS

1. Sterne J, Smith GD. Sifting the evidence –what’s wrong with significancetests? BMJ 2001;322:226-31.

2. Spiegelhalter D, Myles J, Jones D, Abrans K. An introduction to Bayesianmethods in Health Technology assessment. BMJ 1999;319:508-12.

3. Goodman SN. Toward evidence-based medical statistics. 1: the P valuefallacy. Ann Intern Med 1999;130:995-1004.

4. Goodman SN. Toward evidence-based medical statistics. 2: the Bayesfactor. Ann Intern Med 1999;130:1005-13.

5. Sellke T, Bayarri MJ, Berger JO. Calibration of p-values for testing preci-se null hypotheses. Am Stat 2001;55:62-71.

6. Braitman LE. Confidence intervals assess both clinical significance andstatistical significance. Ann Intern Med 1991;114:515-7.

7. Libreo J, Peiró S. Comparaciones abstrusas en los resúmenes de ensa-yos clínicos en revistas médicas españolas. Med Clin (Barc) 2001;117:732-3.

8. Argimón JM. El intervalo de confianza: algo más que un valor de signifi-cación estadística. Med Clin (Barc) 2002;118;382-4.

9. Altman DG, Schulz KF, Moher D, Egger M, Davidoff F, Elbourne D, et al,Lang T for the CONSORT group. The revised CONSORT statement forreporting randomised trials: explanation and elaboration. Ann Intern Med2001;134:663-94.

10. Berger J. Bayesian analysis: a look at today and thoughts of tomorrow. J.Am Stat Assoc 2000;95:1269-76.

11. Berry DA, Stangl DK. Bayesian biostatistics. Marcel Dekker, 1996.12. Casella G, George EI. Explaining the Gibbs sampling. Am Stat 1992;46:

167-74.13. Gilks WR, Richardson S, Speigelhalter D. Practical Markov Chain Monte

Carlo. Chapman and Hall, 1995.14. Álamo Santana F, Vázquez Polo FJ, Rodríguez Pérez JC. Herramientas

para la investigación biomédica: la perspectiva bayesiana (I). Med Clin(Barc) 2002;119:265-8.

15. Álamo Santana F, Vázquez Polo FJ, Rodríguez Pérez JC. Herramientaspara la investigación biomédica: la perspectiva bayesiana (II). Med Clin(Barc) 2002;119:269-72.

16. ICH Topic E9. Statistical principles for clinical trials (CPMP/ICH/363/96).

BAYARRI MJ, ET AL. UNA OPORTUNIDAD PARA BAYES

Med Clin (Barc) 2002;119(7):252-3 253