Teniendo la n grande, ¿quién necesita una p pequeña?

Significación estadística vs importancia clínica.

Significación vs importancia clínica

Siempre debemos dar prioridad al tamaño del efecto y su importancia clínica frente a su significación estadística, dependiente del tamaño muestral.

El culto a la p es una de las religiones más extendidas en Medicina. Sus creyentes buscan siempre los valores de p cuando leen un trabajo científico y sienten una devoción enorme cuando ven que la p es muy pequeña, cargada de ceros.

Pero a este culto le ha surgido en los últimos tiempos un serio competidor: los adoradores de la n que, como todos sabemos, representa el tamaño de la muestra. Y es que con las herramientas de manejo de información de que se dispone en la actualidad es relativamente fácil hacer estudios con tamaños muestrales enormes.

Muy bien, pensaréis, podemos combinar las dos creencias en una y venerar aquellos trabajos que, con tamaños de muestra enormes, consiguen valores de p minúsculos. El problema es que esto nos desvía de la que debería ser nuestra verdadera religión, que no debe ser otra que la valoración del tamaño del efecto observado y de su importancia clínica.

Tamaño de efecto e importancia clínica

Cuando observamos una diferencia de efecto entre las dos ramas de un ensayo debemos preguntarnos si esa diferencia es real o es simplemente debida al azar. Lo que hacemos es establecer una hipótesis nula que dice que la diferencia se debe al azar y calculamos un estadístico que nos da el valor de probabilidad de que la diferencia sea debida, en efecto, al azar. Este es el valor de significación estadística, nuestra p.

El valor de p solo indica eso: la probabilidad de que la diferencia se deba al azar. Habitualmente se toma por convenio el límite de 0,05, de forma que si p vale menos de ese valor se considera razonablemente improbable que la diferencia se deba al azar y consideramos que el efecto realmente existe.

El valor de p que podemos obtener depende de varios factores, como la dispersión de la variable que estemos midiendo, el tamaño del efecto y el tamaño muestral. Las muestras pequeñas son más imprecisas, por lo que los valores de p, manteniendo el resto de factores sin modificar, son más pequeños cuanto mayor sea el tamaño muestral.

Imaginemos que comparamos presión arterial media con dos fármacos en un ensayo clínico y tenemos una diferencia de medias entre los dos grupos de 5mmHg. Si el ensayo incluye 20 pacientes el valor de p puede no ser significativo (ser mayor de 0,05), pero es muy probable que esta misma diferencia sea significativa si en el ensayo participan 10000 pacientes. En efecto, en muchas ocasiones el alcanzar significación estadística puede ser solo cuestión de aumentar el tamaño de la muestra. Esto hace que con muestras muy grandes tengamos significación para tamaños de efecto muy pequeños.

En nuestro ejemplo, un intervalo de confianza de diferencias de medias de 1 a 6 mmHg es estadísticamente significativo (no incluye el cero, valor nulo para las diferencias de medias), aunque probablemente el efecto es insignificante desde el punto de vista clínico. La diferencia es real, aunque su importancia clínica puede ser inexistente.

El tamaño muestral condiciona la significación estadística

En resumen, cualquier efecto, por insignificante que sea, puede llegar a ser estadísticamente significativo si la muestra es lo suficientemente grande. Veamos un ejemplo con el coeficiente de correlación de Pearson, R.

El mínimo coeficiente de correlación que alcanzará una significación estadística (p<0,05) para un tamaño de muestra determinado valdrá, aproximadamente, dos dividido por la raíz cuadrada del tamaño muestral (no voy a demostrarlo matemáticamente, pero podéis calcularlo a partir de las fórmulas de cálculo del intervalo de confianza del 95% de R).

Esto quiere decir que si n=10, cualquier valor de R > 0,63 será estadísticamente significativo. Bien, diréis, 0,63 es un valor aceptable para establecer la correlación entre las dos variables, es posible que tenga alguna traducción clínica interesante. Si calculamos R2 tiene un valor de 0,4, lo que quiere decir que el 40% de la variabilidad de la variable dependiente se explica por los cambios en la independiente.

Pero pensad un momento que pasaría si n=100000. Cualquier valor de R>0,006 será significativo, incluso con una p con muchos ceros. ¿Y qué me decís de una R de 0,006?. Pues eso, que probablemente no tenga ninguna transcendencia por muy significativa que sea, ya que será despreciable la cantidad de variabilidad de una de las variables que se pueda explicar por los cambios en la otra.

El problema que se plantea en la práctica es que es mucho más difícil definir los límites de la significación clínica que los de la estadística. Como regla general, un efecto es estadísticamente significativo cuando su intervalo de confianza no cruza el valor nulo. Por otra parte, será clínicamente relevante cuando algunos de los valores de dentro del intervalo sean considerados importantes por el investigador.

Nos vamos…

Y hasta aquí hemos llegado por hoy. Una pequeña aclaración antes de terminar. He simplificado un poco el razonamiento de la relación entre la n y la p, exagerando un poco para demostrar que las muestras grandes pueden ser tan discriminativas que el valor de p pierde un poco su razón de ser. Sin embargo, hay ocasiones en que esto no es así. La p depende mucho del tamaño del menor grupo analizado, así que cuando el efecto estudiado sea muy raro o alguno de los grupos sea muy pequeño, nuestra p toma de nuevo protagonismo y sus ceros vuelven a ser de utilidad. Pero esa es otra historia…

3 comentarios

  1. Magnífico el comentario, sobre el tamaño muestral yo lo suelo explicar con el ejemplo de la mosca, alguien está interesado en saber si existe una diferencia importante entre las dos alas de la mosca, las mira a simple vista y las ve iguales, los mira con lupa y las ve iguales, las pone a un microspcopia y no ve diferencias, aumenta el objetivo y los oculares y sigue sin haberlas, decide ponerlas en el microspcoio electrónico y encuentra una diferencia clara el hombre satisfecho exclama ¡por fin lo encontré, ¡las alas de las moscas no son iguales ! derecha!

  2. Muy interesante comentario.
    Adjunto dos enlaces de divulgación al respecto que han salido este año en PNAS y Nature.

    https://www.pnas.org/site/misc/veronicaVielandPodcastTranscript.pdf

    https://www.nature.com/news/scientific-method-statistical-errors-1.14700
    Este artículo recibió a su vez el premio a la excelencia en la divulgación de la estadística de la American Statistical Association(https://www.amstat.org/newsroom/pressreleases/2014_ASAESRA.pdf)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Manuel Molina Arias.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Aleph que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Al hacer clic en el botón Aceptar, aceptas el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Antes de aceptar puedes ver Configurar cookies para realizar un consentimiento selectivo.    Más información
Privacidad