Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado pornoviembre 2014
image_pdf

Teniendo la n grande, ¿quién necesita una p pequeña?

El culto a la p es una de las religiones más extendidas en Medicina. Sus creyentes buscan siempre los valores de p cuando leen un trabajo científico y sienten una devoción enorme cuando ven que la p es muy pequeña, cargada de ceros.

Pero a este culto le ha surgido en los últimos tiempos un serio competidor: los adoradores de la n que, como todos sabemos, representa el tamaño de la muestra. Y es que con las herramientas de manejo de información de que se dispone en la actualidad es relativamente fácil hacer estudios con tamaños muestrales enormes. Muy bien, pensaréis, podemos combinar las dos creencias en una y venerar aquellos trabajos que, con tamaños de muestra enormes, consiguen valores de p minúsculos. El problema es que esto nos desvía de la que debería ser nuestra verdadera religión, que no debe ser otra que la valoración del tamaño del efecto observado y de su importancia clínica.

Cuando observamos una diferencia de efecto entre las dos ramas de un ensayo debemos preguntarnos si esa diferencia es real o es simplemente debida al azar. Lo que hacemos es establecer una hipótesis nula que dice que la diferencia se debe al azar y calculamos un estadístico que nos da el valor de probabilidad de que la diferencia sea debida, en efecto, al azar. Este es el valor de significación estadística, nuestra p. El valor de p solo indica eso: la probabilidad de que la diferencia se deba al azar. Habitualmente se toma por convenio el límite de 0,05, de forma que si p vale menos de ese valor se considera razonablemente improbable que la diferencia se deba al azar y consideramos que el efecto realmente existe.

El valor de p que podemos obtener depende de varios factores, como la dispersión de la variable que estemos midiendo, el tamaño del efecto y el tamaño muestral. Las muestras pequeñas son más imprecisas, por lo que los valores de p, manteniendo el resto de factores sin modificar, son más pequeños cuanto mayor sea el tamaño muestral.

Imaginemos que comparamos presión arterial media con dos fármacos en un ensayo clínico y tenemos una diferencia de medias entre los dos grupos de 5mmHg. Si el ensayo incluye 20 pacientes el valor de p puede no ser significativo (ser mayor de 0,05), pero es muy probable que esta misma diferencia sea significativa si en el ensayo participan 10000 pacientes. En efecto, en muchas ocasiones el alcanzar significación estadística puede ser solo cuestión de aumentar el tamaño de la muestra. Esto hace que con muestras muy grandes tengamos significación para tamaños de efecto muy pequeños. En nuestro ejemplo, un intervalo de confianza de diferencias de medias de 1 a 6 mmHg es estadísticamente significativo (no incluye el cero, valor nulo para las diferencias de medias), aunque probablemente el efecto es insignificante desde el punto de vista clínico. La diferencia es real, aunque su importancia clínica puede ser inexistente.

En resumen, cualquier efecto, por insignificante que sea, puede llegar a ser estadísticamente significativo si la muestra es lo suficientemente grande. Veamos un ejemplo con el coeficiente de correlación de Pearson, R.

El mínimo coeficiente de correlación que alcanzará una significación estadística (p<0,05) para un tamaño de muestra determinado valdrá, aproximadamente, dos dividido por la raíz cuadrada del tamaño muestral (no voy a demostrarlo matemáticamente, pero podéis calcularlo a partir de las fórmulas de cálculo del intervalo de confianza del 95% de R).

Esto quiere decir que si n=10, cualquier valor de R > 0,63 será estadísticamente significativo. Bien, diréis, 0,63 es un valor aceptable para establecer la correlación entre las dos variables, es posible que tenga alguna traducción clínica interesante. Si calculamos R2 tiene un valor de 0,4, lo que quiere decir que el 40% de la variabilidad de la variable dependiente se explica por los cambios en la independiente. Pero pensad un momento que pasaría si n=100000. Cualquier valor de R>0,006 será significativo, incluso con una p con muchos ceros. ¿Y qué me decís de una R de 0,006?. Pues eso, que probablemente no tenga ninguna transcendencia por muy significativa que sea, ya que será despreciable la cantidad de variabilidad de una de las variables que se pueda explicar por los cambios en la otra.

El problema que se plantea en la práctica es que es mucho más difícil definir los límites de la significación clínica que los de la estadística. Como regla general, un efecto es estadísticamente significativo cuando su intervalo de confianza no cruza el valor nulo. Por otra parte, será clínicamente relevante cuando algunos de los valores de dentro del intervalo sean considerados importantes por el investigador.

Y hasta aquí hemos llegado por hoy. Una pequeña aclaración antes de terminar. He simplificado un poco el razonamiento de la relación entre la n y la p, exagerando un poco para demostrar que las muestras grandes pueden ser tan discriminativas que el valor de p pierde un poco su razón de ser. Sin embargo, hay ocasiones en que esto no es así. La p depende mucho del tamaño del menor grupo analizado, así que cuando el efecto estudiado sea muy raro o alguno de los grupos sea muy pequeño, nuestra p toma de nuevo protagonismo y sus ceros vuelven a ser de utilidad. Pero esa es otra historia…

Como un huevo a una castaña

¿En qué se parecen un huevo y una castaña?. Si disparamos nuestra imaginación podemos dar algunas respuestas tan absurdas como rebuscadas. Los dos son de forma más o menos redondeada, los dos pueden servir de alimento y los dos tienen una cubierta dura que encierra la parte que se come. Pero, en realidad, un huevo y una castaña no se parecen en nada aunque queramos buscar similitudes.

Lo mismo les pasa a dos herramientas gráficas muy utilizadas en estadística descriptiva: el diagrama de barras y el histograma. A primera vista pueden parecer muy similares pero, si nos fijamos bien, existen claras diferencias entre ambos tipos de gráficos, que encierran conceptos totalmente diferentes.

Ya sabemos que hay distintos tipos de variables. Por un lado están las cuantitativas, que pueden ser continuas o discretas. Las continuas son aquellas que pueden tomar un valor cualquiera dentro de un intervalo, como ocurre con el peso o la presión arterial (en la práctica pueden limitarse los valores posibles debido a la precisión de los aparatos de medida, pero en la teoría podemos encontrar cualquier valor de peso entre el mínimo y máximo de una distribución). Las discretas son las que solo pueden adoptar ciertos valores dentro de un conjunto como, por ejemplo, el número de hijos o el número de episodios de isquemia coronaria.

Por otra parte están las variables cualitativas, que representan atributos o categorías de la variable. Cuando las variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable fumador sería cualitativa nominal si tiene dos posibilidades: sí o no. Sin embargo, si la definimos como ocasional, poco fumador, moderado o muy fumador, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

Pues bien, el diagrama de barras sirve para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es correcto hacer es usarlo para las variables cualitativas nominales.diagrama barras

El gran mérito de los diagramas de barras es expresar la magnitud de las diferencias entre las categorías de la variable. Pero ahí está precisamente, su punto débil, ya que son fácilmente manipulables si modificamos los ejes. Como podéis ver en la primera figura, la diferencia entre poco y fumadores ocasionales parece mucho mayor en el segundo gráfico, en el que nos hemos comido parte del eje vertical. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

histogramaCambiando de tema, el histograma es un gráfico con un significado mucho más profundo. Un histograma representa una distribución de frecuencias que se utiliza (o debe) para representar la frecuencia de las variables cuantitativas continuas. Aquí no es la altura, sino el área de la barra lo que es proporcional a la frecuencia de ese intervalo, y está en relación con la probabilidad con la que cada intervalo puede presentarse. Como veis en la segunda figura, las columnas, a diferencia del diagrama de barras, están todas juntas y el punto medio es el que da el nombre al intervalo. Los intervalos no tienen por qué ser todos iguales (aunque es lo más habitual), pero siempre tendrán un área mayor aquellos intervalos con mayor frecuencia.

Existe, además, otra diferencia muy importante entre el diagrama de barras y el histograma. En el primero solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá, ya que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra.

Y aquí dejamos estos gráficos que pueden parecer lo mismo pero que, como queda demostrado, se parecen como un huevo a una castaña.

Solo un último comentario. Dijimos al principio que era un error utilizar diagramas de barras (y no digamos ya histogramas) para representar variables cualitativas nominales. ¿Y cuál utilizamos?. Pues un diagrama de sectores, la famosa y ubicua tarta que se utiliza en más ocasiones de las debidas y que tiene su propia idiosincrasia. Pero esa es otra historia…