Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasSignificación estadística

Hasta las p no significativas pueden tener su corazoncito

Los resultados y la validez de cualquier trabajo epidemiológico están siempre sometidos a dos temibles peligros: el error aleatorio y los errores sistemáticos.

Los errores sistemáticos, sesgos para los amigos, están relacionados con defectos del diseño del estudio en cualquiera de sus fases, por lo que debemos ser cuidadosos a la hora de evitarlos para no comprometer la validez de los resultados.

El error aleatorio es harina de otro costal. Es inevitable y se debe a variaciones que no podemos controlar y que se producen durante los procesos de medición y recogida de datos, alterando la precisión de nuestros resultados. Pero que nadie desespere: no podremos evitar el azar, pero sí podemos controlarlo (dentro de unos límites) y medirlo.

Supongamos que medimos la diferencia de saturación de oxígeno en extremidad superior e inferior en veinte recién nacidos sanos y calculamos la media: 2,2%. Si repetimos el experimento, incluso con los mismos neonatos, ¿qué valor obtendremos?. Con toda probabilidad, cualquiera menos 2,2% (aunque se parecerá bastante si hemos hecho las dos tomas en las mismas condiciones). Ese es el efecto del azar: la repetición tiende a producir resultados diferentes, aunque cercanos al valor verdadero que queremos medir.

El error aleatorio puede reducirse aumentando el tamaño de la muestra (con cien niños en lugar de veinte las medias serán más parecidas si repetimos el experimento), pero nunca nos libraremos completamente de él. Para empeorar las cosas, ni siquiera queremos saber la media de la diferencia de saturación en estos veinte, sino en la población de la cual proceden. ¿Cómo salimos de este laberinto?. Lo habéis adivinado, utilizando intervalos de confianza.

Cuando establezcamos la hipótesis nula de que no hay diferencias entre tomar la saturación en la pierna o en el brazo y realicemos la comparación de las medias con el test estadístico apropiado, el valor de la p nos indicará la probabilidad de que la diferencia encontrada se deba al azar. Si p < 0,05, asumiremos que la probabilidad de que la diferencia se deba al azar es tan pequeña como para rechazar con tranquilidad la hipótesis nula y abrazar la hipótesis alternativa: no es lo mismo tomar la saturación en la pierna que en el brazo. Por otro lado, si la p no es significativa, no podremos rechazar la hipótesis nula, pero siempre nos quedará la duda de cuál habría sido el valor de p con 100 niños, o con 1000. Es posible que entonces la p sí hubiese alcanzado significación estadística y hubiésemos podido rechazar H0.

Si calculamos el intervalo de confianza de nuestra variable tendremos el rango en el cual se encuentra su valor real con una probabilidad determinada (habitualmente 95%). Esto nos informará de la precisión del estudio. No será lo mismo obtener como resultado que la diferencia de saturación es de 2 a 2,5% que de 2 a 25% (en este caso, el estudio habría que valorarlo con desconfianza aunque la p tuviese cinco ceros).

¿Y qué pasa si la p no es significativa?. ¿Podemos sacar conclusiones del estudio?. Pues eso dependerá en gran medida de la importancia de lo que estemos midiendo, de su impacto clínico. Si consideramos una diferencia de saturación significativa desde el punto de vista clínico del 10% y el intervalo está por debajo, aunque la p sea significativa el impacto clínico del hallazgo será mínimo. Pero lo bueno es que este razonamiento puede también hacerse al revés: intervalos no significativos pueden tener gran impacto si alguno de sus límites entra en la zona de importancia clínica.

Veámoslo con unos ejemplos en el gráfico siguiente, en el que se ha supuesto una diferencia importante desde el punto de vista clínico del 5% en la saturación de oxígeno (perdonadme los neonatólogos, pero de la saturación solo sé que la mide una máquina que muchas veces no capta bien y pita).

El estudio A no tiene significación estadística (el intervalo de confianza incluye el valor nulo, en este caso el cero) y, además, clínicamente no parece importante.

El estudio B tampoco es estadísticamente significativo, pero clínicamente podría ser importante, ya que el límite superior del intervalo cae en la zona de relevancia clínica. Si aumentásemos la precisión del estudio (aumentando la muestra), ¿quién nos asegura que el intervalo no se podría estrechar y quedar por encima del nivel nulo, alcanzando significación estadística? En este caso la duda no parece muy trascendente porque la variable que estamos midiendo como ejemplo es un poco chorra, pero pensad cómo cambiaría esto si estuviésemos considerando una variable más dura, como mortalidad.

Los estudios C y D alcanzan significación estadística, pero solo los resultados del D son clínicamente importantes. El estudio C mostraría una diferencia, pero su impacto clínico y, por tanto, su interés son mínimos.

Así que, como veis, hay ocasiones en las que un resultado con una p no significativa puede proporcionar información de interés desde el punto de vista clínico, y viceversa. Además, todo esto que hemos comentado es importante para entender el planteamiento de los ensayos de superioridad, equivalencia y no inferioridad, pero esa es otra historia…

p o no p… ¿esa es la cuestión?

La p es uno de los valores más apreciados en la lectura de documentos científicos. Con gran frecuencia la buscamos de forma desesperada, sobre todo si el artículo que estamos leyendo es largo y farragoso, y nos inundamos de gozo y felicidad al encontrarla cuando ya estábamos un poco perdidos y a punto de tirar el trabajo a la papelera: ¡¡albricias!!, la p es significativa. Parece que nuestro esfuerzo de lectura ha servido para algo… ¿o no?

            Pues a veces sí y a veces no. Para saberlo tenemos que entender qué es y qué significa el valor de p. De forma habitual, una prueba estadística analiza datos obtenidos de una muestra para calcular la probabilidad de que una determinada hipótesis se cumpla en la población. Normalmente existen dos hipótesis excluyentes entre si: la hipótesis nula (¿recordáis?, la de nombre engañoso), que suele enunciarse como que no hay asociación o diferencia entre las dos variables de estudio, y la hipótesis alternativa de que sí existe esa diferencia o asociación.

            Supongamos que medimos el efecto hipolipemiante de dos fármacos en una muestra de pacientes con hipertrigliceridemia. Lo habitual será que las medias de disminución de lípidos que obtengamos en los dos grupos de tratamiento sean diferentes, pero no sabremos a priori si esa diferencia es reflejo del valor real de la población (al cual no tenemos acceso) o se debe al azar (con otra muestra diferente los valores obtenidos seguramente habrían sido otros distintos). Los pasos a seguir serían los siguientes:

            1. Especificamos la hipótesis nula (H0): no existe diferencia en el efecto hipolipemiante de los dos fármacos. La hipótesis alternativa sería la contraria: el efecto sí es diferente.

            2. Decidimos cuál es la prueba estadística más adecuada para comparar los resultados y calculamos el valor de p.

            3. Partiendo del supuesto de que la hipótesis nula es cierta, el valor de p representa la probabilidad de obtener una diferencia como la encontrada entre las dos muestras. Dicho de otra forma, mide la probabilidad de obtener esa diferencia por puro azar. Si p < 0,05 (5%), consideramos que la probabilidad de que la diferencia observada se deba al azar es muy baja, por lo que admitimos que esa diferencia probablemente sea reflejo del valor real de la población y rechazamos la hipótesis nula. Pero no confundamos las cosas: el valor de p no es la probabilidad de que H0 sea cierta, sino una medida del grado de incertidumbre con el que podemos aceptarla o rechazarla.

            Si p > 0,05 la probabilidad de que la diferencia se deba al azar es muy alta para poder afirmarlo con la seguridad suficiente, por lo que no podemos rechazar H0. Esto no quiere decir que H0 sea cierta, sino simplemente que no tenemos un estudio con la potencia suficiente para rechazarla.

            En esta difícil y crucial decisión podemos columpiarnos de dos elegantes maneras:

            – Rechazando la hipótesis nula cuando en realidad es cierta (error de tipo 1).

            – No obtener un valor de p significativo y no poder rechazar H0, cuando en realidad es falsa en la población (error de tipo 2).

            Y eso de rechazar la hipótesis nula ¿es bueno o es malo?. Pues depende. Para saber que nos aporta la p en un caso concreto habrá que valorarlo conjuntamente con los intervalos de confianza y en el contexto clínico específico, porque, aunque parezca increíble, resultados no significativos desde el punto de vista estadístico pueden tener mucho mayor impacto clínico que otros que sí lo sean. Pero esa es otra historia…