Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasp
image_pdf

La fragilidad de la emPeratriz

Una de las cosas que más me maravilla de la estadística es su aspecto de solidez, sobre todo si tenemos en cuenta que continuamente se mueve en el terreno del azar y la incertidumbre. Claro que el problema no es de la estadística como tal, sino nuestro por creer en la solidez de sus conclusiones.

El ejemplo más característico es el del contraste de hipótesis. Imaginemos que queremos estudiar el efecto de un fármaco sobre la prevención de la migraña, esa enfermedad tan frecuente después del matrimonio. Lo primero que hacemos es establecer nuestra hipótesis nula, que habitualmente dice lo contrario a lo que queremos demostrar.

En nuestro caso, la hipótesis nula dice que el fármaco es igual de eficaz que el placebo para prevenir la migraña. Hacemos nuestro ensayo aleatorizando a los sujetos a los grupos de control y de tratamiento y obtenemos nuestros resultados. Por último, hacemos el contraste de hipótesis con el estadístico adecuado y calculamos la probabilidad de que las diferencias en el número de jaquecas observadas en cada grupo se deben al azar. Este es el valor de la p, que nos indica única y exclusivamente la probabilidad de que un resultado como el observado, o aún más extremo, se deba al azar.

Si obtenemos un valor de p de 0,35 querrá decir que la probabilidad de que la diferencia no sea real (se deba al azar) es de un 35%, con lo que no podremos rechazar la hipótesis nula y concluiremos que la diferencia no es real por no ser estadísticamente significativa. Sin embargo, si el valor de p es muy bajo, sí que nos sentimos seguros para decir que existe esa diferencia. ¿Cómo de bajo?. Por convenio se suele escoger un valor de 0,05.

Así que si p < 0,05 rechazamos la hipótesis nula y decimos que la diferencia no se debe al azar y que es estadísticamente significativa. Y aquí es donde viene a cuento mi reflexión sobre el aspecto sólido de lo que no es más que incertidumbre: siempre hay una probabilidad de equivocarse, que es igual al valor de p. Y además, el umbral elegido es totalmente arbitrario, de forma que una p=0,049 es estadísticamente significativa mientras que una p = 0,051 no lo es, a pesar de que sus valores son prácticamente los mismos.

Pero es que la cosa va más allá, porque no todas la p son igual de fiables. Pensad que hacemos un ensayo A con nuestro fármaco en el que participan 100 personas en el grupo de tratamiento y 100 en el de control, y que obtenemos un 35% menos de cefaleas en el grupo de intervención, con un valor de p = 0,02.

Ahora suponed otro ensayo con el mismo fármaco pero en el que participan 2000 personas en cada brazo del ensayo, obteniendo una reducción del 20% y un valor de p = 0,02. ¿Os parecen igual de fiables los resultados y la conclusión de los dos estudios?.

A primera vista el valor de p = 0,02 es significativo y similar en los dos. Sin embargo, el nivel de confianza que deberíamos depositar en cada estudio no debería ser el mismo. Pensad que pasaría si en el grupo de tratamiento del ensayo A hubiese habido cinco personas más con dolor de cabeza. El resultado de p podría haberse ido hasta 0,08, dejando de ser significativo.

Sin embargo, el mismo cambio en el ensayo B es poco probable que hubiese alterado las cosas. El ensayo B es menos susceptible a los cambios en cuanto a la significación estadística de sus resultados.

Pues bien, basándose en este razonamiento se han descrito una serie de índices de fragilidad, que describen el número mínimo de participantes cuyo estado tiene que cambiar para que el valor de p pase de ser estadísticamente significativo a no serlo.

Lógicamente, además de tener en cuenta otras características del estudio, como el tamaño muestral o el número de eventos observados, este índice de fragilidad podría darnos una idea más aproximada de la solidez de nuestras conclusiones y, por lo tanto, de la confianza que podemos depositar en nuestros resultados.

Y hasta aquí hemos llegado por hoy. Una entrada más dando vueltas alrededor de la p y de la significación estadística, cuando lo que en realidad interesa más valorar es la importancia clínica de los resultados. Pero esa es otra historia…

Hasta las p no significativas pueden tener su corazoncito

Los resultados y la validez de cualquier trabajo epidemiológico están siempre sometidos a dos temibles peligros: el error aleatorio y los errores sistemáticos.

Los errores sistemáticos, sesgos para los amigos, están relacionados con defectos del diseño del estudio en cualquiera de sus fases, por lo que debemos ser cuidadosos a la hora de evitarlos para no comprometer la validez de los resultados.

El error aleatorio es harina de otro costal. Es inevitable y se debe a variaciones que no podemos controlar y que se producen durante los procesos de medición y recogida de datos, alterando la precisión de nuestros resultados. Pero que nadie desespere: no podremos evitar el azar, pero sí podemos controlarlo (dentro de unos límites) y medirlo.

Supongamos que medimos la diferencia de saturación de oxígeno en extremidad superior e inferior en veinte recién nacidos sanos y calculamos la media: 2,2%. Si repetimos el experimento, incluso con los mismos neonatos, ¿qué valor obtendremos?. Con toda probabilidad, cualquiera menos 2,2% (aunque se parecerá bastante si hemos hecho las dos tomas en las mismas condiciones). Ese es el efecto del azar: la repetición tiende a producir resultados diferentes, aunque cercanos al valor verdadero que queremos medir.

El error aleatorio puede reducirse aumentando el tamaño de la muestra (con cien niños en lugar de veinte las medias serán más parecidas si repetimos el experimento), pero nunca nos libraremos completamente de él. Para empeorar las cosas, ni siquiera queremos saber la media de la diferencia de saturación en estos veinte, sino en la población de la cual proceden. ¿Cómo salimos de este laberinto?. Lo habéis adivinado, utilizando intervalos de confianza.

Cuando establezcamos la hipótesis nula de que no hay diferencias entre tomar la saturación en la pierna o en el brazo y realicemos la comparación de las medias con el test estadístico apropiado, el valor de la p nos indicará la probabilidad de que la diferencia encontrada se deba al azar. Si p < 0,05, asumiremos que la probabilidad de que la diferencia se deba al azar es tan pequeña como para rechazar con tranquilidad la hipótesis nula y abrazar la hipótesis alternativa: no es lo mismo tomar la saturación en la pierna que en el brazo. Por otro lado, si la p no es significativa, no podremos rechazar la hipótesis nula, pero siempre nos quedará la duda de cuál habría sido el valor de p con 100 niños, o con 1000. Es posible que entonces la p sí hubiese alcanzado significación estadística y hubiésemos podido rechazar H0.

Si calculamos el intervalo de confianza de nuestra variable tendremos el rango en el cual se encuentra su valor real con una probabilidad determinada (habitualmente 95%). Esto nos informará de la precisión del estudio. No será lo mismo obtener como resultado que la diferencia de saturación es de 2 a 2,5% que de 2 a 25% (en este caso, el estudio habría que valorarlo con desconfianza aunque la p tuviese cinco ceros).

¿Y qué pasa si la p no es significativa?. ¿Podemos sacar conclusiones del estudio?. Pues eso dependerá en gran medida de la importancia de lo que estemos midiendo, de su impacto clínico. Si consideramos una diferencia de saturación significativa desde el punto de vista clínico del 10% y el intervalo está por debajo, aunque la p sea significativa el impacto clínico del hallazgo será mínimo. Pero lo bueno es que este razonamiento puede también hacerse al revés: intervalos no significativos pueden tener gran impacto si alguno de sus límites entra en la zona de importancia clínica.

Veámoslo con unos ejemplos en el gráfico siguiente, en el que se ha supuesto una diferencia importante desde el punto de vista clínico del 5% en la saturación de oxígeno (perdonadme los neonatólogos, pero de la saturación solo sé que la mide una máquina que muchas veces no capta bien y pita).

El estudio A no tiene significación estadística (el intervalo de confianza incluye el valor nulo, en este caso el cero) y, además, clínicamente no parece importante.

El estudio B tampoco es estadísticamente significativo, pero clínicamente podría ser importante, ya que el límite superior del intervalo cae en la zona de relevancia clínica. Si aumentásemos la precisión del estudio (aumentando la muestra), ¿quién nos asegura que el intervalo no se podría estrechar y quedar por encima del nivel nulo, alcanzando significación estadística? En este caso la duda no parece muy trascendente porque la variable que estamos midiendo como ejemplo es un poco chorra, pero pensad cómo cambiaría esto si estuviésemos considerando una variable más dura, como mortalidad.

Los estudios C y D alcanzan significación estadística, pero solo los resultados del D son clínicamente importantes. El estudio C mostraría una diferencia, pero su impacto clínico y, por tanto, su interés son mínimos.

Así que, como veis, hay ocasiones en las que un resultado con una p no significativa puede proporcionar información de interés desde el punto de vista clínico, y viceversa. Además, todo esto que hemos comentado es importante para entender el planteamiento de los ensayos de superioridad, equivalencia y no inferioridad, pero esa es otra historia…

p o no p… ¿esa es la cuestión?

La p es uno de los valores más apreciados en la lectura de documentos científicos. Con gran frecuencia la buscamos de forma desesperada, sobre todo si el artículo que estamos leyendo es largo y farragoso, y nos inundamos de gozo y felicidad al encontrarla cuando ya estábamos un poco perdidos y a punto de tirar el trabajo a la papelera: ¡¡albricias!!, la p es significativa. Parece que nuestro esfuerzo de lectura ha servido para algo… ¿o no?

            Pues a veces sí y a veces no. Para saberlo tenemos que entender qué es y qué significa el valor de p. De forma habitual, una prueba estadística analiza datos obtenidos de una muestra para calcular la probabilidad de que una determinada hipótesis se cumpla en la población. Normalmente existen dos hipótesis excluyentes entre si: la hipótesis nula (¿recordáis?, la de nombre engañoso), que suele enunciarse como que no hay asociación o diferencia entre las dos variables de estudio, y la hipótesis alternativa de que sí existe esa diferencia o asociación.

            Supongamos que medimos el efecto hipolipemiante de dos fármacos en una muestra de pacientes con hipertrigliceridemia. Lo habitual será que las medias de disminución de lípidos que obtengamos en los dos grupos de tratamiento sean diferentes, pero no sabremos a priori si esa diferencia es reflejo del valor real de la población (al cual no tenemos acceso) o se debe al azar (con otra muestra diferente los valores obtenidos seguramente habrían sido otros distintos). Los pasos a seguir serían los siguientes:

            1. Especificamos la hipótesis nula (H0): no existe diferencia en el efecto hipolipemiante de los dos fármacos. La hipótesis alternativa sería la contraria: el efecto sí es diferente.

            2. Decidimos cuál es la prueba estadística más adecuada para comparar los resultados y calculamos el valor de p.

            3. Partiendo del supuesto de que la hipótesis nula es cierta, el valor de p representa la probabilidad de obtener una diferencia como la encontrada entre las dos muestras. Dicho de otra forma, mide la probabilidad de obtener esa diferencia por puro azar. Si p < 0,05 (5%), consideramos que la probabilidad de que la diferencia observada se deba al azar es muy baja, por lo que admitimos que esa diferencia probablemente sea reflejo del valor real de la población y rechazamos la hipótesis nula. Pero no confundamos las cosas: el valor de p no es la probabilidad de que H0 sea cierta, sino una medida del grado de incertidumbre con el que podemos aceptarla o rechazarla.

            Si p > 0,05 la probabilidad de que la diferencia se deba al azar es muy alta para poder afirmarlo con la seguridad suficiente, por lo que no podemos rechazar H0. Esto no quiere decir que H0 sea cierta, sino simplemente que no tenemos un estudio con la potencia suficiente para rechazarla.

            En esta difícil y crucial decisión podemos columpiarnos de dos elegantes maneras:

            – Rechazando la hipótesis nula cuando en realidad es cierta (error de tipo 1).

            – No obtener un valor de p significativo y no poder rechazar H0, cuando en realidad es falsa en la población (error de tipo 2).

            Y eso de rechazar la hipótesis nula ¿es bueno o es malo?. Pues depende. Para saber que nos aporta la p en un caso concreto habrá que valorarlo conjuntamente con los intervalos de confianza y en el contexto clínico específico, porque, aunque parezca increíble, resultados no significativos desde el punto de vista estadístico pueden tener mucho mayor impacto clínico que otros que sí lo sean. Pero esa es otra historia…