Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasContraste de hipótesis
image_pdf

Sota, caballo y rey

A diario nos enfrentamos a multitud de situaciones en las que siempre actuamos de la misma manera. Decimos que vamos a sota, caballo y rey. Y esto es bueno, porque se supone que este tipo de actuaciones nos salen de forma rutinaria, sin tener que pensar en ellas.

El problema es que para hacer una cosa a sota, caballo y rey tenemos que comprender bien cómo hacerla. De lo contrario podemos hacer cualquier cosa menos lo que pretendemos.

Un ejemplo es el contraste de hipótesis. Siempre es lo mismo: sota, caballo y rey. Y, sin embargo, al principio nos parece algo más complicado de lo que realmente es. Porque, con independencia del contraste que estemos haciendo, los pasos a seguir son siempre los mismos: establecer nuestra hipótesis nula, seleccionar el estadístico adecuado para cada situación, utilizar las distribución de probabilidad correspondiente para calcular la probabilidad de ese valor del estadístico que hemos empleado y, según este valor de probabilidad, decidirnos en favor de la hipótesis nula o de la alternativa. Vamos a analizar estos pasos uno a uno y utilizando un ejemplo concreto para comprenderlos mejor.

talla_escolaresSupongamos que hemos medido la altura de 25 niños de una clase de un colegio y hemos obtenido las tallas que se muestran en la tabla. Si lo calculáis, la media de talla de nuestro grupo es de 135,4 cm, con una desviación estándar de 2,85 cm. Ahora resulta que hay un estudio previo a nivel de toda la provincia en la que se estima una talla de 138 para los niños de la edad de nuestra clase. La pregunta que nos planteamos es la siguiente: ¿son nuestros niños más bajos que la media o la diferencia se debe al azar de muestreo?. Ya tenemos nuestro contraste de hipótesis.

Lo primero, establezcamos la hipótesis nula y la alternativa. Como ya sabemos, cuando hacemos un contraste de hipótesis podemos rechazar la hipótesis nula si el estadístico del contraste tiene una determinada probabilidad. Lo que no podemos hacer nunca es aceptarla, solo rechazarla. Por eso se plantea habitualmente la hipótesis nula como lo contrario a lo que queremos demostrar, para poder rechazar lo que no queremos demostrar y aceptar lo que sí queremos demostrar.

En nuestro caso vamos a plantear la hipótesis nula de que la talla de nuestros alumnos es igual a la de la media de la provincia y que la diferencia encontrada es debida al error de muestreo, al puro azar. Por otra parte, la hipótesis alternativa plantea que sí existe una diferencia y que nuestros niños son más bajos.

Una vez planteadas la hipótesis nula y alternativa tenemos que elegir el estadístico adecuado para este contraste de hipótesis. Este caso es uno de los más sencillos, el de comparación de dos medias, la nuestra y la de la población. En este caso, nuestra media estandarizada respecto a la de la población sigue una distribución t de Student, según la siguiente fórmula que me vais a permitir:

t = (media del grupo – media de población) / error estándar de la media

Así que sustituimos la media por nuestro valor (135,4 cm), la media poblacional por 138 y el error estándar por su valor (la desviación estándar dividida por la raíz cuadrada del tamaño muestral) y obtenemos un valor de t de -4,55.

Ahora tenemos que calcular la probabilidad de que t sea igual a -4,55. Si pensamos un poco veremos que en el caso de que las dos medias fuesen iguales t tendría un valor de cero. Cuánto más distintas sean, más se alejará el valor de t del cero. Nosotros queremos saber si esta desviación, de cero a -4,55, se debe al azar. Para ello calculamos la probabilidad de que t valga -4,55 utilizando una tabla de la distribución de la t de Student o un programa informático, obteniendo un valor de p = 0,0001.

Ya tenemos el valor de p, así que solo nos queda el último paso, ver si podemos rechazar la hipótesis nula. El valor de p nos indica la probabilidad de que la diferencia observada entre las dos medias se deba al azar. Como es menor de 0,05 (menor del 5%), nos sentimos lo suficientemente seguros como para decir que no es debida al azar (o, al menos, es muy improbable), así que rechazamos la hipótesis nula de que la diferencia se debe al azar y abrazamos la hipótesis alternativa de que las dos medias son realmente diferentes. Conclusión: nos ha tocado la clase de los más canijos de la provincia.

Y esto es todo respecto al contraste de hipótesis de igualdad de dos medias. En este caso hemos hecho una prueba de la t de Student para una muestra, pero lo importante es que os fijéis en la dinámica del contraste de hipótesis. Siempre es la misma: sota, caballo y rey. Lo que cambia, lógicamente, es el estadístico y la distribución de probabilidad que usamos en cada ocasión.

Para terminar solo me queda llamar vuestra atención sobre otro método que podríamos haber utilizado para saber si las muestra son diferentes. Este no es más que recurrir a nuestros queridos intervalos de confianza. Podríamos haber calculado el intervalo de confianza de nuestra media y ver si incluía la media de la población, en cuyo caso habríamos concluido que eran similares. Si la media poblacional hubiese estado fuera del intervalo, habríamos rechazado la hipótesis nula, llegando lógicamente a la misma conclusión. Pero esa es otra historia…

La fragilidad de la emPeratriz

Una de las cosas que más me maravilla de la estadística es su aspecto de solidez, sobre todo si tenemos en cuenta que continuamente se mueve en el terreno del azar y la incertidumbre. Claro que el problema no es de la estadística como tal, sino nuestro por creer en la solidez de sus conclusiones.

El ejemplo más característico es el del contraste de hipótesis. Imaginemos que queremos estudiar el efecto de un fármaco sobre la prevención de la migraña, esa enfermedad tan frecuente después del matrimonio. Lo primero que hacemos es establecer nuestra hipótesis nula, que habitualmente dice lo contrario a lo que queremos demostrar.

En nuestro caso, la hipótesis nula dice que el fármaco es igual de eficaz que el placebo para prevenir la migraña. Hacemos nuestro ensayo aleatorizando a los sujetos a los grupos de control y de tratamiento y obtenemos nuestros resultados. Por último, hacemos el contraste de hipótesis con el estadístico adecuado y calculamos la probabilidad de que las diferencias en el número de jaquecas observadas en cada grupo se deben al azar. Este es el valor de la p, que nos indica única y exclusivamente la probabilidad de que un resultado como el observado, o aún más extremo, se deba al azar.

Si obtenemos un valor de p de 0,35 querrá decir que la probabilidad de que la diferencia no sea real (se deba al azar) es de un 35%, con lo que no podremos rechazar la hipótesis nula y concluiremos que la diferencia no es real por no ser estadísticamente significativa. Sin embargo, si el valor de p es muy bajo, sí que nos sentimos seguros para decir que existe esa diferencia. ¿Cómo de bajo?. Por convenio se suele escoger un valor de 0,05.

Así que si p < 0,05 rechazamos la hipótesis nula y decimos que la diferencia no se debe al azar y que es estadísticamente significativa. Y aquí es donde viene a cuento mi reflexión sobre el aspecto sólido de lo que no es más que incertidumbre: siempre hay una probabilidad de equivocarse, que es igual al valor de p. Y además, el umbral elegido es totalmente arbitrario, de forma que una p=0,049 es estadísticamente significativa mientras que una p = 0,051 no lo es, a pesar de que sus valores son prácticamente los mismos.

Pero es que la cosa va más allá, porque no todas la p son igual de fiables. Pensad que hacemos un ensayo A con nuestro fármaco en el que participan 100 personas en el grupo de tratamiento y 100 en el de control, y que obtenemos un 35% menos de cefaleas en el grupo de intervención, con un valor de p = 0,02.

Ahora suponed otro ensayo con el mismo fármaco pero en el que participan 2000 personas en cada brazo del ensayo, obteniendo una reducción del 20% y un valor de p = 0,02. ¿Os parecen igual de fiables los resultados y la conclusión de los dos estudios?.

A primera vista el valor de p = 0,02 es significativo y similar en los dos. Sin embargo, el nivel de confianza que deberíamos depositar en cada estudio no debería ser el mismo. Pensad que pasaría si en el grupo de tratamiento del ensayo A hubiese habido cinco personas más con dolor de cabeza. El resultado de p podría haberse ido hasta 0,08, dejando de ser significativo.

Sin embargo, el mismo cambio en el ensayo B es poco probable que hubiese alterado las cosas. El ensayo B es menos susceptible a los cambios en cuanto a la significación estadística de sus resultados.

Pues bien, basándose en este razonamiento se han descrito una serie de índices de fragilidad, que describen el número mínimo de participantes cuyo estado tiene que cambiar para que el valor de p pase de ser estadísticamente significativo a no serlo.

Lógicamente, además de tener en cuenta otras características del estudio, como el tamaño muestral o el número de eventos observados, este índice de fragilidad podría darnos una idea más aproximada de la solidez de nuestras conclusiones y, por lo tanto, de la confianza que podemos depositar en nuestros resultados.

Y hasta aquí hemos llegado por hoy. Una entrada más dando vueltas alrededor de la p y de la significación estadística, cuando lo que en realidad interesa más valorar es la importancia clínica de los resultados. Pero esa es otra historia…

Las colas de la p

Que me perdonen mis amigos que están al otro lado del Atlántico, pero no me refiero al tipo de colas que muchas mentes perversas están pensando. Lejos de eso, hoy vamos a hablar de unas colas mucho más aburridas pero que son muy importantes siempre que queramos realizar un contraste de hipótesis. Y, como suele ser habitual, lo vamos a ilustrar con un ejemplo para ver si lo entendemos mejor.

Supongamos que tomamos una moneda y, armados de una paciencia infinita, la tiramos al aire 1000 veces, obteniendo cara 560 veces. Todos sabemos que la probabilidad de sacar cara es de 0,5, así que si tiramos la moneda 1000 veces el número medio esperado de caras será de 500. Pero nosotros hemos sacado 560, así que podemos plantearnos dos posibilidades que se nos ocurren de forma inmediata.

Primera, la moneda es legal y hemos sacado 60 caras de más por puro azar. Esta será nuestra hipótesis nula, que dice que la probabilidad de sacar cara [P(cara)] es igual a 0,5. Segunda, nuestra moneda no es legal y está cargada para sacar más caras. Será nuestra hipótesis alternativa (Ha), que dice que P(cara) > 0,5.

Pues bien, vamos a hacer el contraste de hipótesis sirviéndonos de una calculadora de probabilidad binomial de las que hay disponibles en Internet. Si asumimos la hipótesis nula de que la moneda es legal, la probabilidad de que obtengamos 560 caras o más es de 0,008%. Dado que es menor de 5%, rechazamos nuestra hipótesis nula: la moneda está trucada.

Ahora, si os fijáis, la Ha tiene una direccionalidad hacia P(cara) > 0,5, pero podríamos haber planteado la hipótesis como que la moneda no fuese legal, sin presuponer ni que está cargada a favor de las caras ni de las cruces: P(cara) distinto de 0,5. En este caso calcularíamos la probabilidad de que el número de caras estuviese 60 por encima o por debajo de los 500, en las dos direcciones. La probabilidad que obtendríamos es de 0,016, rechazando nuestra hipótesis nula y concluyendo que la moneda no es legal. El problema es que la prueba no nos dice si está cargada en uno u otro sentido, pero por los resultados suponemos que es en sentido hacia las caras. En el primer caso hemos hecho una prueba con una cola, mientras que en el segundo lo hemos hecho con dos colas.

WebEn el gráfico podéis ver el área de probabilidades de cada una de las dos pruebas. En una cola el área pequeña de la derecha es la probabilidad de que la diferencia respecto al valor esperado se deba al azar. Con dos colas, esta área es doble y situada a ambos lados de la distribución. Veis que la p con dos colas vale el doble que con una cola. En nuestro ejemplo el valor de p es tan bajo que en cualquier caso nos permite rechazar la hipótesis nula. Pero esto no siempre es así, y puede haber ocasiones en que el investigador elija hacer la prueba con una cola porque con dos no consiga la significación estadística que le da la prueba con una de las colas.

Y digo una de las colas porque en el ejemplo de una cola hemos calculado la de la derecha, pero también podemos calcular el valor de la probabilidad de la cola de la izquierda. Pensemos en el improbable caso de que la moneda esté cargada en el sentido de sacar más cruces pero que, por azar, nosotros hemos sacado más caras. Nuestra Ha diría que P(cara) < 0,5. En este caso calcularíamos la probabilidad de que, asumiendo que es legal, la moneda nos de 560 caras o menos. El valor de p es de 99,9%, luego no podemos rechazar nuestra hipótesis nula de que la moneda es legal.

¿Pero qué pasa aquí?, preguntaréis. El primer contraste de hipótesis que planteamos decía que podíamos rechazar la hipótesis nula y este dice lo contrario. Si es la misma moneda y los mismos datos, ¿no deberíamos llegar a la misma conclusión?. Pues resulta que no. Recordad que no poder rechazar la hipótesis nula no es lo mismo que concluir que es cierta, cosa que nunca podremos asegurar. En este último ejemplo, la hipótesis nula de legalidad de la moneda es mejor opción que la alternativa de que está cargada para dar más cruces. Sin embargo, eso no quiere decir que podamos concluir que la moneda es legal.

Veis pues, cómo hay que tener muy claro el significado de las hipótesis nula y alternativa cuando plateemos un contraste de hipótesis. Y recordad siempre que aunque no podamos rechazar la hipótesis nula eso no quiere obligadamente decir que sea cierta. Simplemente no tenemos potencia suficiente para rechazarla. Lo cual me lleva a pensar en los errores de tipo I y tipo II y su relación con la potencia del estudio y el tamaño de la muestra. Pero esa es otra historia…

Todo gira alrededor de la hipótesis nula

La hipótesis nula, familiarmente conocida como H0, tiene un nombre engañoso. A pesar de lo que uno pudiera pensar, ese nombre no le impide ser el centro de todo contraste de hipótesis.

¿Y qué es un contraste de hipótesis? Veámoslo con un ejemplo.

Supongamos que queremos saber si los residentes (como ellos creen) son más listos que sus adjuntos. Tomamos una muestra al azar de 30 adjuntos y 30 residentes del hospital y les medimos el CI, obteniendo los adjuntos una media de 110 y los residentes de 98 (lo siento, pero yo soy adjunto y para eso pongo el ejemplo). Ante este resultado nos preguntamos: ¿cuál es la probabilidad de que los adjuntos seleccionados sean más listos que los residentes del estudio?. La respuesta es simple: el 100% (si les hemos pasado a todos el test correcto y no una encuesta de satisfacción laboral, claro). El problema es que lo que a nosotros nos interesa saber es si los adjuntos (en general) son más listos que los resis (en general). Solo hemos medido el CI de 60 personas y, claro, queremos saber qué pasa en la población general.

Llegados a este punto nos planteamos dos hipótesis:
1. Que los dos colectivos son igual de inteligentes (este ejemplo es pura ficción) y que las diferencias que hemos encontrado se deben a la casualidad (al azar). Esta, señores y señoras, es la hipótesis nula o H0. La enunciaríamos así

H0: CIA = CIR

2. Que en realidad los dos colectivos no son igual de listos. Esta sería la hipótesis alternativa

H1: CIA  ≠  CIR

Esta hipótesis la podríamos plantear como que un CI es mayor o menor que el otro, pero de momento vamos a dejarlo así.

En principio, siempre asumimos que la H0 es la verdadera (para que luego la llamen nula), así que cuando cojamos nuestro programa de estadística y comparemos las dos medias (ya veremos cómo algún día), el test que utilicemos nos dará un estadístico (un numerito que dependerá del test) con la probabilidad de que la diferencia que observamos se deba a la casualidad (la famosa p). Si la p que obtenemos en menor de 0,05 (este es el valor que se suele elegir por convenio) podremos decir que la probabilidad de que H0 sea cierta es menor del 5%, por lo que podremos rechazar la hipótesis nula. Supongamos que hacemos la prueba y obtenemos una p = 0,02. La conclusión que sacamos es que es mentira que seamos igual de listos y que la diferencia observada en el estudio se deba al azar (cosa que en este caso resultaba evidente desde el comienzo, pero que en otros puede no estar tan claro).

Y si la p es mayor de 0,05 ¿quiere decir que la hipótesis nula es cierta? Pues a lo mejor sí, a lo mejor no. Lo único que podremos decir es que el estudio no tiene la potencia necesaria para rechazar la hipótesis nula, pero si la aceptamos sin más nos podríamos columpiar (en realidad podríamos cometer un error de tipo II, pero esa es otra historia…).