Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasIntervalo de confianza
image_pdf

Las tribulaciones de un intervalo

El número necesario a tratar (NNT) es una medida de impacto que nos informa de forma sencilla sobre la eficacia de una intervención o sobre sus efectos secundarios. Si el tratamiento intenta evitar eventos desagradables, el NNT nos mostrará una apreciación de los pacientes que tenemos que someter al tratamiento para evitar uno de esos eventos. En este caso hablamos de NNTB, o número a tratar para beneficiar.

En otros casos, la intervención puede producir efectos adversos. Entonces hablaremos del NNTD o número a tratar para dañar a uno (producir un evento desagradable).

nntEl cálculo del NNT es sencillo cuando disponemos de una tabla de contingencia como la que vemos en la primera tabla. Habitualmente se calcula como el inverso de la reducción absoluta del riesgo (1/RAR) y se proporciona como un valor fijo. El problema es que esto ignora el carácter probabilístico del NNT, por lo que los más correcto sería especificar su intervalo de confianza al 95% (IC95), como hacemos con el resto de las medidas.

Ya sabemos que el IC95 de cualquier medida responde a la fórmula siguiente:

IC95(X) = X ± (1,96 x EE(X)), donde EE es el error estándar.

Con lo que los límites inferior y superior del intervalo serían los siguientes:

X – 1,96 EE(X) , X + 1,96 EE(X)

Y aquí nos surge un problema con el IC95 del NNT. Este intervalo no puede calcularse directamente porque el NNT no tiene una distribución normal. Por ello, se han inventado algunas argucias para calcularlo, como calcular el IC95 de la RAR y utilizar sus límites para calcular los del NNT, según vemos a continuación:

IC95(RAR) = RAR – 1,96(EE(RAR)) , RAR + 1,96(EE(RAR))

IC(NNT) = 1 / límite superior del IC95(RAR) , 1 / límite inferior del IC95(RAR) (ponemos el límite superior del RAR para calcular el inferior del NNT, y viceversa, porque al ser el tratamiento beneficioso la reducción del riesgo sería en rigor un valor negativo [RT – RNT], aunque habitualmente hablamos de él en valor absoluto).

Ya solo necesitamos saber cómo calcular el EE de la RAR, que resulta que se hace con una fórmula un poco antipática que os pongo solo por si alguno tiene curiosidad de verla:

EE(RAR) = \sqrt{\frac{R_{T}\times(1-R_{T})}{Tratados}+\frac{R_{NT}\times(1-R_{NT})}{No\ tratados}}

nnt2En la segunda tabla podéis ver un ejemplo numérico para calcular el NNT y su intervalo. Veis que el NNT = 25, con un IC95 de 15 a 71. Fijaos en la asimetría del intervalo ya que, como ya hemos dicho, no sigue una distribución normal. Además, lejos del valor fijo de 25, los valores del intervalo dicen que en el mejor de los casos tendremos que tratar a 15 pacientes para evitar un efecto adverso, pero en el peor de los casos este valor puede ascender hasta 71.

A toda la dificultad anterior para su cálculo, surge otra dificultad añadida cuando el IC95 de la RAR incluye el cero. En general, cuanto menor sea el efecto del tratamiento (menor RAR) mayor será el NNT (habrá que tratar a más para conseguir evitar un evento desagradable), por lo que en el valor extremo de que el efecto sea cero, el NNT valdrá infinito (habría que tratar infinitos pacientes para evitar un evento desagradable).

Así que es fácil imaginar que si el IC95 de la RAR incluye el cero, el IC95 del NNT incluirá el infinito. Será un intervalo discontinuo con un límite de valor negativo y otro positivo, lo que puede plantear problemas para su interpretación.

Por ejemplo, supongamos que tenemos un ensayo en el que calculamos una RAR de 0,01 con un IC95 de -0,01 a 0,03. Con el valor fijo no tenemos problemas, el NNT es de 100 pero, ¿qué pasa con el intervalo? Pues que iría de -100 a 33, pasando por el infinito (en realidad, de menos infinito a -100 y de 33 a infinito).

¿Cómo interpretamos un NNT negativo? En este caso, como ya dijimos, estamos tratando con un NNTB, por lo que su valor negativo lo podemos interpretar como un valor positivo de su alter ego, el NNTD. En nuestro ejemplo, -100 querría decir que provocaremos un efecto adverso por cada 100 tratados. En resumen, que nuestro intervalo nos diría que podríamos producir un evento por cada 100 tratados, en el peor de los casos, o evitar uno por cada 33 tratados, en el mejor de los casos. Esto consigue que el intervalo sea continuo y que incluya la estimación puntual, pero tendrá poca aplicación como medida práctica. En el fondo, quizás tenga poco sentido calcular el NNT cuando la RAR no sea significativa (su IC95 incluya el cero).

Llegados a estas alturas, la cabeza empieza a echarnos humo, así que vamos a ir terminando por hoy. Ni que decir tiene que todo lo que he explicado sobre el cálculo del intervalo puede hacerse a golpe de clic con cualquiera de las calculadoras disponibles en Internet, con lo que no tendremos que hacer ninguna operación matemática.

Además, aunque el cálculo del NNT resulta sencillo cuando disponemos de una tabla de contingencia, en muchas ocasiones de lo que disponemos es de valores ajustados de riesgos obtenidos de modelos de regresión. Entonces, la matemática para el cálculo del NNT y su intervalo se complica un poco. Pero esa es otra historia…

Una tarea imposible

Eso es el bootstrapping. Una idea imposible de llevar a cabo. Además de un palabro intraducible, claro está.

El nombre tiene relación con la especie de correas (straps, en inglés) que tienen las botas (boots, también en inglés) en su parte superior, sobre todo esas botas de vaqueros que vemos en las películas. Bootstrapping es un término que, al parecer, hace referencia a la acción de elevarse a uno mismo del suelo tirando simultáneamente de las correas de las dos botas. Como os dije, una tarea imposible gracias a la tercera ley de Newton, el famoso principio de acción y reacción.  He buscado y rebuscado términos adecuados para traducirlo al castellano, pero no he encontrado ninguno que me agrade, así que se admiten sugerencias al respecto.

El bootstrapping es una técnica de remuestreo que se emplea en estadística cada vez con más frecuencia gracias a la potencia de los ordenadores actuales, que permiten hacer cálculos que antes podían ser inconcebibles. Quizás su nombre tenga que ver con su carácter de tarea imposible, porque el bootstrapping se utiliza para hacer posibles tareas que podrían parecer imposibles cuando el tamaño de nuestras muestras es muy pequeño o cuando las distribuciones están muy sesgadas, como la obtención de intervalos de confianza, de pruebas de significación estadística o de cualquier otro estadístico en el que estemos interesados.

Como recordaréis de cuando calculamos el intervalo de confianza de una media, podemos hacer el experimento teórico de obtener múltiples muestras de una población para calcular la media de cada muestra y representar la distribución de las medias obtenidas de las múltiples muestras. Es la llamada distribución de muestreo, cuya media es el estimador del parámetro en la población y cuya desviación estándar es el llamado error estándar del estadístico que nos permitirá calcular el intervalo de confianza que deseemos. De esta forma, la extracción de muestras repetidas de la población nos permite hacer descripciones e inferencias estadísticas.

Pues bien, el bootstrapping es algo parecido, pero con una diferencia fundamental: las muestras sucesivas se extraen de nuestra muestra y no de la población de la que procede. El procedimiento sigue una serie de pasos repetitivos.

En primer lugar extraemos una muestra a partir de la muestra original. Esta muestra debe extraerse utilizando un muestreo con reposición, de tal forma que algunos elementos no serán seleccionados y otros lo podrán ser más de una vez en cada muestreo. Es lógico, si tenemos una muestra de 10 elementos y extraemos 10 elementos sin reposición, la muestra obtenida será igual a la original, con lo que no ganamos nada.

De esta nueva muestra se obtiene el estadístico deseado y se utiliza como estimador de la población. Como este estimador sería poco preciso, repetimos los dos pasos anteriores un gran número de veces, obteniendo así un número alto de estimaciones.

Ya casi estamos. Con todos estos estimadores construimos su distribución, que llamamos distribución de bootstrap, y que representa una aproximación de la verdadera distribución del estadístico en la población. Lógicamente, para esto hace falta que la muestra original de la que partimos sea representativa de su población. Cuánto más se aleje, menos fiable será la aproximación de la distribución que hemos calculado.

Por último, con esta distribución de bootstrap podemos calcular el valor central (el estimador puntual) y sus intervalos de confianza de forma similar a como hacíamos para calcular el intervalo de confianza de una media a partir de la distribución de muestreo.

Como veis, un método ingenioso que a nadie se le ocurriría poner en práctica sin la ayuda de un programa de estadística y un buen ordenador. Vamos a ver un ejemplo práctico para entenderlo mejor.

Supongamos por un momento que queremos saber cuál es el consumo de alcohol en un grupo determinado de personas. Reunimos 20 individuos y calculamos su consumo de alcohol en gramos semanales, obteniendo los siguientes resultados:

ingesta alcohol

consumo_alcoholLos datos podemos verlos representados en el primer histograma. Como veis, la distribución es asimétrica con un sesgo positivo (hacia la derecha). Tenemos un grupo de abstemios o bebedores escasos y una cola representada por los que van teniendo consumos cada vez más altos, que son cada vez menos frecuentes. Este tipo de distribución es muy frecuente en biología.

En este caso la media no sería buena medida de tendencia central, así que preferimos calcular la mediana. Para ello, podemos ordenar los valores de menor a mayor y hacer la media entre los que ocupan los lugares décimo y undécimo. Yo me he molestado en hacerlo y sé que la mediana vale (4,77+5)/2 = 4,88.

Ahora bien, a mí me interesa saber el valor de la mediana en la población de la que procede la muestra. Con una muestra tan pequeña y tan sesgada no puedo aplicar los procedimientos habituales y no tengo posibilidad de buscar más individuos de la población para hacerles el estudio. En este momento es donde entra en juego el bootstrapping.

Así que obtengo 1000 muestras con reposición de mi muestra original y calculo la mediana de las 1000 muestras. La distribución de bootstrap de esas 1000 medianas aparece representada en el segundo histograma. Como puede comprobarse, se parece a una distribución normal, cuya media es 4,88 y cuya desviación estándar es 1,43.

Bueno, ya podemos calcular nuestro intervalo de confianza para hacer la estimación poblacional. Podemos hacerlo de dos formas. La primera, calculando los márgenes que engloban el 95% de la muestra (calculando los percentiles 2,5 y 97,5) y que veis representados en el tercer gráfico. Yo he utilizado el programa R, pero puede hacerse de forma manual utilizando fórmulas para el cálculo de percentiles (aunque no es muy recomendable, ya que hay 1000 medianas que ordenar). Así, obtengo una mediana de 4,88 con un intervalo de confianza del 95% de 2,51 a 7,9.

La otra forma es recurriendo al teorema central del límite, que no podíamos usar con la muestra original pero sí con la distribución de bootstrap. Sabemos que el intervalo de confianza del 95% será igual a la mediana más menos 1,96 veces el error estándar (que es la desviación estándar de la distribución de bootstrap). Luego:

IC 95 = 4,88 ± 1,96 x 1,43 = 2,08 a 7,68.

Como veis, se parece bastante al que habíamos obtenido con la aproximación de los percentiles.

Y aquí lo dejamos, antes de que alguna cabeza se recaliente demasiado. Para animaros un poco, todo este rollo puede evitarse si se utiliza directamente un programa como R, que calcula el intervalo, y hace el bootstrapping si es necesario, con una instrucción tan sencilla como el comando ci.median() de la librería asbio.

Nada más por hoy. Solo deciros que el bootstrapping es quizás la más famosa de las técnicas de remuestreo, pero no la única. Hay más, algunas también con nombre peculiar como jacknife, pruebas de aleatorización y permutación o prueba de validación cruzada. Pero esa es otra historia…

Con poco afinamos mucho

A todos nos gusta saber qué va a pasar en el futuro. Por eso tratamos de inventar cosas que nos ayuden a saber qué va a ocurrir, cuál va a ser el resultado de una determinada cosa. Un ejemplo muy claro es el de las elecciones en política o el de las encuestas para preguntar a la gente sobre una cuestión de interés. Por eso se han inventado los sondeos, para tratar de anticipar el resultado de una encuesta antes de realizarla. Hay mucha gente que no se fía mucho de los sondeos pero, como veremos a continuación, son una herramienta bastante útil: nos permiten realizar estimaciones bastantes finas y con un esfuerzo relativamente pequeño.

Pensemos, por ejemplo, que vamos a hacer un referéndum a la suiza para preguntar a la gente si quiere reducir la jornada laboral. Algunos me diréis que esto es perder el tiempo, ya que en España una encuesta así tendría un resultado más que previsible, pero nunca se sabe. En Suiza se preguntó y prefirieron seguir trabajando más tiempo.

Si queremos saber con seguridad cuál va a ser el resultado de la votación tendríamos que preguntar a todo el mundo cuál va a ser su voto, lo que resulta poco práctico para llevarlo a cabo. Así que hacemos un sondeo: elegimos una muestra de un tamaño determinado y les preguntamos. Obtenemos así una estimación del resultado final, con una precisión que vendrá determinada por el intervalo de confianza del estimador que calculemos.

¿Y la muestra tendrá que ser muy amplia?. Pues no demasiado, siempre que esté bien elegida. Veámoslo.

Cada vez que hacemos el sondeo, obtenemos un valor de la proporción p que votará, por ejemplo, sí a la propuesta. Si repitiésemos el sondeo muchas veces, obtendríamos un conjunto de valores próximos entre sí y, probablemente, próximos al valor real de la población al que no podemos acceder. Pues bien, estos valores (resultado de los diferentes sondeos repetidos) siguen una distribución normal, de tal manera que sabemos que el 95% de los valores estarían entre el valor de la proporción en la población más menos dos veces la desviación estándar (en realidad, 1,96 veces la desviación). A esta desviación estándar se le llama error estándar, y es la medida que nos permite calcular el margen de error de la estimación mediante su intervalo de confianza:

Intervalo de confianza del 95% (IC 95) = proporción estimada ± 1,96 x error estándar

En realidad, esta es una ecuación simplificada. Si partimos de una muestra finita (n) obtenida de una población (N), el error estándar debe multiplicarse por un factor de corrección, de tal forma que la fórmula queda de la siguiente manera:

IC 95 = p ± 1,96 error estándar x \sqrt{1-\frac{n}{N}}

Si os paráis a pensar un momento, cuando la población es muy grande el cociente n/N tiende a cero, con lo que el resultado del factor de corrección tiende a uno. Es por esto por lo que la muestra no tiene porqué ser excesivamente grande y por lo que un mismo tamaño de muestra nos puede servir para estimar el resultado de unas elecciones municipales o el de unas nacionales.

Por lo tanto, la precisión de la estimación está más en relación con el error estándar. ¿Cuál sería el error estándar en nuestro ejemplo?. Al ser el resultado una proporción, sabemos que seguirá una distribución binomial, por lo que el error estándar será igual a

Error estándar = \sqrt{\frac{p(1-p)}{n}}, siendo p la proporción obtenida y n el tamaño muestral.

La imprecisión (la amplitud del intervalo de confianza) será mayor cuanto mayor sea el error estándar. Por lo tanto, a mayor producto p(1-p) o a menor tamaño muestral, menos precisa será nuestra estimación y mayor será nuestro margen de error.

De todas formas, este margen de error es limitado. Veamos por qué.

px1-pSabemos que p puede tener valores entre cero y uno. Si examinamos la figura con la curva de p frente a p(1-p), vemos que el valor máximo del producto se obtiene cuando p=0,5, con un valor de 0,25. Según p se aleje de 0,5 en uno u otro sentido, el producto será menor.

Luego, para un mismo valor de n, el error estándar será máximo cuando p valga 0,5, según la ecuación siguiente:

M\acute{a}ximo \ error\ est\acute{a}ndar= \sqrt{\frac{0,5 \times 0,5}{n}}  =  \sqrt{\frac{0,25}{n}}\frac{0,5}{\sqrt{n}}

Así, si expresamos la fórmula del intervalo de confianza más amplio:

M\acute{a}ximo\ IC 95\%=p\pm1,96\times\frac{0,25}{\sqrt{n}}\pm2\times\frac{0,25}{\sqrt{n}}=p\pm\frac{1}{\sqrt{n}}

O sea, que el margen de error máximo es de \frac{1}{\sqrt{n}}. Esto quiere decir que con una muestra de 100 personas tendremos un margen de error máximo de más menos un 10%, dependiendo del valor de p que hayamos obtenido (pero, como máximo, un 10%). Vemos, pues, que con una muestra que no tiene porqué ser muy grande se puede obtener un resultado bastante preciso.

Y con esto terminamos por hoy. Os preguntaréis, después de todo lo que hemos dicho, por qué hay encuestas cuyo resultado no se parece nada al definitivo. Pues se me ocurren dos respuestas. La primera, nuestro amigo en azar. Hemos podido elegir, por puro azar, una muestra que no está centrada alrededor del verdadero valor de la población (nos pasará un 5% de las veces). El segundo, puede que la muestra no sea representativa de la población general. Y este es un factor fundamental, porque si la técnica de muestreo no es correcta, los resultados de la encuesta no serán nada fiables. Pero esa es otra historia…

El error de la confianza

Nuestra vida está llena de incertidumbre. Muchas veces queremos conocer información que está fuera de nuestro alcance, por lo que tenemos que conformarnos con aproximaciones. El problema de las aproximaciones es que están sujetas a error, por lo que nunca podemos estar completamente seguros de que nuestras estimaciones sean ciertas. Eso sí, podemos medir nuestro grado de incertidumbre.

De eso se encarga en gran parte la estadística, de cuantificar la incertidumbre. Por ejemplo, supongamos que queremos saber cuál es el valor medio de colesterol de los adultos de entre 18 y 65 años de la ciudad donde vivo. Si quiero el valor medio exacto tengo que llamarlos a todos, convencerlos para que se dejen hacer un análisis (la mayoría estarán sanos y no querrán hacerse nada) y hacer la determinación a cada uno de ellos para calcular después la media que quiero conocer.

El problema es que vivo en una ciudad muy grande, con unos cinco millones de habitantes, así que es imposible desde un punto de vista práctica determinarcolesterol_normal el colesterol a todos los adultos del intervalo de edad que me interesa. ¿Qué puedo hacer?. Tomar una muestra más asequible de mi población, calcular el valor medio de colesterol y estimar cuál es el valor medio de toda la población.

Así que escojo 500 individuos al azar y determino sus valores de colesterol en sangre, en miligramos por decilitro, obteniendo una media de 165, una desviación estándar de 25 y una distribución de los valores aparentemente normal, tal como os muestro en el gráfico que se adjunta.

Lógicamente, como la muestra es bastante grande, el valor medio de la población probablemente estará cerca de los 165 que he obtenido de la muestra, pero también es muy probable que no sea exactamente ese. ¿Cómo puedo saber el valor de la población?. La respuesta es que no puedo saber el valor exacto, pero sí aproximadamente entre qué valores está. En otras palabras, puedo calcular un intervalo dentro del cual se encuentre el valor inasequible de mi población, siempre con un nivel de confianza (o incertidumbre) determinado.

Pensemos por un momento qué pasaría si repitiésemos el experimento muchas veces. Cada vez obtendríamos un valor medio un poco diferente, pero todos ellos deberían ser parecidos y próximos al valor real de la población. Si repetimos el experimento cien veces y obtenemos cien valores medios, estos valores seguirán una distribución normal con un valor medio y una desviación estándar determinados.

Ahora bien, sabemos que, en una distribución normal, aproximadamente el 95% de la muestra se encuentra en el intervalo formado por la media más menos dos desviaciones estándar. En el caso de la distribución de medias de nuestros experimentos, la desviación estándar de la distribución de medias se denomina error estándar de la media, pero su significado es el mismo que el de cualquier desviación estándar: el intervalo comprendido por la media más menos dos errores estándar contiene el 95% de las medias. Esto quiere decir, aproximadamente, que la media de nuestra población se encontrará el 95% de las veces en el intervalo formado por la media de nuestro experimento (no necesitamos repetirlo cien veces) más menos dos veces el error estándar. ¿Y cómo se calcula el error estándar de la media?. Muy sencillo, aplicando la fórmula siguiente:

error estándar = desviación estándar / raíz cuadrada del tamaño de la muestra

EE= \frac{DE}{\sqrt{n}}

En nuestro caso, el error estándar vale 1,12, lo que quiere decir que el valor medio de colesterol en nuestra población se encuentra dentro del intervalo 165 – 2,24 a 165 + 2,24 o, lo que es lo mismo, de 162,76 a 167,24, siempre con una probabilidad de error del 5% (un nivel de confianza del 95%).

Hemos calculado así el intervalo de confianza del 95% de nuestra media, que nos permite estimar entre qué valores se encuentra el valor real. Todos los intervalos de confianza se calculan de forma similar, variando en cada caso la forma de calcular el error estándar, que será diferente según se trate de una media, una proporción, un riesgo relativo, etc.

Para terminar esta entrada comentaros que la forma en la que hemos hecho este cálculo es una aproximación. Cuando conocemos la desviación estándar de la población podemos utilizar una distribución normal para el cálculo del intervalo de confianza. Si no la conocemos, que es lo habitual, y la muestra es grande, cometeremos poco error aproximando con una normal. Pero si la muestra es pequeña, la distribución de medias ya no sigue una normal, sino una t de Student, por lo que tendríamos que utilizar esta distribución para el cálculo del intervalo. Pero esa es otra historia…

La vida no es de color de rosa

Los llamados seres humanos tenemos la tendencia a ser demasiado categóricos. Nos gusta mucho ver las cosas blancas o negras, cuando la realidad es que la vida no es ni blanca ni negra, sino que se manifiesta en una amplia gama de grises. Hay quien piensa que la vida es de color de rosa o que el color depende del cristal con el que se mire, pero no lo creáis: la vida es de colores grises.

Y esa tendencia a ser demasiado categóricos nos lleva, en ocasiones, a sacar conclusiones muy diferentes sobre un tema en concreto según el color, blanco o negro, del cristal con el que lo miremos. No es raro que, sobre determinados temas, podamos observar opiniones opuestas.

Y lo mismo puede ocurrir en medicina. Cuando surge un nuevo tratamiento y empiezan a publicarse trabajos sobre su eficacia o su toxicidad, no es raro encontrar estudios muy similares en los que los autores llegan a conclusiones muy diferentes. Muchas veces esto se debe al empeño en ver las cosas blancas o negras, sacando conclusiones categóricas de parámetros como el valor de la significación estadística, el valor de la p. En realidad, en muchos de estos casos los datos no dicen cosas tan diferentes, pero tenemos que mirar la gama de grises que nos brindan los intervalos de confianza.

Como me imagino que no entendéis bien de qué leches estoy hablando, voy a tratar de explicarme mejor y de poner algún ejemplo.

Ya sabéis que nunca nunca nunca podemos probar la hipótesis nula. Solo podemos rechazarla o ser incapaces de rechazarla (en este caso asumimos que es cierta, pero con una probabilidad de error). Por eso cuando queremos estudiar el efecto de una intervención planteamos la hipótesis nula de que el efecto no existe y diseñamos el estudio para que nos dé información sobre si podemos o no rechazarla. En el caso de rechazarla asumimos la hipótesis alternativa de que el efecto de la intervención existe. Una vez más, siempre con una probabilidad de error, que es el valor de la p o la significación estadística.

En resumen, si la rechazamos asumimos que la intervención tiene un efecto y si no podemos rechazarla asumimos que no la tiene. ¿Os dais cuenta?: blanco o negro. Esta interpretación tan simplista no tiene en cuenta la gama de grises que tienen que ver con factores relevantes como la importancia clínica, la precisión de la estimación o la potencia del estudio.

En un ensayo clínico es habitual proporcionar la diferencia encontrada entre el grupo de intervención y el de control. Esta estimación es puntual pero, como el ensayo lo hemos hecho con una muestra de una población, lo correcto es acompañar la estimación puntual de un intervalo de confianza que nos proporcione el rango en el que se incluye el valor real de la población inaccesible con una probabilidad o confianza determinada. Por convenio, la mayor parte de las veces está confianza se establece en el 95%.

Este 95% se elige habitualmente porque suelen usarse también niveles de significación estadística del 5%, pero no debemos olvidar que es un valor arbitrario. La gran cualidad que tiene el intervalo de confianza frente a la p es que no permite establecer conclusiones dicotómicas, del tipo de blanco o negro.

El intervalo de confianza no es significativo cuando cruza la línea de efecto nulo, que es el 1 para riesgos relativos y odds ratios y el 0 para riesgos absolutos y diferencias de medias. Si solo miramos el valor de p solo podemos concluir si se alcanza o no significación estadística, llegando a veces a conclusiones diferentes con intervalos muy parecidos.

blanco y negroVeamos un ejemplo. En el gráfico están representados los intervalos de confianza de dos estudios sobre los efectos adversos cardiovasculares de un nuevo tratamiento. Veis que ambos intervalos son muy similares, pero el del ensayo A es estadísticamente significativo mientras que el del B no lo es. Si a los autores les gusta el blanco y negro, el de A dirá que el tratamiento tiene toxicidad cardiovascular, mientras que el de B dirá que no existe diferencia estadísticamente significativa entre la intervención y el control en lo que respecta a la toxicidad cardiovascular.

Sin embargo, el intervalo de B abarca desde algo menos de 1 hasta casi 3. Esto quiere decir que el valor de la población puede estar en cualquier valor del intervalo. Igual es 1, pero igual es 3, con lo que no es imposible que la toxicidad sea tres veces mayor que en el grupo de tratamiento. Si los efectos adversos son graves, no sería adecuado recomendar el tratamiento hasta disponer de estudios más concluyentes, con intervalos más precisos. Esto es a lo que me refiero con la gama de grises. No es prudente sacar conclusiones en blanco y negro cuando hay solapamiento de los intervalos de confianza.

Así que seguid mi consejo. Haced menos caso a la p y buscad siempre la información sobre el rango posible de efecto que proporcionan los intervalos de confianza.

Y aquí lo dejamos por hoy. Podríamos hablar más acerca de situaciones similares pero cuando tratamos con estudios de eficacia, de superioridad o de no-inferioridad. Pero esa es otra historia…

Los parientes pobres

Esto de los parientes pobres me recuerda un antiguo chiste de colegio sobre un marqués que tiene un sobrino de clase baja y con el que tiene que compartir mesa con toda la aristocracia con la que se codea el marqués. Éste, muy preocupado, le insiste muchas veces que tiene que ser muy educado con sus invitados. Así que, en mitad de la cena, el sobrino se levanta y anuncia: señoras y señores, excúsenme pero tengo que ir a hacer mis necesidades fisiológicas. El chico se levanta y comienza a caminar hacia el cuarto de baño. Pero a mitad de camino se detiene bruscamente, se queda pensando, se vuelve y exclama: ¡bueno, a lo mejor también cago!.

Por fortuna, la familia no siempre te da problemas de este tipo, ni es frecuente que se mezclen las clases sociales y, desde luego, un marqués de la vida real tampoco invitaría a la misma mesa a un sobrino como este, aunque fuese de la familia.

Y hay familias muy bien avenidas, a pesar de que siempre alguno de sus miembros se lleve gran parte de la fama. Este es el caso de la familia de los intervalos. El más conocido por todos es nuestro intervalo de confianza, pero éste tiene dos primos mucho menos célebres pero que también contribuyen dignamente a la lucha contra la incertidumbre en la inferencia estadística: el intervalo de predicción y el intervalo de tolerancia.

Todos somos conscientes de la imposibilidad, la mayor parte de las veces, de acceder a toda la población cuando queremos conocer alguno de sus parámetros. Por este motivo se desarrollan técnicas de inferencia para tratar de estimar los valores inaccesibles de la población a partir de valores obtenidos de muestras de esa población.

El problema es que estas estimaciones tienen siempre una probabilidad de error. Y aquí es donde entra en juego nuestra familia de intervalos.

El primero es el intervalo de confianza que nos permite, una vez calculado el parámetro en la muestra, estimar entre qué límites se encuentra el valor real e inaccesible en la población, siempre con una probabilidad de error. Por convenio suele fijarse el nivel de confianza en el 95%, de tal forma que el intervalo se calcula según la siguiente expresión:

IC95% = parámetro ± 2 veces el error estándar del parámetro.

En el caso sencillo de cálculo del intervalo para la media  el error estándar es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra, pero con otros estadísticos esto puede complicarse un poco.

De todas formas, el intervalo de confianza siempre representará el margen que probablemente contiene el valor verdadero y desconocido en la población. La probabilidad de contención (la confianza) no se aplica al intervalo sino, en realidad, a la proporción de todos los intervalos que incluirían el parámetro real si repitiésemos la medida un número grande de veces.

Aunque los intervalos de confianza dan para hablar mucho rato, no nos vamos a entretener más por ahora. Para el que esté interesado, recomiendo un artículo de la Revista de Pediatría de Atención Primaria donde se trata todo esto con más detenimiento.

El segundo miembro de esta familia es el intervalo de predicción. El concepto de intervalo predictivo es muy similar al de intervalo de confianza. En este caso, una vez que hemos estimado el valor de la población a partir de una muestra, el intervalo predictivo nos dirá entre que límites estará una proporción de sujetos elegidos al azar de esa población, con un grado de probabilidad determinada.

Si la variable que estamos midiendo sigue una distribución normal (generalmente podemos aproximar a una normal si el tamaño de la muestra es grande), el valor del 95% de los sujetos estará entre la media ± dos veces la desviación típica. Bastante parecido al intervalo de confianza, pero con dos diferencias claras.

Primero, el predictivo utiliza la desviación estándar en lugar del error estándar del intervalo de confianza. Como la desviación típica es siempre mayor que el error estándar, los intervalos predictivos serán siempre más amplios que los de confianza para el mismo nivel de incertidumbre. Segundo, para calcular el intervalo de confianza tenemos que medir previamente el valor en una o varias muestras, mientras que el intervalo predictivo se calcula a priori, antes de extraer el sujeto o sujetos de la población.

El tercer primo en discordia es el intervalo de tolerancia. Este es muy similar al intervalo predictivo. Se elabora con una serie de datos de una o varias muestras y nos dice entre que límites se encontrarán las observaciones que hagamos en el futuro con el nivel de confianza o probabilidad que elijamos.

Al igual que el predictivo, el intervalo de tolerancia se hace después de hacer la estimación en la población. Su utilidad será conocer la proporción de todas las observaciones futuras que estarán dentro de unos márgenes determinados con una cierta probabilidad.

Como es lógico, todas estas muestras deben escogerse de la misma población, en las mismas condiciones y de forma aleatoria.

En teoría, el intervalo de tolerancia solo es válido si se calcula a partir de la media y desviación típicas reales de la población pero, como estos valores suelen ser desconocidos, se usan los promedios estimados, introduciendo así un grado de incertidumbre que será mayor cuanto menor sea el tamaño de la muestra.

Esta incertidumbre es la que controla el intervalo de tolerancia: nos dirá, con una confianza determinada, la proporción de la población que se encontrará dentro de unos límites dados. Para calcularlo se utiliza la siguiente expresión:

IT95% = parámetro ± k DS

Donde DS es la desviación estándar del parámetro y k es una función que tiene en consideración el tamaño de la muestra, el nivel de confianza y la proporción de la población que se mide. La matemática es compleja, así que no intentéis calcularlo sin ayuda de aplicaciones informáticas.

Para ir terminando, comentaros que, tanto el predictivo como el de tolerancia, pueden ser bilaterales o unilaterales. Los unilaterales nos dirán el valor mínimo o máximo que tendrán los valores de la población con el grado de confianza que especifiquemos.

Y esto es todo, amigos. No hemos dicho nada de otro intervalo predictivo mucho menos amigable, pero que tiene también gran utilidad. Y es que los intervalos predictivos tienen su papel en los modelos de regresión. Pero esa es otra historia…

Hasta las p no significativas pueden tener su corazoncito

Los resultados y la validez de cualquier trabajo epidemiológico están siempre sometidos a dos temibles peligros: el error aleatorio y los errores sistemáticos.

Los errores sistemáticos, sesgos para los amigos, están relacionados con defectos del diseño del estudio en cualquiera de sus fases, por lo que debemos ser cuidadosos a la hora de evitarlos para no comprometer la validez de los resultados.

El error aleatorio es harina de otro costal. Es inevitable y se debe a variaciones que no podemos controlar y que se producen durante los procesos de medición y recogida de datos, alterando la precisión de nuestros resultados. Pero que nadie desespere: no podremos evitar el azar, pero sí podemos controlarlo (dentro de unos límites) y medirlo.

Supongamos que medimos la diferencia de saturación de oxígeno en extremidad superior e inferior en veinte recién nacidos sanos y calculamos la media: 2,2%. Si repetimos el experimento, incluso con los mismos neonatos, ¿qué valor obtendremos?. Con toda probabilidad, cualquiera menos 2,2% (aunque se parecerá bastante si hemos hecho las dos tomas en las mismas condiciones). Ese es el efecto del azar: la repetición tiende a producir resultados diferentes, aunque cercanos al valor verdadero que queremos medir.

El error aleatorio puede reducirse aumentando el tamaño de la muestra (con cien niños en lugar de veinte las medias serán más parecidas si repetimos el experimento), pero nunca nos libraremos completamente de él. Para empeorar las cosas, ni siquiera queremos saber la media de la diferencia de saturación en estos veinte, sino en la población de la cual proceden. ¿Cómo salimos de este laberinto?. Lo habéis adivinado, utilizando intervalos de confianza.

Cuando establezcamos la hipótesis nula de que no hay diferencias entre tomar la saturación en la pierna o en el brazo y realicemos la comparación de las medias con el test estadístico apropiado, el valor de la p nos indicará la probabilidad de que la diferencia encontrada se deba al azar. Si p < 0,05, asumiremos que la probabilidad de que la diferencia se deba al azar es tan pequeña como para rechazar con tranquilidad la hipótesis nula y abrazar la hipótesis alternativa: no es lo mismo tomar la saturación en la pierna que en el brazo. Por otro lado, si la p no es significativa, no podremos rechazar la hipótesis nula, pero siempre nos quedará la duda de cuál habría sido el valor de p con 100 niños, o con 1000. Es posible que entonces la p sí hubiese alcanzado significación estadística y hubiésemos podido rechazar H0.

Si calculamos el intervalo de confianza de nuestra variable tendremos el rango en el cual se encuentra su valor real con una probabilidad determinada (habitualmente 95%). Esto nos informará de la precisión del estudio. No será lo mismo obtener como resultado que la diferencia de saturación es de 2 a 2,5% que de 2 a 25% (en este caso, el estudio habría que valorarlo con desconfianza aunque la p tuviese cinco ceros).

¿Y qué pasa si la p no es significativa?. ¿Podemos sacar conclusiones del estudio?. Pues eso dependerá en gran medida de la importancia de lo que estemos midiendo, de su impacto clínico. Si consideramos una diferencia de saturación significativa desde el punto de vista clínico del 10% y el intervalo está por debajo, aunque la p sea significativa el impacto clínico del hallazgo será mínimo. Pero lo bueno es que este razonamiento puede también hacerse al revés: intervalos no significativos pueden tener gran impacto si alguno de sus límites entra en la zona de importancia clínica.

Veámoslo con unos ejemplos en el gráfico siguiente, en el que se ha supuesto una diferencia importante desde el punto de vista clínico del 5% en la saturación de oxígeno (perdonadme los neonatólogos, pero de la saturación solo sé que la mide una máquina que muchas veces no capta bien y pita).

El estudio A no tiene significación estadística (el intervalo de confianza incluye el valor nulo, en este caso el cero) y, además, clínicamente no parece importante.

El estudio B tampoco es estadísticamente significativo, pero clínicamente podría ser importante, ya que el límite superior del intervalo cae en la zona de relevancia clínica. Si aumentásemos la precisión del estudio (aumentando la muestra), ¿quién nos asegura que el intervalo no se podría estrechar y quedar por encima del nivel nulo, alcanzando significación estadística? En este caso la duda no parece muy trascendente porque la variable que estamos midiendo como ejemplo es un poco chorra, pero pensad cómo cambiaría esto si estuviésemos considerando una variable más dura, como mortalidad.

Los estudios C y D alcanzan significación estadística, pero solo los resultados del D son clínicamente importantes. El estudio C mostraría una diferencia, pero su impacto clínico y, por tanto, su interés son mínimos.

Así que, como veis, hay ocasiones en las que un resultado con una p no significativa puede proporcionar información de interés desde el punto de vista clínico, y viceversa. Además, todo esto que hemos comentado es importante para entender el planteamiento de los ensayos de superioridad, equivalencia y no inferioridad, pero esa es otra historia…

Busca siempre un intervalo, pero que sea de confianza

El intervalo de confianza es una de esas herramientas que nos permiten conservar uno de nuestros vicios más persistentes: querer sacar conclusiones acerca de muchos con datos obtenidos de unos pocos.

Cuando queremos conocer una característica de un determinado grupo de pacientes es frecuente que no podamos estudiarla en todos los sujetos que nos interesan, por lo que tenemos que resignarnos a seleccionar una muestra dentro de esa población y realizar las mediciones que nos parezcan oportunas. El problema entonces es evidente: sabremos cuál es el valor en nuestra muestra pero, ¿cuál es el valor en la población global? ¿no hay forma de saberlo sin estudiar a toda la población?

La mala noticia es que la única manera de saber el valor con exactitud en la población es medir la variable en todos los sujetos. La buena noticia es que podemos estimar el valor en la población a partir del que obtuvimos en la muestra, aunque dentro de unos límites de incertidumbre, que son los que marca el intervalo de confianza.

Así, el intervalo de confianza, que se calcula a partir de los resultados de la muestra, nos dice entre que límites se encuentra el valor de la variable en la población de la que procede la muestra, siempre con cierto grado de error o incertidumbre, que por convenio suele situarse en el 95%.

En la práctica, el intervalo de confianza con una probabilidad del 95% (el que más se usa habitualmente) se calcula de la forma siguiente:

            IC 95% = V ± 1,96 SE

Donde V representa el parámetro que medimos (una media, una proporción, etc) y ±1,96 corresponde al rango alrededor de la media que incluye el 95% de la población en una distribución normal estándar. SE representa el error estándar, un término bastante más antipático de explicar, que corresponde a la desviación típica de la distribución de los valores de la variable que obtendríamos si repitiésemos el estudio muchas veces. Pero no os preocupéis por todo este galimatías, los programas de estadística lo hacen todo ellos solos. Lo único que tenemos que saber es que el intervalo de confianza incluye el verdadero valor de la población con la probabilidad especificada (la realidad es un poco más compleja, pero dejémoslo así).

Una reflexión final antes de cerrar este tema. Además del grado de incertidumbre, el intervalo de confianza nos informa sobre la precisión del estudio. Cuanto menor sea el intervalo, más precisión habremos conseguido, y si el intervalo es demasiado amplio es posible que el resultado no nos valga para nada, aunque tenga significación estadística. Este tipo de información es algo que no nos da la p. Entonces, ¿para qué sirve la p?. La p sirve para otras cosas, pero esa es otra historia…