Ciencia sin seso…locura doble

Píldoras sobre medicina basada en pruebas

Una de pilotos

No cabe duda de que el ensayo clínico aleatorizado es el rey de los diseños epidemiológicos cuando queremos demostrar, por ejemplo, la eficacia de un tratamiento. Lo que ocurre es que los ensayos son difíciles y costosos de hacer, por lo que antes de meternos en un ensayo es habitual hacer otros estudios previos.

Estos estudios previos pueden ser de tipo observacional. Con estudios de cohortes o de casos y controles podemos reunir la información suficiente sobre el efecto de una intervención que justifique la realización posterior de un ensayo clínico.

De todas formas, los estudios observacionales también son costosos y complejos, por lo que muchas veces se recurre a otra solución: el hacer un ensayo clínico a menor escala para obtener pruebas que justifiquen o no la realización de un ensayo a gran escala, que será el definitivo. Estos estudios previos suelen conocerse con el nombre de estudios piloto y tienen una serie de características que conviene tener en cuenta.

Por ejemplo, el objetivo del estudio piloto es proporcionar cierta seguridad de que el esfuerzo de hacer el ensayo definitivo servirá de algo, de forma que busca más observar el tipo de efectos de la intervención que demostrar de forma definitiva su eficacia.

Al ser estudios relativamente pequeños, los estudios piloto no suelen tener la potencia suficiente como para alcanzar significación estadística al nivel habitual del 0,05, de tal forma que se recomienda escoger un valor de alfa de hasta 0,2. Este valor alfa es la probabilidad que tenemos de cometer un error de tipo I, que consiste en rechazar la hipótesis nula de ausencia de efecto siendo cierta o, lo que es lo mismo, dar por bueno un efecto que en realidad no existe.

¿Y qué pasa?, ¿no nos importa tener un 20% de probabilidades de equivocarnos?. Porque para otros ensayos el límite es el 5%. Bueno en realidad no es que no nos importe, pero la mentalidad del estudio piloto es diferente a la del ensayo clínico convencional.

Si en un ensayo clínico convencional cometemos un error de tipo I admitiremos que un tratamiento es adecuado sin serlo. A nadie se le escapa que esto puede tener malas consecuencias y perjudicar a los pacientes que se sometan en el futuro a esa supuesta intervención beneficiosa. Sin embargo, si cometemos un error de tipo I en un estudio piloto, lo único que va a ocurrir es que vamos a gastar tiempo y dinero en hacer un ensayo definitivo que finalmente demostrará que el tratamiento no es eficaz.

A nivel de ensayo clínico definitivo es preferible no dar por bueno un tratamiento ineficaz o inseguro, mientras que a nivel de estudio piloto es preferible hacer el ensayo definitivo de un tratamiento ineficaz que dejar sin probar uno que pueda serlo. Por eso se aumenta el umbral para el error de tipo I hasta 0,2.

De todas formas, ya que lo que nos interesa más es estudiar la dirección del efecto de la intervención, puede ser recomendable utilizar intervalos de confianza en lugar de contrastes de hipótesis clásicos con su valor de p.

Estos intervalos de confianza se comparan con la diferencia mínima importante desde el punto de vista clínico, que debe definirse a priori. Si el intervalo no incluye el valor nulo y sí esta diferencia mínima importante, tendremos argumentos en favor de la realización de un ensayo a gran escala para demostrar definitivamente el efecto. Hay que comentar que, al igual que aumentábamos el valor de alfa, podemos usar intervalos de confianza con niveles inferiores al 95%.

Otra peculiaridad de los estudios piloto reside en la elección de las variables de resultado. Si tenemos en cuenta que el estudio piloto busca ver de forma sencilla cómo funcionan entre sí los componentes de un posible ensayo futuro, se comprende que, en ocasiones, no sea práctico utilizar una variable de resultado final y se recurra a una variable subrogada, que es aquella que proporciona una medida indirecta del efecto cuando la medición directa no es práctica o no es posible. Por ejemplo, si estamos estudiando un tratamiento antitumoral, la variable de resultado puede ser la supervivencia a cinco años, pero en el estudio piloto puede ser más útil alguna variable que indique la disminución del tamaño del tumor. Nos indicará la dirección del efecto del tratamiento sin tener que prolongar demasiado el estudio piloto.

Ya veis, pues, que los estudios piloto se deben interpretar teniendo en cuenta sus peculiaridades. Pero, además, nos ayudan a predecir cómo puede funcionar el ensayo definitivo, anticipando problemas que pueden arruinar un costoso y complejo ensayo clínico. Este es el caso de los datos faltantes y de las pérdidas durante el seguimiento, que suelen ser mayores en los estudios piloto que en los ensayos convencionales. Aunque tienen menos trascendencia en cuanto a la validez de los resultados, las pérdidas de los estudios piloto deben evaluarse para intentar evitar las futuras pérdidas del ensayo definitivo porque, aunque hay muchas maneras de manejar las pérdidas y los datos faltantes, la mejor forma es siempre evitar que se produzcan. Pero esa es otra historia…

Una historia interminable

Hoy no vamos a hablar de dragones que te llevan de paseo si te pones en su chepa. Tampoco vamos a hablar de hombres con los pies en la cabeza ni de ninguna otra de las criaturas de la mente delirante de Michael Ende. Hoy vamos a hablar de otra historia que no tiene fin: el de los indicadores de pruebas diagnósticas.
Cuando uno cree que los conoce todos, levanta una piedra y encuentra otro más debajo de ella. ¿Y por qué hay tantos?, os preguntaréis. Pues la respuesta es muy sencilla. Aunque hay indicadores que nos interpretan muy bien cómo trata la prueba diagnóstica a los sanos y a los enfermos, todavía se busca un buen indicador, único, que nos dé una idea de la capacidad diagnóstica del test.

ORDExisten multitud de indicadores de pruebas diagnósticas que valoran la capacidad de la prueba diagnóstica para discriminar entre enfermos y sanos comparando los resultados con los de un estándar de referencia. Todos ellos se derivan de la comparación entre positivos y negativos en una tabla de contingencia, con lo que podemos construir los indicadores habituales que veis en la tabla adjunta: sensibilidad, especificidad, valores predictivos, cocientes de probabilidad, índice de exactitud e índice de Youden.
El problema es que la mayoría de ellos valoran parcialmente la capacidad de la prueba, por lo que necesitamos utilizarlos en parejas: sensibilidad y especificidad, por ejemplo. Solo los dos últimos que hemos enunciado funcionan como indicadores únicos. El índice de exactitud mide el porcentaje de pacientes correctamente diagnosticados, pero trata por igual a positivos y negativos, verdaderos o falsos. Por su parte, el índice de Youden suma los mal clasificados por la prueba diagnóstica.

En cualquier caso, no se recomienda utilizar ni el índice de exactitud ni el de Youden de forma aislada si queremos valorar una prueba diagnóstica. Además, este último es un término difícil de trasladar a un concepto clínico tangible al ser una transformación lineal de la sensibilidad y la especificidad.

Llegados a este punto se entiende lo que nos gustaría disponer de un indicador único, sencillo, cuya interpretación nos resultase familiar y que no dependiese de la prevalencia de la enfermedad. Sería, sin duda, un buen indicador de la capacidad de la prueba diagnóstica que nos evitaría tener que recurrir a una pareja de indicadores.

Y aquí es donde a alguna mente brillante se le ocurre utilizar un indicador tan conocido y familiar como la odds ratio para interpretar la capacidad de la prueba. Así, podemos definir la odds ratio diagnóstica (ORD) como la razón de la odds de que el enfermo dé positivo con respecto a la odds de dar positivo estando sano. Como esto parece un trabalenguas, vamos a comentar los dos componentes de la razón.

La odds de que el enfermo dé positivo frente a que dé negativo no es más que la proporción entre verdaderos positivos (VP) y falsos negativos (FN): VP/FN. Por otra parte la odds de que el sano dé positivo frente a que dé negativo es el cociente entre falsos positivos (FP) y verdaderos negativos (VN): FP/VN. Y visto esto, solo nos queda definir la razón entre las dos odds:

ORD = \frac{VP}{FN} / \frac{FP}{VN} = \frac{S}{1 - S} / \frac{1 - E}{E}

La ORD puede también expresarse en función de los valores predictivos y de los cocientes de probabilidad, según las expresiones siguientes:

ORD= \frac{VPP}{1 - VPP} / \frac{1 - VPN}{VPN}

ORD= \frac{CPP}{CPN}

Como toda odds ratio, los valores posibles de la ORD van de cero a infinito. El valor nulo es el uno, que significa que la prueba no tiene capacidad discriminatoria entre sanos y enfermos. Un valor mayor de uno indica capacidad discriminatoria, que será mayor cuanto mayor sea el valor. Por último, valores entre cero y uno nos indicarán que la prueba no solo no discrimina bien entre enfermos y sanos, sino que los clasifica de forma errónea y nos da más valores negativos entre los enfermos que entre los sanos.

La ORD es un medidor global fácil de interpretar y que no depende de la prevalencia de la enfermedad, aunque hay que decir que sí puede variar entre grupos de enfermos con distinta gravedad de su enfermedad.

Por último, añadir a sus ventajas que existe la posibilidad de construir su intervalo de confianza a partir de la tabla de contingencia usando esta pequeña fórmula que me vais a permitir:

Error\ est\acute{a}ndar (ln ORD)= \sqrt{\frac{1}{VP} + \frac{1}{VN} + \frac{1}{FP} + \frac{1}{FN}}

Sí, ya he visto el logaritmo, pero es que las odds son así: al ser asimétricas alrededor del valor nulo estos cálculos hay que hacerlos con logaritmos neperianos. Así, una vez que tenemos el error estándar podemos calcular el intervalo de esta manera:

IC\ 95\%= ln ORD \pm 1,96 EE(lnORD))

Solo nos quedaría, finalmente, aplicar los antilogaritmos a los límites del intervalo que obtenemos con la última fórmula (el antilogaritmo es elevar el número e a los límites obtenidos).

Y creo que con esto ya está bien por hoy. Podríamos seguir mucho más. La ORD tiene muchas más bondades. Por ejemplo, puede utilizarse con pruebas con resultados cuantitativos (no solo positivo o negativo), ya que existe una correlación entre la ORD y el área bajo la curva ROC de la prueba. Además, puede usarse en metanálisis y en modelos de regresión logística, lo que permite incluir variables para controlar la heterogeneidad de los estudios primarios. Pero esa es otra historia…

La fragilidad de la emPeratriz

Una de las cosas que más me maravilla de la estadística es su aspecto de solidez, sobre todo si tenemos en cuenta que continuamente se mueve en el terreno del azar y la incertidumbre. Claro que el problema no es de la estadística como tal, sino nuestro por creer en la solidez de sus conclusiones.

El ejemplo más característico es el del contraste de hipótesis. Imaginemos que queremos estudiar el efecto de un fármaco sobre la prevención de la migraña, esa enfermedad tan frecuente después del matrimonio. Lo primero que hacemos es establecer nuestra hipótesis nula, que habitualmente dice lo contrario a lo que queremos demostrar.

En nuestro caso, la hipótesis nula dice que el fármaco es igual de eficaz que el placebo para prevenir la migraña. Hacemos nuestro ensayo aleatorizando a los sujetos a los grupos de control y de tratamiento y obtenemos nuestros resultados. Por último, hacemos el contraste de hipótesis con el estadístico adecuado y calculamos la probabilidad de que las diferencias en el número de jaquecas observadas en cada grupo se deben al azar. Este es el valor de la p, que nos indica única y exclusivamente la probabilidad de que un resultado como el observado, o aún más extremo, se deba al azar.

Si obtenemos un valor de p de 0,35 querrá decir que la probabilidad de que la diferencia no sea real (se deba al azar) es de un 35%, con lo que no podremos rechazar la hipótesis nula y concluiremos que la diferencia no es real por no ser estadísticamente significativa. Sin embargo, si el valor de p es muy bajo, sí que nos sentimos seguros para decir que existe esa diferencia. ¿Cómo de bajo?. Por convenio se suele escoger un valor de 0,05.

Así que si p < 0,05 rechazamos la hipótesis nula y decimos que la diferencia no se debe al azar y que es estadísticamente significativa. Y aquí es donde viene a cuento mi reflexión sobre el aspecto sólido de lo que no es más que incertidumbre: siempre hay una probabilidad de equivocarse, que es igual al valor de p. Y además, el umbral elegido es totalmente arbitrario, de forma que una p=0,049 es estadísticamente significativa mientras que una p = 0,051 no lo es, a pesar de que sus valores son prácticamente los mismos.

Pero es que la cosa va más allá, porque no todas la p son igual de fiables. Pensad que hacemos un ensayo A con nuestro fármaco en el que participan 100 personas en el grupo de tratamiento y 100 en el de control, y que obtenemos un 35% menos de cefaleas en el grupo de intervención, con un valor de p = 0,02.

Ahora suponed otro ensayo con el mismo fármaco pero en el que participan 2000 personas en cada brazo del ensayo, obteniendo una reducción del 20% y un valor de p = 0,02. ¿Os parecen igual de fiables los resultados y la conclusión de los dos estudios?.

A primera vista el valor de p = 0,02 es significativo y similar en los dos. Sin embargo, el nivel de confianza que deberíamos depositar en cada estudio no debería ser el mismo. Pensad que pasaría si en el grupo de tratamiento del ensayo A hubiese habido cinco personas más con dolor de cabeza. El resultado de p podría haberse ido hasta 0,08, dejando de ser significativo.

Sin embargo, el mismo cambio en el ensayo B es poco probable que hubiese alterado las cosas. El ensayo B es menos susceptible a los cambios en cuanto a la significación estadística de sus resultados.

Pues bien, basándose en este razonamiento se han descrito una serie de índices de fragilidad, que describen el número mínimo de participantes cuyo estado tiene que cambiar para que el valor de p pase de ser estadísticamente significativo a no serlo.

Lógicamente, además de tener en cuenta otras características del estudio, como el tamaño muestral o el número de eventos observados, este índice de fragilidad podría darnos una idea más aproximada de la solidez de nuestras conclusiones y, por lo tanto, de la confianza que podemos depositar en nuestros resultados.

Y hasta aquí hemos llegado por hoy. Una entrada más dando vueltas alrededor de la p y de la significación estadística, cuando lo que en realidad interesa más valorar es la importancia clínica de los resultados. Pero esa es otra historia…

Todos los caminos llevan a Roma

Esta expresión tiene su origen en la manía que les entró a los romanos por hacer carreteras entre la capital del Imperio y las provincias más alejadas. Había un momento en que cualquier camino que tomases te llevaba a Roma, de ahí el dicho.

En la actualidad los caminos te pueden llevar a cualquier parte, pero la frase se conserva para usarla cuando queremos decir que hay varias maneras de conseguir un mismo fin. Por ejemplo, cuando queremos saber si hay dependencia entre dos variables y si su diferencia es estadísticamente significativa. Siempre hay varios caminos para llegar a nuestra ansiada p.

Y para demostrarlo, vamos a verlo con un ejemplo absurdo e imposible, para el cual voy a tener que hacer uso de mi máquina del tiempo. Así que, ya que la cosa va de romanos, nos vamos al año 216 antes de Cristo, en medio de la segunda guerra púnica, y planeamos un estudio para ver quiénes son más listos, los romanos o los cartagineses.

Para ello seleccionamos una muestra de 251 romanos y de 249 cartagineses que pillamos despistados en la batalla de Cannas y les pasamos un test de inteligencia para ver qué proporción tiene un cociente de inteligencia mayor de 120, lo que vamos a considerar como ser bastante listo.

roma_cartagoLos resultados podéis verlos en la tabla que os adjunto. Podemos ver que el 25% de los romanos (63 de 251) y el 16% de los cartagineses (40 de 249) pueden ser calificados como listos. A primera vista uno pensaría que los romanos eran más listos pero claro, siempre hay posibilidad de que esta diferencia sea debida al azar por error de muestreo.

Así que planteamos nuestra hipótesis nula de que todos son igual de listos, elegimos un estadístico cuya distribución de probabilidad bajo la hipótesis nula sea conocida, calculamos cuánto vale y calculamos su valor de p. Si es menor de 0,05 rechazaremos la hipótesis nula y concluiremos que los romanos eran más listos. Si es mayor, no podremos rechazar la hipótesis nula, así que concluiremos que todos eran igual de listos y que la diferencia observada se debe al azar.

roma_cartago_chiEl primer estadístico que se me ocurre es la chi-cuadrado. Como ya sabemos, ésta valora la diferencia entre valores observados y esperados y calcula un valor que sigue una distribución conocida (chi-cuadrado), por lo que podemos calcular su valor de p. De esta forma, construimos la tabla de valores observados y esperados y obtenemos un valor de chi-cuadrado igual a 6,35. Ahora podemos calcular el valor de p utilizando, por ejemplo, una de las calculadoras de probabilidad disponibles en Internet, obteniendo un valor de p = 0,01. Como es menor de 0,05 rechazamos la hipótesis nula y concluimos que los romanos eran, en efecto, más listos que los cartagineses, lo que explicaría que ganasen las tres guerras púnicas, aunque la segunda se les atragantase un poco.

Pero hemos dicho que todos los caminos llevan a Roma. Y otra forma de llegar a la p sería comparar las dos proporciones y ver si su diferencia es estadísticamente significativa. Una vez más, nuestra hipótesis nula dice que no hay diferencias entre las dos, así que la resta de las dos proporciones, si la hipótesis nula es cierta, debería valer cero.

De esta manera, lo que tenemos que hacer es calcular la diferencia de proporciones y estandarizarla dividiéndola por su error estándar, obteniendo así un valor z que seguirá una distribución de probabilidad normal.

La fórmula es la siguiente

z= \frac{p_{1} - p_{2}}{\sqrt{\frac{p_{1}(1-p_{1})}{n_{1}}+\frac{p_{2}(1-p_{2})}{n^{_{2}}}}}= \frac{0,25 - 0,16}{\sqrt{\frac{0,25(1-0,25)}{251}+\frac{0,16(1-0,16)}{249}}}= \frac{0,09}{0,0358}= 2,51

Con ésta obtenemos un valor de z = 2,51. Si volvemos a utilizar otra calculadora de probabilidad para calcular lo que queda fuera de la media ± z (el contraste es bilateral), veremos que el valor de p = 0,01. Efectivamente, el mismo valor de p que obtuvimos con la chi-cuadrado.

Pero esto no debería extrañarnos. Al fin y al cabo, la p no es más que la probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula (error de tipo I). Y como la hipótesis nula es la misma usemos chi-cuadrado o z, la probabilidad de error de tipo I debe ser la misma en los dos casos.

Pero es que, además, hay otra curiosidad. El valor de la chi-cuadrado (6,35) es exactamente el cuadrado del valor que obtuvimos para z (2,51). Pero esto tampoco debería extrañarnos si sabemos que las distribuciones de la chi-cuadrado y la normal están relacionadas.: si elevamos al cuadrado todos los valores de una distribución de frecuencias normal y volvemos a representar los resultados obtendremos una distribución de frecuencias de la chi-cuadrado. Curioso, ¿verdad?.

También podríamos realizar una prueba exacta de Fisher en lugar de una chi-cuadrado y obtendríamos unos resultados similares.

Y con esto vamos a dejar a romanos y cartagineses en paz. Solo deciros que todavía hay más caminos para demostrar si la diferencia de proporciones es significativa o no. Podríamos haber calculado el intervalo de confianza de la diferencia o el del cociente de proporciones (el riesgo relativo) o, incluso, el de la odds ratio entre las dos proporciones y ver si los intervalos incluían el valor nulo para determinar si eran estadísticamente significativos. Pero esa es otra historia…

Ni tanto ni tan calvos

¿Os habéis preguntado alguna vez por qué la gente se queda calva, especialmente los varones a determinada edad?. Creo que tiene algo que ver con las hormonas. El caso es que es algo que suele gustar poco al afectado, y eso que hay una creencia popular que dice que los calvos son más inteligentes. A mí me parece que no tiene nada de malo ser calvo (es mucho peor ser gilipollas), claro que yo tengo todo mi pelo en la cabeza.

Siguiendo el hilo de la calvicie, supongamos que queremos saber si el color de pelo tiene algo que ver con quedarse calvo antes o después. Montamos un ensayo absurdo en el que reunimos 50 rubios y 50 morenos para estudiar cuántos se quedan calvos y en qué momento lo hacen.

Este ejemplo nos sirve para ilustrar los diferentes tipos de variables que podemos encontrarnos en un ensayo clínico y los diferentes métodos que debemos utilizar para comparar cada una de ellas.

Algunas variables son de tipo cuantitativo continuo. Por ejemplo, el peso de los participantes, su talla, su sueldo, el número de pelos por centímetro cuadrado, etc. Otras son de tipo cualitativo, como el color de pelo. En nuestro caso lo simplificaríamos a una variable binaria: rubio o moreno. Por último, encontramos variables llamadas de tiempo a evento, que nos muestran el tiempo que tardan los participantes en sufrir el evento en estudio, en nuestro caso, la calvicie.

Pues bien, a la hora de comparar si existen diferencias entre estas variables entre los dos grupos el método que elijamos vendrá determinado por el tipo de variable que estemos considerando.

Si queremos comparar una variable continua como la edad o el peso entre calvos y peludos, o entre rubios y morenos, tendremos que utilizar la prueba de la t de Student, siempre que nuestros datos se ajusten a una distribución normal. En el caso de que no sea así, la prueba no paramétrica que tendríamos que utilizar es la de Mann-Withney.

¿Y qué pasa si queremos comparar varias variables continuas a la vez?. Pues que podremos utilizar la regresión lineal múltiple para hacer las comparaciones entre variables.

En el caso de las variables cualitativas el enfoque es diferente. Para saber si existe dependencia estadísticamente significativa entre dos variables tendremos que construir la tabla de contingencia y recurrir a la prueba de la chi-cuadrado o a la prueba exacta de Fisher, según la naturaleza de los datos. Ante la duda podemos hacer siempre la prueba de Fisher. Aunque implica un cálculo más complejo, esto no es problema para cualquiera de los paquetes estadísticos disponibles hoy en día.

Otra posibilidad es calcular una medida de asociación como el riesgo relativo o la odds ratio con sus correspondientes intervalos de confianza. Si los intervalos no cruzan la línea de efecto nulo (el uno), consideraremos que la asociación es estadísticamente significativa.

Pero puede ocurrir que lo que queramos comparar sean varias variables cualitativas. En estos casos podremos utilizar un modelo de regresión logística.

Por último, vamos a hablar de las variables de tiempo a evento, algo más complicadas de comparar. Si utilizamos una variable como puede ser el tiempo que tardan en quedarse calvos nuestros sujetos podemos construir una curva de supervivencia o de Kaplan-Meier, que nos muestra de forma gráfica que porcentaje de sujetos queda en cada momento sin presentar el evento (o que porcentaje ya lo ha presentado, según como la leamos). Ahora bien, podemos comparar las curvas de supervivencia de rubios y morenos y ver si existen diferencias en la velocidad a la que se quedan calvos los dos grupos. Para esto utilizamos la prueba de los rangos logarítmicos, más conocida por su nombre en inglés: log rank test.

Este método se basa en la comparación entre las dos curvas en base a las diferencias entre los valores observados y los esperados si la supervivencia (la producción del evento en estudio, que no tiene porqué ser muerte) fuese igual en los dos grupos. Con este método podemos obtener un valor de p que nos indica si la diferencia entre las dos curvas de supervivencia es o no estadísticamente significativa, aunque no nos dice nada de la magnitud de la diferencia.

El caso de cálculo más complejo sería el supuesto de que queramos comparar más de dos variables. Para el análisis multivariado hay que servirse de un modelo de regresión de riesgos proporcionales de Cox. Este modelo es más complejo que los anteriores pero, una vez más, los programas informáticos lo llevan a cabo sin la menor dificultad si les introducimos los datos adecuados.

Y vamos a dejar a los calvos tranquilos de una vez. Podríamos hablar más acerca de las variables de tiempo a evento. Las curvas de Kaplan-Meier nos dan una idea de quién va presentando el evento a lo largo del tiempo, pero no nos dicen nada del riesgo de presentarlo en cada momento. Para eso necesitamos otro indicador, que es el cociente de riesgos instantáneos o hazard ratio. Pero esa es otra historia…

Unos vienen y otros van

Decía Forrest Gump que la vida es como una caja de bombones. A mí me parece que se parece más a una sala de cine. Ahí estamos nosotros, viendo la película, mientras hay gente que entra y gente que sale. Algunos están mucho tiempo viendo la película, otros se van rápido. Hay quien está desde el principio, incluso desde antes que nosotros, hay quien llega después. En fin, como la vida misma.

Pues lo mismo pasa a veces con los estudios de cohortes o los ensayos clínicos. A veces el número de participantes es el mismo durante toda la duración del estudio, salvo las pérdidas durante el seguimiento, que casi siempre se producen. Pero otras veces los participantes, como si de nuestra vida se tratase, entran y salen del estudio.

Pensemos en un estudio que dura desde enero hasta diciembre. Si se trata de una cohorte abierta, los participantes pueden entrar en el estudio desde el principio o hacerlo más tarde. Por ejemplo, imaginemos un sujeto A que entra desde el principio, uno B que entra en Marzo y otro C que entra en octubre. Una vez que entran en el estudio ocurre una cosa parecida; pueden estar en él hasta el final o abandonarlo antes por tres razones: presentan el evento de estudio, se mueren (los pobres) o se pierden durante el seguimiento por la razón que sea.

Como es fácil de entender, cada paciente contribuye al seguimiento con un número de días determinado y diferente. Si nos limitamos a calcular la incidencia acumulada al final del estudio dividiendo el número de eventos por el número de participantes tendremos una idea aproximada del riesgo de presentar el evento, pero no de cómo de rápido se presenta este riesgo. Para mejorar esta medida tenemos que calcular otra que se llama densidad de incidencia y que refleja el número de eventos por unidad de tiempo-población.

Esta densidad de incidencia sería el equivalente a la incidencia acumulada en los estudios cerrados, donde los participantes tienen todos unos seguimientos similares. Pero, a diferencia de la incidencia acumulada, que es una proporción, la densidad de incidencia es una tasa, ya que incorpora el paso del tiempo en el denominador.

La forma de calcular la densidad de incidencia es dividir el número de eventos nuevos durante el periodo de estudio entre el tiempo total observado para todas las personas del estudio. Por ejemplo, un caso por cada 100 personas-año sería el resultado de encontrar un caso en 100 personas seguidas durante un año o en diez seguidas durante diez años. Para comprender mejor su significado, sería lo mismo que decir que hemos visto un evento por cada 100 personas en cada año de seguimiento.

Como podéis ver, el denominador de esta tasa representa el tiempo total que la población ha estado sometida al riesgo de desarrollar el evento que estemos estudiando. Un problema que tiene este método es que asume que el riesgo es constante durante todo el periodo, lo cual a veces puede no ser reflejo de la realidad. Por ejemplo, en muchas enfermedades crónicas el riesgo va aumentando con el tiempo.

Para terminar, deciros que esta medida puede servir para comparar el riesgo de dos poblaciones, aun cuando el tiempo de seguimiento o de participantes no sea el mismo en los dos grupos. De la misma forma que calculamos el cociente de riesgo en los estudios de incidencia acumulada (el riesgo relativo), podemos calcular el cociente de las densidades de incidencia de dos grupos para calcular la razón de densidades de incidencia, que tiene una interpretación similar a la del riesgo relativo.

Y con esto esto terminado. No hemos hablado nada de cómo consideramos a los que se pierden del estudio. ¿Presentan el evento o no?, ¿enferman o no enferman?. Pues lo que se suele hacer es considerar que han estado bien durante la mitad del periodo durante el que se pierden, sacándose después del estudio. De aquí viene el asunto de los datos censurados de los estudios en los que la variable de resultado es de tipo tiempo hasta producción del evento. Pero esa es otra historia…

De huevos y castañas

En muchas ocasiones nos encontramos con cosas que la gente se empeña en mezclar y confundir a pesar de que son manifiestamente diferentes. Es entonces cuando solemos recurrir al refrán y decir que se parecen como un huevo a una castaña, lo que en realidad quiere decir que son claramente dispares.

Pues bien, en epidemiología tenemos un claro ejemplo de huevos y castañas en el caso de los tipos de medidas de frecuencia más utilizadas. Y me estoy refiriendo al lío que nos formamos con los términos razón, proporción y tasa.

Aunque las tres son cosas bien distintas, hay mucha tendencia a confundir unas con otras, y no solo entre aficionados: existen ejemplos en los libros de epidemiología de tasas que no lo son, de razones que son proporciones y de lo que queramos imaginar.

Vamos a verlas una a una y veremos cómo, en realidad, se parecen como un huevo a una castaña.

Entrando en materia, diremos que una razón representa la magnitud relativa de dos cantidades de dos variables cualesquiera. Se calcula dividiendo una de las magnitudes (numerador) entre la otra (denominador), de tal forma que compara las dos. La clave en la razón es que numerador y denominador no tienen por qué estar relacionados. Ni siquiera tienen que ser de la misma categoría de cosas. Podemos comparar huevos con castañas o huevos con personas que tienen un piso en Albacete (perdonadme si no se me ocurre un ejemplo en el que esta comparación pueda ser de utilidad).

Las razones pueden usarse con fines descriptivos o analíticos. Con fines descriptivos pueden compararse los hombres/mujeres que participan en un estudio, o la razón de casos y controles, etc. Con fines analíticos pueden servir para estudiar la enfermedad entre casos y controles, la mortalidad entre dos grupos, etc. Los ejemplos típicos de razón son el riesgo relativo y la odds ratio o razón de prevalencia.

Por otra parte, una proporción es la comparación de una parte respecto a un todo y puede expresarse como una fracción, un número decimal o un porcentaje. Por definición, el numerador debe estar incluido en el denominador. Por ejemplo, el número de obesos que juran que comen poquito dividido por el número total de obesos nos dará la proporción de obesos que juran comer poquito (que suele ser llamativamente más alta de lo esperable). Si la multiplicamos por cien, obtendremos el porcentaje.

La proporción representa también la probabilidad de que un suceso ocurra, por lo que sus valores oscilan de cero a uno, o de cero a cien si empleamos porcentajes. Un ejemplo sería el de la incidencia, que representa el riesgo de enfermar en una población en un periodo de tiempo dado.

Una proporción puede convertirse en una razón. Solo hay que restar el numerador del denominador y volver a dividir. Por ejemplo, si en un estudio participan 35 hombres y 25 mujeres, la proporción de participantes varones sería de 35/60 = 0,58. Pero si queremos saber la razón de hombres a mujeres sería de 35/(60-35) = 1,4.

El tercer concepto en discordia es el de tasa. Una tasa es una medida de la frecuencia con la que ocurre un evento en una población específica durante un periodo de tiempo determinado. Al basarse la medida en la frecuencia según el tamaño de la población, las tasas son muy útiles para comparar frecuencias de eventos en diferentes momentos, localizaciones, etc., al igual que entre poblaciones de distinto tamaño.

Quiero llamaros aquí la atención sobre la frecuentemente mal llamada tasa de prevalencia. La prevalencia mide el número de individuos de una población que presentan la enfermedad en un momento dado. Pero, si lo pensáis, los enfermos (numerador) están incluidos en el denominador, así que la prevalencia en realidad es una proporción y no una tasa.

Ejemplos de tasas reales serían las tasa de mortalidad infantil, de mortalidad específica, la tasa cruda de natalidad, etc.

Y con esto terminamos por hoy. No quiero liar más la cosa con otros indicadores epidemiológicos relacionados y de nombre parecido. Porque hay más, como la proporción de incidencia, la tasa de incidencia, etc. Pero esa es otra historia…

Engañando a Gauss

No cabe duda de que Gauss y su distribución con forma de campana son la base para la realización de gran parte de las pruebas de contraste de hipótesis e inferencia de datos en estadística. Por eso, a nadie le llama la atención que muchas pruebas solo puedan realizarse cuando la variable que se estudia sigue una distribución normal.

Por ejemplo, si queremos comparar las medias de dos muestras, éstas tienen que ser independientes, seguir una distribución normal y tener una varianza similar (homocedasticidad). Lo mismo ocurre para muchas otras comparaciones, estudios de correlación, etc.

Cuando tenemos la mala suerte de que nuestra muestra no sigue una distribución normal debemos recurrir a las pruebas de contraste no paramétricas. Estas pruebas son igual de serias y rigurosas que las paramétricas, pero tienen el inconveniente de que son mucho más conservadoras, en el sentido de que cuesta más alcanzar el nivel de significación estadística necesario para poder rechazar la hipótesis nula. Podría darse el caso de que no obtengamos significación estadística con la prueba no paramétrica mientras que, si pudiésemos aplicarla, si podríamos obtenerla con la paramétrica.

Para evitar que pueda pasarnos esto, a alguien se le debió ocurrir que podemos transformar los datos de tal forma que los nuevos datos transformados sí sigan la distribución normal. Esto, que parece un truco sucio, es perfectamente lícito, siempre en cuanto tengamos en cuenta que luego tendremos que hacer la transformación inversa para interpretar correctamente los resultados.

Hay diversos métodos de transformación, aunque quizás el más utilizado es el de la transformación logarítmica.

Pensemos un momento en los logaritmos decimales (base 10). En la escala logarítmica hay la misma distancia entre 1 y 10 que entre 10 y 100 y que entre 100 y 1000. ¿Qué quiere decir esto?. Pues que si transformamos cada variable en su logaritmo, los valores entre 1 y 10 se expandirán, mientras que los más altos se comprimirán. Por eso la transformación logarítmica es útil para transformar distribuciones con sesgo positivo (con cola más larga hacia la derecha): la parte izquierda se expandirá, mientras que la derecha se comprimirá, favoreciendo que la curva resultante se ajuste mejor a una normal. Solo comentar que, aunque hemos puesto el ejemplo con el logaritmo decimal, que se entiende mejor, en estadística suele hacerse esta transformación con logaritmos neperianos o naturales, que tienen por base el número e, que vale, aproximadamente, 2,7182812.

Esta transformación logarítmica solo vale para números mayores que cero, aunque si tenemos una distribución con valores negativos podríamos sumar una constante a cada valor para que fuese mayor que cero antes de calcular su logaritmo. Cuando la nueva curva se ajusta a la campana se dice que sigue una distribución lognormal.

En ocasiones, si la distribución está muy sesgada, puede hacerse la transformación recíproca (1/x), más potente y que produce un efecto similar a la logarítmica. Otra tercera posibilidad, menos potente que la logarítmica, es transformar calculando la raíz cuadrada de cada valor.

Cuando el sesgo de la distribución es negativo (cola más larga hacia la izquierda) nos interesará lo contrario: comprimir la cola de la izquierda y extender la de la derecha. Si lo pensamos, esto puede hacerse elevando cada valor al cuadrado o al cubo. Los productos resultantes de los valores pequeños estarán menos alejados que los resultantes de valores grandes, con lo que la distribución se parecerá más a una normal.

Así que miramos nuestra distribución, hacemos la transformación que nos parezca más oportuna y comprobamos si ya es normal. En ese caso, hacemos la prueba paramétrica para obtener el nivel de significación. Finalmente, deshacemos la transformación para poder interpretar correctamente los resultados, aunque en este punto puede haber alguna dificultad.

Si hemos aplicado una transformación logarítmica y hemos obtenido una media, su antilogaritmo es la media geométrica y no la aritmética. Si se trata de una diferencia de medias, lo que obtenemos es la razón de medias geométricas.

Con los intervalos de confianza no hay mayor problema. Podemos transformar, obtenerlos y deshacer la transformación. La que se muestra intratable con todo este tipo de transformaciones y antitransformaciones es la desviación estándar, que no tiene sentido transformar en reverso porque sus unidades pierden totalmente el sentido de la realidad.

Las transformaciones 1/x y raíz cuadrada permiten recuperar los valores de las medias y de los intervalos de confianza sin problemas, pero tampoco pueden hacer nada con las desviaciones estándar.

Comentar, para terminar, que hay otras dos situaciones en que puede ser útil transformar los datos. Una es cuando las varianzas de las muestras son diferentes (no hay homocedasticidad). En estos casos puede aplicarse la logarítmica (si la varianza aumenta en proporción con la media), el cuadrado (si aumenta en proporción con el cuadrado de la media) o la raíz cuadrada (si lo hace en proporción con la raíz cuadrada de la media).

La otra situación es cuando queremos forzar que la relación entre las dos variables sea lineal, como cuando queremos utilizar modelos de regresión lineal. Claro que estos casos habría que tener algunas otras consideraciones de cómo afectan las transformaciones a los coeficientes de regresión. Pero esa es otra historia…

Cuando los ceros de la p sí importan

Ya sabemos que para contrastar la igualdad de medias de dos muestras que se distribuyan de forma normal podemos utilizar la prueba de la t de Student. Así que asumimos nuestra hipótesis nula de igualdad de las dos medias, hacemos el contraste y si p < 0,05, rechazamos la hipótesis nula (que es lo que queremos la mayor parte de las veces) y asumimos que las medias son diferentes.

Este valor de p, también llamado alfa, es totalmente arbitrario y representa simplemente la probabilidad de que la diferencia observada se deba exclusivamente al azar. Como menos de 0,05 nos parece pequeño, nos conformamos con el riesgo de error del 5%, llamado error de tipo I, de rechazar la hipótesis nula cuando es cierta y la diferencia se debe al azar.

La cosa se complica un poco más cuando comparamos las medias de más de dos muestras. Como ya sabemos, en estos casos tenemos que recurrir al análisis de la varianza (si las muestras se distribuyen de forma normal y sus varianzas son iguales), que nos proporciona otro valor de p. Una vez más, si es menor de 0,05 rechazamos la hipótesis nula de igualdad de medias y asumimos que algunas medias son diferentes entre sí. Pero, ¿cuáles de esas medias son diferentes entre sí y cuáles no?.

Lo primero que se nos pasa por la cabeza es hacer un contraste con la prueba de la t de Student tomando las muestras dos a dos. El número de comparaciones posibles será igual a (k)(k-1)/2, siendo k el número de muestras o grupos. Si hay tres podremos hacer tres comparaciones; si hay cuatro, seis comparaciones; si hay cinco grupos, 10 comparaciones; y así hasta que nos aburramos.

Sin embargo, si hacemos esto correremos el riesgo de meter la pata, tanto más cuanto mayor sea el número de comparaciones. Vamos a pensar un poco porqué esto es así.

Al hacer cada contraste, la probabilidad de un significativo es de 0,05 y la de un no significativo de 0,95. Ahora imaginemos que hacemos 20 comparaciones independientes: la probabilidad de que ninguno sea significativo será de 0,95×0,95×0,95…y así hasta 20 veces. O sea, será de 0,9520= 0,36. Esto quiere decir que el error de tipo I aumenta al aumentar el número de comparaciones y que podemos encontrar una diferencia falsamente significativa solo por azar.

Vamos a verlo al revés. Si hacemos 20 contrastes con un alfa de 0,05 la probabilidad de que al menos uno sea significativo será de 1-Probabilidad de no ser significativo o, lo que es lo mismo, 1-(1-0,05)20, que es igual a 0,64. Esto quiere decir que haciendo 20 comparaciones tenemos un 64% de probabilidades de identificar una diferencia como significativa cuando en realidad no lo es o, dicho de otra forma, de cometer un error de tipo I.

¿Qué podemos hacer?. Aquí es donde el señor Bonferroni viene en nuestra ayuda con su célebre corrección.

La probabilidad de no ser significativo (0,95) en 20 comparaciones hemos dicho que es (1-alfa)20. Ahora os pido que me creáis si os digo que (1-alfa)20 es aproximadamente igual a 1-20xalfa.  Luego 0,95 = 1-20alfa. Si despejamos alfa obtenemos la corrección de Bonferroni:

alfa de cada comparación = alfa general / número de comparaciones.

Así, si hacemos cuatro comparaciones de dos en dos y hemos escogido un valor de alfa para el ANOVA de 0,05, cuando hagamos las comparaciones por parejas consideraremos que podemos rechazar la hipótesis nula de igualdad cuando la p valga menos de 0,05/4 = 0,0125. Si hacemos seis comparaciones, el nivel de significación bajará a 0,0083 y, si hacemos 10, a 0,005.

A esto es a lo que me refiero con lo de la importancia de los ceros de la p. Cuanto más comparaciones, más ceros tendrá que tener para poder considerar la diferencia estadísticamente significativa sin aumentar el riesgo de error de tipo I. Esto es muy típico verlo en estudios post hoc entre varios subgrupos de un ensayo clínico o en los estudios de asociación genómica que, bajo ese nombre tan elegante, no son más que estudios de casos y controles camuflados.

Como es fácil comprender, esta corrección penaliza el valor de p y hace que el contraste sea mucho más conservador en el sentido de no poder rechazar la hipótesis nula. Eso sí, si a pesar de eso la diferencia sigue siendo significativa, la credibilidad de los resultados será mucho mayor.

Y aquí terminamos por hoy. Solo deciros que Bonferroni no fue el único en dar una solución para este problema de las comparaciones múltiples. Existen otras técnicas como la de Scheffé, Newman-Keuls, Duncan, Gabriel, etc y el usar una u otra puede depender únicamente del programa estadístico de que dispongamos. Pero esa es otra historia…

Las rarezas de los pueblos pequeños

Recuerdo cuando yo era pequeño e iba al colegio que casi todo el mundo tenía un pueblo al que irse durante las vacaciones. Claro que eran otros tiempos y la mayor parte de los niños eran hijos de emigrados recientemente a la ciudad, así que casi todo el mundo tenía “su pueblo”. Ahora la cosa es diferente. La mayoría de los niños de los colegios son de la ciudad donde viven, así que está casi mal visto ser “de pueblo”.

Sin embargo, los pueblos tienen muchas cosas interesantes. Suelen ser, por ejemplo, lugares más tranquilos y donde se lleva una vida más sana. Pero, aunque poca gente lo sabe, los pueblos se ven acechados por el azar. Los pueblos son presa fácil de una cosa llamada ley de los pequeños números. ¿Sabéis en qué consiste?. Trataremos de explicarlo con un ejemplo.

Cuando yo era residente había un pueblo, cuyo nombre no voy a decir para no ofender a nadie, del que venían casi todos los traslados de enfermedades raras. Ignorantes de nosotros, llegamos incluso a especular con la posibilidad de que la abundante pizarra del lugar fuese radiactiva y tuviese la culpa de que los habitantes de este pueblo tuviesen aparentemente una incidencia tan alta de patología tan extraña. Sin embargo, la explicación es mucho más sencilla y no hace falta recurrir a ninguna teoría conspiratoria. La culpa es de los pequeños números.

Vamos a suponer que el riesgo de padecer fildulastrosis es del uno por mil (prevalencia Pv = 0,001). Como todos sabemos, esta enfermedad genética se debe a una mutación que se produce totalmente al azar, por lo que presentar o no la enfermedad puede asumirse como un suceso de Bernouilli que sigue una distribución de probabilidad binomial.

Según la prevalencia que hemos elegido, si vamos recorriendo pueblos esperaremos encontrar un caso de fildulastrosis por cada 1.000 habitantes. Si llegamos a un pueblo con 5.000 habitantes y tiene solo un caso en lugar de cinco, ¿qué diríamos?. Pues seguro que pensaríamos que nos encontramos ante uno más de los beneficios de la vida del campo, mucho más sana, sin estrés y en contacto con la naturaleza.

¿Y si llegamos a uno todavía más pequeño, de 1.000 habitantes y vemos que hay cuatro enfermos?. Siguiendo un razonamiento tan estúpido como el anterior, diríamos que es sin duda un efecto de la vida en el campo, con menos controles sanitarios y en contacto con animales de granja y demás guarrerías de la naturaleza.

Pero en los dos casos estaríamos equivocados. El vivir en el campo no tiene culpa de que haya más o menos enfermos. Vamos a ver qué pasa con estos pueblos.

Si hay 1.000 habitantes, lo esperado es que haya un caso de fildulastrosis (Pv=0,001). De hecho, si utilizamos una calculadora de probabilidad binomial, la probabilidad de que haya al menos un enfermo es del 63%. Pero si jugamos un poco con la calculadora, podemos ver que la probabilidad de que haya dos o más es del 26%, de que haya tres o más del 8% y de que haya cuatro o más un 2%. Como veis, la prevalencia se triplica en uno de cada cuatro pueblos de 1.000 habitantes solo por efecto del azar. Pensemos ahora que el pueblo tiene 10.000 habitantes. El número de casos esperados es de 10 (con una probabilidad del 54%). Sin embargo, la probabilidad de que haya al menos 20 casos cae a un 0,3% y de que haya al menos 30 se aproxima a cero. Quiere esto decir que el azar es mucho más caprichoso con los pueblos pequeños. Las muestras grandes son siempre más precisas y es más difícil que encontremos valores extremos por efecto del azar.

¿Qué pasa con el otro ejemplo?. Ocurre lo mismo: la muestra pequeña es más imprecisa y más susceptible a la desviación hacia valores extremos por mero azar. Como el primer pueblo tiene 5.000 habitantes, esperaremos encontrar por lo menos cinco casos de fildulastrosis (probabilidad del 61%). Si volvemos a utilizar la calculadora, veremos que la probabilidad de que haya cuatro o menos es del 44%, de que haya tres o menos del 26% y de que haya dos o menos del 12%. Quiere decir que en uno de cada ocho pueblos de 5.000 habitantes, la prevalencia, por puro azar, bajará hasta 0,0004. ¿Qué pasaría con un pueblo más grande, digamos de 10.000 habitantes?. Pues que esperaríamos 10 casos o menos con una probabilidad del 58%, pero la probabilidad de que la prevalencia baje a 0,0004 (cuatro casos o menos) cae hasta un 3%. Y si hacéis el cálculo para una ciudad de 100.000 habitantes, veréis que la probabilidad de que la prevalencia baje a la mitad es prácticamente cero.

La ley de los pequeños números se cumple en ambos sentidos. Ya no tendremos que volver a dar ninguna explicación absurda cuando veamos una ciudad pequeña con una prevalencia anormalmente alta o baja de una enfermedad conocida. Sabemos que es capricho del azar y de su ley de los pequeños números.

Y aquí terminamos por hoy. Espero que nadie se haya ido a Google a buscar qué es la fildulastrosis, pero si alguien lo ha encontrado, que me lo explique. El ejemplo que hemos puesto es sencillo para poder demostrar más fácilmente el asunto de la imprecisión de las muestras pequeñas. En la vida real probablemente la aparición de ciertas enfermedades pueda condicionar un mayor riesgo de enfermar en los familiares, lo cual podría exagerar todavía más el efecto que hemos mostrado y favorecer la aparición de valores más extremos. Pero esa es otra historia…