¿Rioja o Ribera?

Print Friendly, PDF & Email

Estadística frecuentista vs bayesiana

Este es uno de los debates típicos que uno puede mantener con un cuñado durante una cena familiar: si el vino de Ribera es mejor que el de Rioja, o viceversa. Al final, como siempre, tendrá (o querrá tener) razón el cuñado, lo que no impedirá que nosotros nos empeñemos en llevarle la contraria. Eso sí, deberemos plantearle buenos argumentos para no caer en el error, en mi humilde opinión, en que caen algunos al participar en otro debate clásico, este del campo menos lúdico de la epidemiología: ¿estadística frecuentista vs bayesiana?

Y es que estos son los dos abordajes que podemos utilizar a la hora de enfrentarnos con un problema de investigación.

Unos conceptos previos

La estadística frecuentista, la más conocida y a la que estamos más acostumbrados, es la que se desarrolla según los conceptos clásicos de probabilidad y contraste de hipótesis. Así, se trata de llegar a una conclusión basándose en el nivel de significación estadística y de la aceptación o rechazo de una hipótesis de trabajo, siempre dentro del marco del estudio que se esté realizando. Esta metodología obliga a estabilizar los parámetros de decisión a priori, lo que evita subjetividades respecto a los mismos.

El otro enfoque para resolver los problemas es el de la estadística bayesiana, cada vez más de moda y que, como su nombre indica, se basa en el concepto probabilístico del teorema de Bayes. Su característica diferenciadora es que incorpora información externa al estudio que se está realizando, de forma que la probabilidad de un determinado suceso puede verse modificada por la información previa de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se utiliza para establecer una probabilidad a posteriori que nos permita realizar la inferencia y llegar a una conclusión sobre el problema que estemos estudiando.

Esta es otra de las diferencias entre los dos abordajes: mientras que la estadística frecuentista evita la subjetividad, la bayesiana introduce una definición subjetiva (que no caprichosa) de la probabilidad, basada en la convicción del investigador, para emitir juicios sobre una hipótesis.

En realidad, la estadística bayesiana no es nueva. La teoría de la probabilidad de Thomas Bayes se publicó en 1763, pero experimenta un resurgir a partir del último tercio del pasado siglo XX. Y como suele ocurrir en estos casos en que hay dos alternativas, aparecen partidarios y detractores de ambos métodos, que se emplean a fondo para demostrar las bondades de su método de preferencia, a veces buscando más las debilidades del contrario que las fortalezas propias.

Y de esto es de los que vamos a hablar en esta entrada, de algunos argumentos que los bayesianos esgrimen en alguna ocasión que, otra vez en mi humilde opinión, se aprovechan más de un mal uso de la estadística frecuentista por muchos autores, que de defectos intrínsecos de esta metodología.

Un poco de historia

Comenzaremos con un poco de historia.

La historia del contraste de hipótesis comienza allá por los años 20 del siglo pasado, cuando el gran Ronald Fisher propuso valorar la hipótesis de trabajo (de ausencia de efecto) a través de una observación concreta y la probabilidad de observar un valor mayor o igual al encontrado. Esta probabilidad es el valor p, tan sacralizado y tan malinterpretado, que no significa más que eso: la probabilidad de encontrar un valor igual o más extremo que el encontrado si la hipótesis de trabajo fuese cierta.

En resumen, la p que propuso Fisher no es, ni más ni menos, que una medida de la discrepancia que podía existir entre los datos encontrados y la hipótesis de trabajo planteada, la hipótesis nula (H0).

Casi una década después se introduce el concepto de hipótesis alternativa (H1), que no existía en el planteamiento original de Fisher, y el razonamiento se modifica en función de dos tasas de error de falsos positivos y negativos:

  1. Error alfa (error de tipo 1): probabilidad de rechazar la hipótesis nula cuando, en realidad, es cierta. Sería el falso positivo: creemos detectar un efecto que, en realidad, no existe.
  2. Error beta (error de tipo 2): es la probabilidad de aceptar la hipótesis nula cuando, en realidad, es falsa. Es el falso negativo: fracasamos en detectar un efecto que, en realidad, existe.

Así, fijamos un valor máximo para el que nos parece el peor de los escenarios, que es el detectar un efecto falso, y escogemos un valor “pequeño”. ¿Cuánto es pequeño? Pues, por convenio, 0,05 (a veces, 0,01). Pero, repito, es un valor elegido por convenio (y hay quien dice que caprichoso, porque el 5% recuerda el número de los dedos de la mano, que suelen ser 5).

De este modo, si p < 0,05, rechazamos H0 en favor de H1. De lo contrario, nos quedamos con H0, la hipótesis de no efecto. Es importante destacar que solo podemos rechazar H0, nunca demostrarla de forma positiva. Podemos demostrar el efecto, pero no su ausencia.

Todo lo dicho hasta ahora parece sencillo de comprender: el método frecuentista trata de cuantificar el nivel de incertidumbre de nuestra estimación para tratar de extraer una conclusión de los resultados. El problema es que la p, que no es más que una forma de cuantificar esa incertidumbre, se sacraliza y malinterpreta con excesiva frecuencia, lo que es aprovechado (si se me permite la expresión) por los detractores del método para intentar poner en evidencia sus debilidades.

Uno de los grandes defectos que se atribuyen al método frecuentista es la dependencia que tiene el valor de p del tamaño de la muestra. En efecto, el valor de la p puede ser el mismo con un tamaño de efecto pequeño en una muestra grande que con un tamaño de efecto grande en una muestra pequeña. Y esto es más importante de lo que pueda parecer en un primer momento, ya que el valor que nos va a permitir llegar a una conclusión va a depender de una decisión exógena al problema que estamos examinando: el tamaño de muestra elegida.

Aquí estaría la ventaja del método bayesiano, en el que muestras más grandes servirían para proporcionar cada vez más información sobre el fenómeno de estudio. Pero yo pienso que este argumento se sustenta sobre una mala comprensión sobre lo que es una muestra adecuada. Estoy convencido, más no siempre es mejor.

Comenzamos con el debate

Ya otro grande, David Sackett, dijo que “las muestras demasiado pequeñas pueden servir para no probar nada; las muestras demasiado grandes pueden servir para no probar nada”. El problema es que, en mi opinión, una muestra no es ni grande ni pequeña, sino suficiente o insuficiente para demostrar la existencia (o no) de un tamaño de efecto que se considere clínicamente importante.

Y esta es la clave del asunto. Cuando queremos estudiar el efecto de una intervención debemos, a priori, definir qué tamaño de efecto queremos detectar y calcular el tamaño muestral necesario para poder hacerlo, siempre que el efecto exista (algo que deseamos cuando planteamos el experimento, pero que desconocemos a priori). Cuando hacemos un ensayo clínico estamos gastando tiempo y dinero, además de sometiendo a los participantes a un riesgo potencial, por lo que es importante incluir solo a aquellos necesarios para tratar de probar el efecto clínicamente importante. Incluir los participantes necesarios para llegar a la ansiada p<0,05, además de poco económico y nada ético, demuestra un desconocimiento sobre el verdadero significado del valor de p y del tamaño muestral.

Esta mala interpretación del valor de p es también la causa de que muchos autores que no alcanzan la deseada significación estadística se permitan afirmar que con un tamaño muestral mayor lo habrían logrado. Y tienen razón, hubiesen alcanzado la deseada p<0,05, pero vuelven a obviar la importancia de la significación clínica frente a la significación estadística.

Cuando se calcula, a priori, el tamaño de la muestra para detectar el efecto clínicamente importante, se calcula también la potencia del estudio, que es la probabilidad de detectar el efecto si este, en realidad, existe. Si la potencia es superior al 80-90%, los valores admitidos por convenio, no parece correcto decir que no tienes muestra suficiente. Y, claro está, si no has calculado antes la potencia del estudio, deberías hacerlo antes de afirmar que no tienes resultados por falta de muestra.

Otro de los argumentos en contra del método frecuentista y a favor del bayesiano dice que el contraste de hipótesis es un proceso de decisión dicotómica, en el cual se acepta o rechaza una hipótesis como el que rechaza o acepta una invitación para la boda de un primo lejano que hace años que no ve.

Pues bien, si antes se olvidaban de la significación clínica, los que afirman este hecho se olvidan de nuestros queridos intervalos de confianza. Los resultados de un estudio no pueden interpretarse únicamente en base al valor de p. Debemos fijarnos en los intervalos de confianza, que nos informan de la precisión del resultado y de los valores posibles que puede tener el efecto observado y que no podemos concretar más por el efecto del azar. Como ya vimos en una entrada anterior, el análisis de los intervalos de confianza puede darnos información importante desde el punto de vista clínico, a veces, aunque la p no sea estadísticamente significativa.

Más argumentos

Por último, dicen algunos detractores del método frecuentista que el contraste de hipótesis adopta decisiones sin considerar la información externa al experimento. Una vez más, una mala interpretación del valor de p.

Como ya contamos en una entrada anterior un valor de p<0,05 no significa que H0 sea falsa, ni que el estudio sea más fiable, ni que el resultado sea importante (aunque la p tenga seis ceros). Pero, lo más importante para lo que estamos discutiendo ahora, es falso que el valor de p represente la probabilidad de que H0 sea falsa (la probabilidad de que el efecto sea real).

Una vez que nuestros resultados nos permiten afirmar, con un pequeño margen de error, que el efecto detectado es real y no aleatorio (dicho de otra forma, cuando la p es estadísticamente significativa), podemos calcular la probabilidad de que el efecto sea “real”. Y para ello, ¡Oh, sorpresa! tendremos que calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador en base a su conocimiento o a datos previos disponibles (lo cual no deja de ser un enfoque bayesiano).

Como podéis ver, la valoración de la credibilidad o verosimilitud de la hipótesis, una de las características diferenciadoras del enfoque bayesiano, puede también emplearse si utilizamos métodos frecuentistas.

Nos vamos…

Y aquí lo vamos a ir dejando por hoy. Pero antes de terminar me gustaría hacer un par de consideraciones.

La primera, en España tenemos muchos vinos estupendos por toda nuestra geografía, no solo Ribera o Rioja. Que nadie se me ofenda, he elegido estos dos porque suelen ser los que te piden los cuñados cuando vienen a comer a casa.

La segunda, no me malinterpretéis si os ha podido parecer que soy defensor de la estadística frecuentista frente a la bayesiana. Lo mismo que cuando voy al supermercado me siento contento de poder comprar vino de varias denominaciones de origen, en metodología de investigación me parece muy bueno tener diferentes formas de abordar un problema. Si quiero saber si mi equipo va a ganar un partido, no parece muy práctico repetir el partido 200 veces para ver qué media de resultados sale. Igual sería mejor tratar de hacer una inferencia teniendo en cuenta los resultados previos.

Y esto es todo. No hemos entrado en profundidad en lo que hemos comentado al final sobre la probabilidad real del efecto, mezclando de alguna manera ambos abordajes, frecuentista y bayesiano. La forma más sencilla, como ya vimos en una entrada previa, es utilizar un nomograma de Held. Pero esa es otra historia…

Yo soy Espartaco

Print Friendly, PDF & Email

Me encontraba yo pensando en el tamaño del efecto en diferencias de medias y cómo saber cuándo ese efecto es realmente grande y, por aquello de la asociación de ideas, me ha venido a la cabeza alguien grande que, tristemente, nos ha dejado recientemente. Me estoy refiriendo a Kirk Douglas, ese pedazo de actor que siempre recordaré por sus papeles como vikingo, como Van Gogh o como Espartaco, en la famosa escena de la película en que todos los esclavos, al estilo de nuestro español Fuenteovejuna, se levantan y proclaman ser Espartaco para que no puedan hacerle nada al verdadero (o para que se los fumiguen a todos por igual, mucho más típico del modus operandi de los romanos de aquel tiempo).

No me diréis que el tío no era grande. Pero, ¿cuánto de grande si lo comparamos con otros? ¿Cómo podemos medirlo? Está claro que no por el número de Oscars, ya que eso solo serviría para medir la miopía prolongada de los llamados académicos del cine, que tardaron lo suyo hasta que le concedieron el premio honorífico por toda su carrera. No es nada fácil encontrar un parámetro que nos defina la grandeza de un personaje como Issur Danielovitch Demsky, que así es como se llamaba el hijo del trapero antes de convertirse en leyenda.

Nosotros lo tenemos más fácil para cuantificar el tamaño del efecto en nuestros estudios, aunque la verdad es que los investigadores suelen estar más interesados en contarnos la significación estadística que en el tamaño del efecto. Es tan poco habitual calcularlo que, incluso, muchos paquetes estadísticos olvidan contar con rutinas para poder obtenerlo. Nosotros vamos a centrarnos hoy en la forma de medir el tamaño del efecto en diferencias de medias.

Imaginemos que queremos hacer un ensayo para comparar el efecto de un nuevo tratamiento frente al placebo y que vamos a medir el resultado con una variable cuantitativa X. Lo que haremos es calcular la media de efecto entre participantes del grupo experimental o de intervención y la compararemos con la media de los participantes del grupo control. Así, el tamaño del efecto de la intervención respecto al placebo se verá representado por la magnitud de la diferencia entre la media en el grupo experimental y la del grupo control:d= \bar{x}_{e}-\bar{x}_{c}Sin embargo, aunque es lo más sencillo de calcular, este valor no nos sirve para hacernos una idea del tamaño del efecto, ya que su magnitud va a depender de varios factores, como la unidad de medida de la variable. Pensemos cómo cambian las diferencias si una media es el doble de la otra según valgan 1 y 2 o 0,001 y 0,002. Para que esta diferencia pueda sernos útil es necesario estandarizarla, así que un señor llamado Gene Glass pensó que podía hacerlo dividiéndola por la desviación estándar del grupo control. Obtuvo así la conocida delta de Glass, que se calcula según la siguiente fórmula:\delta = \frac{\bar{x}_{e}-\bar{x}_{c}}{S_{s}}Ahora bien, como lo que queremos es hacer una estimación de cuánto valdría el valor de delta en la población, deberemos calcular la desviación estándar utilizando n-1 en el denominador en lugar de n, ya que sabemos que esta cuasivarianza es un mejor estimador del valor poblacional de la desviación:S_{c}=\sqrt{\frac{\sum_{i=1}^{n_{c}}(x_{ic}-\bar{x}_{c})}{n_{c}-1}}Pero no os dejéis impresionar por delta, no es más que una puntuación Z (las que se obtienen restando el valor menos su media y dividiéndolo por la desviación estándar): cada unidad del valor de delta equivale a una desviación estándar, por lo que representa la diferencia estandarizada del efecto que se produce entre los dos grupos por efecto de la intervención.

Este valor nos permite estimar el porcentaje de superioridad del efecto calculando el área bajo la curva de la normal estándar N(0,1) para un valor de delta (equivale a la desviación estándar) determinado. Por ejemplo, podemos calcular el área que corresponde a un valor de delta = 1,3. Nada más sencillo que utilizar una tabla de valores de la distribución normal estándar o, incluso mejor, la función pnorm() de R, que nos devuelve el valor 0,90. Esto quiere decir que el efecto en el grupo de intervención supera en un 90% el efecto en el grupo control.

El problema de la delta de Glass es que la diferencia de medias depende de la variabilidad entre los dos grupos, lo que hace que sea sensible a estas diferencias de varianza. Si las varianzas de los dos grupos son muy diferentes, el valor de delta puede resultar sesgado. Por eso un tal Larry Vernon Hedges quiso contribuir con su propia letra a este particular abecedario y decidió hacer el cálculo de Glass de forma similar, pero utilizando una varianza unificada que no asuma la igualdad de las mismas, según la fórmula siguiente:S_{u}=\sqrt{\frac{(n_{e}-1)S_{e}^{2}+(n_{c}-1)S_{c}^{2}}{n_{e}+n_{c}-2}}Si sustituimos la varianza del grupo control de la fórmula de la delta de Glass por esta varianza unificada obtendremos la denominada g de Hedges. La ventaja de utilizar esta desviación estándar unificada es que tiene en cuenta las varianzas y los tamaños de los dos grupos, por lo que la g tiene menos riesgo de sesgo que la delta cuando no podemos asumir igualdad de varianzas entre los dos grupos.

De todas formas, tanto la delta como la g tienen un sesgo positivo, lo que quiere decir que tienden a sobreestimar el tamaño del efecto. Para evitar esto, Hedges modificó el cálculo de su parámetro para poder obtener así una g ajustada, según la fórmula siguiente:g_{a}=g\left ( 1-\frac{3}{4gl-9} \right )donde gl son los grados de libertad, que se calculan como ne+nc.

Esta corrección es más necesaria con muestras pequeñas (pocos grados de libertad). Es lógico, si miramos la fórmula, a más grados de libertad, menos necesario será corregir el sesgo.

Hasta ahora hemos tratado de solucionar el problema de calcular un estimador del tamaño del efecto que no esté sesgado por la falta de igualdad de varianzas. El asunto es que, en el rígido y controlado mundo de los ensayos clínicos, lo habitual es que podamos asumir la igualdad de varianzas entre los grupos de las dos ramas del estudio. Podríamos pensar, pues, que si esto se cumple no sería necesario recurrir a los artificios del n-1.

Pues esto mismo pensó Jacob Cohen, así que ideó su propio parámetro, la d de Cohen. Esta d de Cohen es parecida a la g de Hedges, pero todavía más sensible a la desigualdad de varianzas, por lo que solo la usaremos cuando podamos asumir la igualdad de varianzas entre los dos grupos. Su cálculo es idéntico al de la g de Hedges, pero empleando n en lugar de n-1 para obtener la varianza unificada.

Para andar por casa, podemos decir que el tamaño del efecto es pequeño para d=0,2, medio para d=0,5, grande para d=0,8 y muy grande para d=1,20. Además, podemos establecer una relación entre d y el coeficiente de correlación de Pearson (r), que también es una medida muy utilizada para estimar el tamaño del efecto.

El coeficiente de correlación nos mide la relación entre una variable independiente binaria (intervención o control) y la variable dependiente numérica (nuestra X). La gran ventaja de esta medida es que es más sencilla de interpretar que los parámetros que hemos visto hasta ahora, que funcionan todos como puntuaciones Z estandarizadas. Ya sabemos que r puede valer de -1 a 1 y el significado de estos valores.

r=\frac{d}{\sqrt{d^{2}+\left ( \frac{1}{pq} \right )}}

Así, si queréis calcular r a partir de d, no tenéis más que aplicar la siguiente fórmula:siendo p y q las proporciones de sujetos de los grupos experimental y control (p=ne/n y q=nc/n). En general, cuanto mayor tamaño de efecto, mayor r y viceversa (aunque hay que tener en cuenta que r también es menor al aumentar la diferencia entre p y q). De todas formas, el factor que más condiciona el valor de r es el valor de d.

Y con esto vamos a terminar por hoy. No creáis que hemos tratado todas las medidas de esta familia. Hay cerca de un centenar de parámetros para estimar el tamaño del efecto, como el coeficiente de determinación, la eta-cuadrado, la ji-cuadrado, etc., incluso otras que inventó el propio Cohen (no satisfecho solo con la d), como la f-cuadrado o la q de Cohen. Pero esa es otra historia…

Cuando nada malo pasa, ¿va todo bien?

Print Friendly, PDF & Email

Tengo un cuñado que cada vez tiene más miedo a subirse a un avión. Es capaz de hacer viajes por carretera durante varios días seguidos con tal de no despegarse del suelo. Pero resulta que, el pobrecillo, no tiene más remedio que hacer un viaje transcontinental y no le queda otra que tomar un avión para hacer el desplazamiento.

Eso sí, mi cuñado, además de miedoso, es una persona ocurrente. Se ha dedicado a contar el número de viajes de las diferentes compañías aéreas y el número de accidentes que ha tenido cada una para poder calcular la probabilidad de tener un percance con cada una de ellas y volar con la más segura. El asunto es muy sencillo si recordamos aquello de probabilidad igual a casos favorables dividido por casos posibles.

Además, está feliz porque hay una compañía que ha hecho 1500 vuelos y nunca ha tenido ningún accidente, luego la probabilidad de tener un accidente volando en sus aviones será, según mi cuñado, de 0/1500 = 0. Se ha quedado tan tranquilo y, casi, hasta se le ha quitado el miedo. Matemáticamente es prácticamente seguro que no le vaya a pasar nada. ¿Qué pensáis de mi cuñado?

Muchos de vosotros ya estaréis pensando que utilizar a los cuñados para estos ejemplos tiene estos problemas. Todos sabemos cómo son los cuñados… Pero no seáis injustos con ellos. Como dice el famoso humorista Joaquín Reyes, “cuñados somos todos”, así que no os paséis de la raya. De lo que no hay duda, en eso estaremos todos de acuerdo, es de que mi cuñado se equivoca: el que no haya habido ningún percance en los 1500 vuelos no da seguridad de que no se caiga el siguiente. Dicho de otro modo, aunque el numerador de la proporción sea cero, si hacemos una estimación del riesgo real sería incorrecto quedarnos con el cero como resultado.

Esta situación se presenta con cierta frecuencia en los estudios de investigación de Biomedicina. Para dejar tranquilas a las compañías aéreas y a los aerofóbicos, pensad que tenemos un nuevo fármaco con el que queremos prevenir esa terrible enfermedad que es la fildulastrosis. Tomamos 150 personas sanas y les damos el antifildulín durante 1 año y, al cabo de este periodo, no detectamos ningún nuevo caso de enfermedad. ¿Podemos concluir entonces que el tratamiento previene con seguridad absoluta el desarrollo de la enfermedad? Obviamente, no. Pensemos un poco.

Hacer inferencias sobre probabilidades cuando el numerador de la proporción es cero puede resultar algo truculento, ya que tendemos a pensar que la no ocurrencia de eventos es algo cualitativamente diferente de la ocurrencia de uno, pocos o muchos eventos, y esto no es realmente así. Un numerador igual a cero no quiere decir que el riesgo sea cero, así como tampoco nos impide hacer inferencias acerca del tamaño del riesgo, ya que podemos aplicar los mismos principios estadísticos que a los numeradores distintos de cero.

Volviendo a nuestro ejemplo, supongamos que la incidencia de fildulastrosis en la población general es de 3 casos por cada 2000 personas al año (1,5 por mil, 0,15% o 0,0015). ¿Podemos inferir con nuestro experimento si el tomar antifildulín aumenta, disminuye o no modifica el riesgo de fildulastrosis? Siguiendo la conocida frase, sí, podemos.

Vamos a seguir nuestra costumbre de considerar la hipótesis nula de igualdad de efecto, de forma que el riesgo de enfermedad no se modifique por el nuevo tratamiento. Así, el riesgo de cada uno de los 150 participantes de enfermar a lo largo del estudio será de 0,0015. Dicho de otro modo, el riesgo de no enfermar será de 1-0,0015 = 0,9985. ¿Cuál será la probabilidad de que no enferme ninguno durante el año del estudio? Como son 150 sucesos independientes, la probabilidad de que 150 sujetos no enfermen será de 0,9985150 = 0,8. Vemos, pues, que aunque el riesgo sea el mismo que el de la población general, con este número de pacientes tenemos un 80% de probabilidades de no detectar ningún evento (fildulastrosis) durante el estudio, así que sería más sorprendente encontrar algún enfermo que no el hecho de no tener ninguno. Pero lo más sorprendente es que estamos, así, dando la probabilidad de que no tengamos ningún enfermo en nuestra muestra: que no haya ningún enfermo, como piensa mi cuñado, no tiene una probabilidad de 0 (0/150), ¡sino del 80%!

Y lo peor es que, visto este resultado, el pesimismo nos invade: es posible, incluso, que el riesgo de enfermedad con el nuevo fármaco sea mayor y no estemos detectándolo. Supongamos que el riesgo con la medicación es del 1% (frente al 0,15% de la población general). El riesgo de que no enferme ninguno sería de (1-0,01)150 = 0,22. Incluso con un riesgo del 2%, el riesgo de que no enferme ninguno es de (1-0,02)150 = 0,048. Recordad que el 5% es el valor que solemos adoptar como límite “seguro” para rechazar la hipótesis nula sin cometer un error de tipo 1.

Llegados a este punto, podemos preguntarnos si estamos gafados y no hemos tenido la suerte de detectar casos de enfermedad cuando el riesgo es alto o, por el contrario, que no somos tan desgraciados y, en realidad, el riesgo debe ser bajo. Para aclararnos, podemos volver a nuestro límite de confianza habitual del 5% y ver con qué riesgo de enfermar con el tratamiento tenemos, al menos, un 5% de probabilidades de detectar algún enfermo:

– Riesgo de 1,5/1000: (1-0,0015)150 = 0,8.

– Riesgo de 1/1000: (1-0,001)150 = 0,86.

– Riesgo de 1/200: (1-0,005)150 = 0,47.

– Riesgo de 1/100: (1-0,01)150 = 0,22.

– Riesgo de 1/50: (1-0,02)150 = 0,048.

– Riesgo de 1/25: (1-0,04)150 = 0,002.

Como vemos en la serie anterior, nuestro rango de “seguridad” del 5% se alcanza cuando el riesgo está por debajo de 1/50 (2% o 0,02). Esto quiere decir que, con una probabilidad de equivocarnos de un 5%, el riesgo de presentar fildulastrosis tomando el antifuldulín es igual o menor de 2%. En otras palabras, el intervalo de confianza del 95% de nuestra estimación valdría de 0 a 0,02 (y no 0, si calculamos la probabilidad de una forma simplista).

Para evitar que nuestras recalentadas neuronas terminen por fundirse, vamos a ver una forma más sencilla de automatizar este proceso. Para ello empleamos la conocida como regla del 3. Si hacemos el estudio con n pacientes y ninguno presenta el evento, podemos afirmar que la probabilidad del evento no es cero, sino menor o igual a 3/n. En nuestro ejemplo, 3/150 = 0,02, la probabilidad que calculamos con el método laborioso de más arriba. A esta regla llegaremos tras resolver la ecuación que utilizamos con el método anterior:

(1 – riesgo máximo)n = 0,05

Primero, la reescribimos:

1 – riesgo máximo = 0,051/n

Si n es mayor de 30, 0,051/n se aproxima a (n-3)/n, que es lo mismo que 1-(3/n). De esta manera, podemos reescribir la ecuación como:

1- riesgo máximo = 1 – (3/n)

con lo que podemos resolver la ecuación y obtener la regla final:

Riesgo máximo = 3/n.

Habéis visto que hemos hecho la consideración de que n sea mayor de 30. Esto es debido a que, por debajo de 30, la regla tiende a sobreestimar el riesgo ligeramente, lo que tendremos que tener en cuenta si la usamos con muestras reducidas.

Y con esto vamos a ir dando fin a esta entrada con algunas consideraciones. La primera, y como es fácil de imaginar, los programas estadísticos calculan los intervalos de confianza del riesgo sin mayor esfuerzo aunque el numerador valga cero. De igual manera, puede hacerse también de forma manual y mucho más elegante recurriendo a la distribución de probabilidad de Poisson, aunque el resultado es similar al que se obtiene con la regla del 3.

La segunda, ¿qué pasa si el numerador no vale 0 pero es un número pequeño? ¿Puede aplicarse una regla similar? La respuesta, de nuevo, es sí. Aunque no existe una regla general, sí se han desarrollado extensiones de la regla para un número de eventos de hasta 4. Pero esa es otra historia…

Columnas, tartas y un italiano ilustre

Print Friendly, PDF & Email

Cuando uno lee el título de esta entrada puede preguntarse con qué estúpida ocurrencia voy a machacar hoy a la sufrida concurrencia, pero no temáis, lo único que vamos a hacer es poner en valor ese famoso aforismo que dice que una imagen vale más que mil palabras. ¿Os he aclarado algo? Supongo que no.

Como todos sabemos, la estadística descriptiva es aquella rama de la estadística que utilizamos habitualmente para obtener una primera aproximación a los resultados de nuestro estudio, una vez que lo hemos terminado.

Lo primero que hacemos es describir los datos, para lo cual realizamos tablas de frecuencias y utilizamos medidas diversas de centralización y dispersión. El problema con estos parámetros es que, aunque representan verdaderamente la esencia de los datos, a veces es difícil proporcionar con ellos una visión sintética y comprensiva. Es en estos casos en los que podemos recurrir a otro recurso, que no es otro que la representación gráfica de los resultados del estudio. Ya sabéis, una imagen vale más que mil palabras, o eso dicen.

Hay multitud de tipos de gráficos para ayudarnos a comprender mejor la representación de los datos, pero hoy nos vamos a limitar a aquellos que tienen que ver con las variables cualitativas o categóricas.

Recordad que las variables cualitativas representan atributos o categorías de la variable. Cuando la variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable “fumador” sería cualitativa nominal si tiene dos posibilidades: “sí” o “no”. Sin embargo, si la definimos como “ocasional”, “poco fumador”, “moderado” o “muy fumador”, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

El primer tipo de gráfico que vamos a considerar a la hora de representar una variable cualitativa es el gráfico de sectores, mucho más conocido como gráfico de tarta. Este consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizar la frecuencia absoluta de la categoría, según la siguiente regla de tres:

Frecuencia absoluta / Frecuencia total de datos = Grados del sector / 360°

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

% de la categoría / 100% = Grados del sector / 360°

Las fórmulas son muy sencillas, pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros. La instrucción en R es pie(), tal como podéis ver en la primera figura, en la que os muestro una distribución de niños con enfermedades exantemáticas y cómo se representaría el gráfico de sectores.El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras, del que hablaremos a continuación.

El diagrama de sectores será especialmente útil cuando haya pocas categorías de la variable. Si hay muchas, la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados, el gráfico perderá claridad y será más difícil de leer.

El segundo gráfico que vamos a ver es, ya lo hemos mencionado, el gráfico de barras, el óptimo para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es muy correcto hacer es usarlo para las variables cualitativas nominales.

El diagrama de barras es capaz de expresar la magnitud de las diferencias entre las categorías de la variable, pero ahí está, precisamente, su punto débil, ya que es fácilmente manipulable si modificamos las escalas de los ejes. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

Este gráfico también es sencillo de hacer con la mayor parte de los programas estadísticos y hojas de cálculo. La función en R es barplot(), como veis en la segunda figura, que representa la gravedad de una muestra de niños asmáticos.Con lo visto hasta ahora, algunos pensaréis que el título de esta entrada es un poco engañoso. En realidad, la cosa no va de columnas y tartas, sino de barras y sectores. Además, ¿quién es el italiano ilustre? Pues aquí sí que no engaño a nadie, porque el personaje fue las dos cosas, italiano e ilustre, y me estoy refiriendo a Vilfredo Federico Pareto.

Pareto fue un italiano que nació a mediados del siglo XIX en París. Esta pequeña contradicción se debe a que su padre estaba entonces exiliado en Francia por ser uno de los seguidores de Giuseppe Mazzini, que estaba entonces empeñado en la unificación italiana. De todas formas, Pareto vivió en Italia desde los 10 años de edad, convirtiéndose en un ingeniero con amplios conocimientos matemáticos y humanistas y que contribuyó de manera decisiva al desarrollo de la microeconomía. Hablaba y escribía con fluidez en francés, inglés, italiano, latín y griego, y se hizo famoso por multitud de contribuciones como la distribución de Pareto, la eficiencia de Pareto, el índice de Pareto y el principio de Pareto. Para representar este último inventó el diagrama de Pareto, que es el que le trae hoy aquí entre nosotros.

El diagrama de Pareto (también conocido en economía como curva cerrada o distribución A-B-C) organiza los datos en orden descendente de izquierda a derecha, representados por barras, asignando así un orden de prioridades. Además, el diagrama incorpora una línea curva que representa la frecuencia acumulada de las categorías de la variable. Esto permitía inicialmente explicar el principio de Pareto, que viene a decir que hay muchos problemas sin importancia frente a unos pocos que sí son importantes, con lo que resultaba muy útil para la toma de decisiones.

Como es fácil de comprender, esta priorización hace que el diagrama de Pareto sea especialmente útil para representar variables cualitativas ordinales, superando al diagrama de barras al dar información sobre el porcentaje acumulado al ir agregando las categorías de la distribución de la variable. El cambio de pendiente de esta curva nos informa también del cambio en la concentración de datos, que depende de la variabilidad en que los sujetos de la muestra se reparten entre las distintas categorías.

Por desgracia, R no dispone de una función simple para representar diagramas de Pareto, pero podemos obtenerlo fácilmente con el script que os adjunto en la tercera figura, obteniendo el gráfico de la cuarta.

Y aquí lo vamos a dejar por hoy. Antes de decir adiós quiero avisaros que no debéis confundir las barras del diagrama de barras con las del histograma ya que, aunque pueden parecerse desde el punto de vista gráfico, ambos representan cosas muy diferentes. En un diagrama de barras solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá ya que, en realidad, encierra la distribución de frecuencias de la variable, por lo que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra. Pero esa es otra historia…

Como un reloj olvidado

Print Friendly, PDF & Email

No me gusta el final del verano. Empiezan los días con mal tiempo, me levanto totalmente de noche y anochece cada vez más temprano. Y, por si fuera poco, se aproxima el engorroso momento del cambio de hora.

Además de las molestias del cambio y del tedio de estar dos o tres días recordando la hora que es y la que podría ser de no haber cambiado, hay que proceder a cambiar un montón de relojes de forma manual. Y, por mucho que te esfuerces en cambiarlos todos, siempre te dejas alguno con la hora vieja. No te pasa con el reloj de la cocina, que miras siempre para saber cómo de rápido tienes que desayunar, o con el del coche, que te mira fijamente todas las mañanas. Pero seguro que hay alguno que no cambias. Incluso, alguna vez me ha pasado, que me doy cuenta cuando al siguiente cambio de hora veo que no lo necesita porque lo dejé sin cambiar en la vez anterior.

Estos relojes olvidados me recuerdan un poco a las variables categóricas o cualitativas.

Pensaréis que, una vez más, me he olvidado de tomar la pastilla esta mañana, pero no. Todo tiene su razonamiento. Cuando terminamos un estudio y tenemos ya los resultados, lo primero que hacemos es una descripción de los mismos para, después, pasar a hacer todo tipo de contrastes, si viene al caso.

Pues bien, las variables cualitativas siempre se menosprecian cuando aplicamos nuestros conocimientos de estadística descriptiva. Habitualmente nos limitamos a clasificarlas y hacer tablas de frecuencia con las que calcular algunos índices como su frecuencia relativa o acumulada, dar alguna medida representativa como la moda y poco más. Con su representación gráfica ya nos esforzamos un poco más, con diagramas de barras o de sectores, pictogramas y otros inventos parecidos. Y, por último, nos aplicamos un poco más cuando relacionamos dos variables cualitativas mediante una tabla de contingencia.

Sin embargo, nos olvidamos de la variabilidad, algo que nunca haríamos con una variable cuantitativa. Las variables cuantitativas son como ese reloj de la pared de la cocina que nos mira directamente a los ojos cada mañana y que no consiente que lo dejemos fuera de hora. Por eso, recurrimos a esos conceptos que entendemos tan bien como la media y la varianza o la desviación típica. Pero el que no conozcamos la forma de medir de forma objetiva la variabilidad de las variables cualitativas o categóricas, ya sean nominales u ordinales, no quiere decir que no exista. Para este fin, se han desarrollado diversos índices de diversidad, que algunos autores distinguen como índices de dispersión, variabilidad y disparidad. Vamos a ver algunos de ellos, cuyas fórmulas podéis ver en el recuadro adjunto, para que podáis disfrutar de la belleza del lenguaje matemático.

Los dos índices más conocidos y utilizados para medir la variabilidad o diversidad son el índice de Blau (o de Hirschman-Herfindal) y el índice de entropía (o de Teachman). Ambos tienen un significado muy similar y, de hecho, están correlacionados linealmente.

El índice de Blau cuantifica la probabilidad de que dos individuos tomados al azar de una población estén en diferentes categorías de una variable (siempre que el tamaño de la población sea infinito o el muestreo se realice con reemplazo). Su valor mínimo, cero, indicaría que todos los miembros están en la misma categoría, con lo que no habría variedad. Cuanto mayor sea su valor, más dispersos entre las diferentes categorías de la variable estarán los componentes del grupo. Este valor máximo se alcanza cuando los componentes se distribuyen de manera igual entre todas las categorías (sus frecuencias relativas son iguales). Su valor máximo sería (k-1)/k, con lo que es función de k (el número de categorías de la variable cualitativa) y no del tamaño de la población. Este valor tiende a 1 al aumentar el número de categorías (para decirlo de forma más correcta, cuando k tiende a infinito).

Veamos algunos ejemplos para aclararnos un poco. Si os fijáis en la fórmula del índice de Blau, el sumatorio de los cuadrados de las frecuencias relativas en una población totalmente homogénea valdrá 1, con lo que el índice valdrá 0. Solo habrá una categoría con frecuencia 1 (el 100%) y el resto con frecuencia cero.

Como hemos dicho, aunque los sujetos se distribuyan de forma similar en todas las categorías, el índice aumenta al aumentar el número de categorías. Por ejemplo, si hay cuatro categorías con una frecuencia de 0,25, el índice de Blau valdrá 0,75 (1 –  (4 x 0,252)). Si hay cinco categorías con una frecuencia de 0,2, el índice valdrá 0,8 (1 – (5 x 0,22). Y así sucesivamente.

Como ejemplo práctico, imaginad una enfermedad en la que hay diversidad desde el punto de vista genético. En una ciudad A tienen el genotipo 1 el 85% de los enfermos y el genotipo 2 el 15%. El índice de Blau valdrá 1 – (0,852 + 0,152) = 0,255. A la vista de este resultado podremos decir que, aunque no es homogénea, el grado de heterogeneidad no es muy alto.

Ahora imaginad una ciudad B con un 60% de genotipo 1, un 25% de genotipo 2 y un 15% de genotipo 3. El índice de Blau valdrá 1 – (0,62 x 0,252 x 0,152) = 0,555. Claramente, el grado de heterogeneidad es mayor entre los enfermos de la ciudad B que entre los de A. Los más listillos me diréis que eso ya se veía sin calcular el índice, pero tenéis que tener en cuenta que son ejemplos muy sencillos para no echar las bilis calculando. En los estudios de la vida real, más complejos, no suele ser tan evidente y, en cualquier caso, siempre es más objetivo cuantificar la medida que quedarnos con nuestra impresión subjetiva.

Este índice podría usarse también para comparar la diversidad de dos variables diferentes (siempre que tenga sentido hacerlo) pero, el hecho de que su valor máximo dependa del número de categorías de la variable, y no del tamaño de la muestra o de la población, cuestiona su utilidad para comparar la diversidad de variables con diferente número de categorías. Para evitar este problema el índice de Blau puede normalizarse dividiéndolo por su máximo, obteniéndose así el índice de variación cualitativa. Su significado es, lógicamente, el mismo que el del índice de Blau y su valor oscila entre 0 y 1. Así, podremos usar cualquiera de los dos si comparamos la diversidad de dos variables con el mismo número de categorías, pero será más correcto usar el índice de variación cualitativa si las variables tienen un número de categorías diferente.

El otro índice, algo menos famoso, es el índice de Teachman o índice de entropía, cuya fórmula también os adjunto. Muy brevemente diremos que su valor mínimo, que es cero, indica que no hay diferencias entre los componentes en la variable de interés (la población es homogénea). Su valor máximo puede estimarse como el valor negativo del logaritmo neperiano del inverso del número de categorías (-ln(1/k)) y se alcanza cuando todas las categorías tienen la misma frecuencia relativa (la entropía alcanza su valor máximo). Como veis, muy parecido al de Blau, que es mucho más sencillo de calcular que el de Teachman.

Para ir acabando esta entrada, el tercer índice del que os quiero hablar hoy nos indica, más que la variabilidad de la población, la dispersión que sus componentes tienen respecto al valor más frecuente. Esto puede medirse mediante la razón de variación, que indica el grado en que los valores observados no coinciden con el de la moda, que es la categoría más frecuente. Como con los anteriores, también os dejo la fórmula en el recuadro adjunto.

Para no desentonar con los anteriores, su valor mínimo también es cero y se obtiene cuando todos los casos coinciden con la moda. Cuanto más bajo el valor, menos dispersión. Cuanto más baja sea la frecuencia absoluta de la moda, más se aproximará a 1, el valor que indica máxima dispersión. Creo que este índice es muy sencillito, así que no le vamos a dedicar más atención.

Y hemos llegado al final. Espero que a partir de ahora prestemos más atención al análisis descriptivo de los resultados de las variables cualitativas. Claro que habría que completarlo con una descripción gráfica adecuada utilizando los archiconocidos diagramas de barras o de sectores (las tartas) y otros menos conocidos como los diagramas de Pareto. Pero esa es otra historia…

Idolatrada, pero incomprendida

Print Friendly, PDF & Email

La estadística se nos atraganta un poco a la mayoría de los que nos denominamos “clínicos”. Los conocimientos sobre el tema adquiridos durante nuestros años de formación hace tiempo que habitan en el mundo neblinoso del olvido. Recordamos vagamente términos como distribución de probabilidad, contraste de hipótesis, análisis de la varianza, regresión… Es por este motivo que siempre nos da un poco de aprensión cuando llegamos al apartado de métodos de los artículos científicos, en los que se detallan todas estas técnicas que, aunque nos resultan conocidas, no conocemos con la profundidad suficiente para interpretar correctamente sus resultados.

Menos mal que la Providencia nos ha puesto un salvavidas: nuestra querida e idolatrada p. ¿Quién no se habrá perdido con una descripción farragosa de métodos matemáticos para respirar, por fin, aliviado al encontrar el valor de p? Sobre todo, si la p es pequeña y tiene muchos ceros.

El problema con la p es que, aunque es unánimemente idolatrada, también es mayoritariamente incomprendida. Su valor es, con mucha frecuencia, malinterpretado. Y esto es así porque muchos albergamos ideas erróneas sobre lo que significa realmente el valor de p.

Vamos a intentar aclararlo.

Siempre que queremos saber algo sobre una variable, el efecto de una exposición, la comparación de dos tratamientos, etc., nos encontraremos con la ubicuidad del azar: está en todas partes y nunca podemos librarnos de él, aunque podemos intentar limitarlo y, desde luego, tratar de medir su efecto.

Pongamos un ejemplo para entenderlo mejor. Supongamos que hacemos un ensayo clínico para comparar el efecto de dos dietas, A y B, sobre la ganancia de peso en dos grupos de participantes. Simplificando, el resultado del ensayo tendrá una de las tres características: los de la dieta A ganan más peso, los de la dieta B ganan más peso, ambos grupos ganan igual peso (podría haber, incluso, una cuarta: los dos grupos pierden peso). En cualquier caso, siempre vamos a obtener un resultado diferente, aunque sea por azar (incluso en el supuesto de que las dos dietas sean iguales).

Imaginaos que los de la dieta A engordan 2 kg y los de la dieta B, 3 kg. ¿Se engorda más con la dieta B o la diferencia se debe al azar (muestras elegidas, variabilidad biológica, imprecisión de mediciones, etc.)? Aquí es donde entra nuestro contraste de hipótesis.

Cuando nosotros vamos a hacer el ensayo partimos de la hipótesis de igualdad, de no diferencia de efecto (se engorda igual con las dos dietas). Esto es lo que llamamos hipótesis nula (H0) que, repito para que quede claro, asumimos que es la cierta. Si la variable que estamos midiendo sigue una distribución de probabilidad conocida (normal, ji-cuadrado, t de Student, etc.), podemos calcular la probabilidad de presentarse cada uno de los valores de la distribución. En otras palabras, podemos calcular la probabilidad de obtener un resultado tan distinto de la igualdad como el que hemos obtenido, siempre bajo el supuesto de la H0.

Ese es el valor de p: la probabilidad de que la diferencia de resultado observada se deba al azar. Por convenio, si esa probabilidad es menor del 5% (0,05) nos parecerá poco probable que la diferencia se deba al azar y rechazaremos H0, la hipótesis de igualdad, aceptando la hipótesis alternativa (Ha) que, en este ejemplo, dirá que una dieta engorda más que la otra. Por otra parte, si la probabilidad es mayor del 5%, no nos sentiremos lo suficientemente seguros para afirmar que la diferencia no se debe a la casualidad, así que NO rechazamos H0 y nos quedamos con la hipótesis de igualdad: las dos dietas son similares.

Tened en cuenta que siempre nos movemos en el terreno de la probabilidad. Si la p es menor de 0,05 (estadísticamente significativa), rechazaremos H0, pero siempre con una probabilidad de cometer un error de tipo 1: dar por bueno un efecto que, en realidad, no existe (un falso positivo). Por otra parte, si p es mayor de 0,05, nos quedamos con H0 y decimos que no hay diferencia de efecto, pero siempre con una probabilidad de cometer un error de tipo 2: no detectar un efecto que, en realidad, existe (falso negativo).

Podemos ver, por tanto, que el valor de p es algo sencillo desde el punto de vista conceptual. Sin embargo, hay una serie de errores habituales sobre lo que representa o no representa el valor de p. Vamos a tratar de aclararlos.

Es falso que una p menor de 0,05 signifique que la hipótesis nula es falsa y una p mayor de 0,05 que la hipótesis nula es cierta. Como ya hemos mencionado, el abordaje es siempre probabilístico. La p < 0,05 solo quiere decir que, por convenio, es poco probable que H0 sea cierta, así que la rechazamos, aunque siempre con una pequeña probabilidad de equivocarnos. Por otra parte, si p > 0,05 tampoco se asegura que H0 sea cierta, ya que puede existir un efecto real y que el estudio no tenga potencia suficiente para detectarlo.

En este punto hay que recalcar un hecho: la hipótesis nula solo es falsable. Esto quiere decir que solo podemos rechazarla (con lo que nos quedamos con Ha, con una probabilidad de error), pero nunca podemos afirmar que es cierta. Si p > 0,05 no podremos rechazarla, así que nos mantendremos en el supuesto inicial de igualdad de efecto, que no podemos demostrar de una forma positiva.

Es falso que el valor de p tenga relación con la fiabilidad del estudio. Podemos pensar que las conclusiones del estudio serán más fiables cuanto menor sea el valor de p, pero tampoco es cierto. En realidad, el valor de p es la probabilidad de obtener un valor semejante por azar si repetimos el experimento en las mismas condiciones y no solo depende de que el efecto que queremos demostrar exista o no. Hay otros factores que pueden influir en la magnitud de la p: el tamaño de la muestra, el tamaño del efecto, la varianza de la variable medida, la distribución de probabilidad empleada, etc.

Es falso que el valor de p indique la importancia del resultado. Como ya hemos repetido varias veces, el valor de p solo es la probabilidad de que la diferencia observada se deba al azar. Una diferencia estadísticamente significativa no tiene obligatoriamente que ser clínicamente importante. La importancia clínica la establece el investigador y es posible encontrar resultados con una p muy pequeña que no sean importantes desde el punto de vista clínico y viceversa, valores no significativos que sean importantes.

Es falso que el valor de p represente la probabilidad de que la hipótesis nula sea cierta. Esta creencia hace que, a veces, busquemos el valor exacto de p y no nos conformemos con saber solo si es mayor o menor de 0,05. La culpa de este error de concepto la tiene una mala interpretación de la probabilidad condicional. A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados con nuestro ensayo. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados bajo el supuesto de que la hipótesis nula es cierta, o sea, P(resultados|H0).

Por tanto, si interpretamos que la probabilidad de que H0 sea cierta a la vista de nuestros resultados (P(H0|resultados)) es igual al valor de p (P(resultados|H0)) estaremos cayendo en una falacia inversa o falacia de la transposición de los condicionales.

En realidad, la probabilidad de que H0 sea cierta no depende solo de los resultados del estudio, sino que también se ve influida por la probabilidad previa que se estimase antes del estudio, que es una medida de la creencia subjetiva que refleja su plausibilidad, generalmente basada en estudios y conocimientos previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Existen métodos matemáticos para calcular esta probabilidad en función de su probabilidad basal y el valor de p, pero lo más sencillo es recurrir a una herramienta gráfica que es el nomograma de Held, que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos. Como ejemplo, hemos representado un estudio con un valor de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real. Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos, así, como la probabilidad posterior cambia según la probabilidad previa.

Y hasta aquí hemos llegado por hoy. Hemos visto cómo la p solo nos da una idea del papel que el azar ha podido tener en nuestros resultados y que, además, puede depender de otros factores, quizás el más importante el tamaño muestral. La conclusión es que, en muchas ocasiones, el valor de p es un parámetro que permite valorar de forma muy limitada la importancia de los resultados de un estudio. Para hacerlo mejor, es preferible recurrir al uso de los intervalos de confianza, que nos permitirán valorar la importancia clínica y la significación estadística. Pero esa es otra historia…

El detector de tramposos

Print Friendly, PDF & Email

Cuando pensamos en inventos e inventores, a la mayoría de nosotros nos viene a la cabeza el nombre de Thomas Alva Edison, conocido entre sus amigos como el mago de Menlo Park. Este señor creó más de mil inventos, de algunos de los cuales puede decirse que cambiaron el mundo. Entre ellos podemos nombrar la bombilla incandescente, el fonógrafo, el kinetoscopio, el polígrafo, el telégrafo cuádruplex, etc., etc., etc. Pero quizás su gran mérito no sea el de haber inventado todas estas cosas, sino el de aplicar métodos de producción en cadena y de trabajo en equipo al proceso de investigación, favoreciendo la difusión de sus inventos y la creación del primer laboratorio de investigación industrial.

Pero a pesar de toda su genialidad y excelencia, a Edison se le pasó inventar algo que habría tenido tanta utilidad como la bombilla: un detector de tramposos. La explicación de esta falta es doble: vivió entre los siglos XIX y XX y no se dedicaba a leer artículos sobre medicina. Si hubiese vivido en nuestro tiempo y hubiese tenido que leer literatura médica, no me cabe duda que el mago de Menlo Park se habría dado cuenta de la utilidad de este invento y se habría puesto las pilas (que, por cierto, no las inventó él, sino Alessandro Volta).

Y no es que yo esté hoy especialmente negativo, el problema es que, como ya dijo Altman hace más de 15 años, el material remitido a las revistas médicas es malo desde el punto de vista metodológico en un altísimo porcentaje de los casos. Es triste, pero el sitio más adecuado para guardar muchos de los trabajos que se publican es el cubo de la basura.

En la mayor parte de los casos la causa probablemente sea la ignorancia de los que escribimos. “Somos clínicos”, nos decimos, así que dejamos de lado los aspectos metodológicos, de los cuales tenemos una formación, en general, bastante deficiente. Para arreglarlo, las revistas mandan revisar nuestros trabajos a otros colegas, que andan más o menos como nosotros. “Somos clínicos”, se dicen, así que se comen todos nuestros errores.

Aunque esto es, de por sí, grave, puede tener remedio: estudiar. Pero es un hecho todavía más grave que, en ocasiones, estos errores pueden ser intencionados con el objetivo de inducir al lector a llegar a una determinada conclusión tras la lectura del trabajo. El remedio para este problema es hacer una lectura crítica del trabajo, prestando atención a la validez interna del estudio. En este sentido, quizás el aspecto más difícil de valorar para el clínico sin formación metodológica sea el relacionado con la estadística empleada para analizar los resultados del trabajo. Es aquí, sin ninguna duda, donde mejor se pueden aprovechar de nuestra ignorancia utilizando métodos que proporcionen resultados más vistosos, en lugar de los métodos adecuados.

Como sé que no vais a estar dispuestos a hacer un máster sobre bioestadística, en espera de que alguien invente el detector de tramposos, vamos a dar una serie de pistas para que el personal no experto pueda sospechar la existencia de estas trampas.

La primera puede parecer una obviedad, pero no lo es: ¿se ha utilizado algún método estadístico? Aunque es excepcionalmente raro, puede haber autores que no consideren utilizar ninguno. Recuerdo un congreso al que pude asistir en el que se exponían los valores de una variable a lo largo del estudio que, primero, subían y, después, bajaban, lo que permitía concluir que el resultado no era “muy allá”. Como es lógico y evidente, toda comparación debe hacerse con el adecuado contraste de hipótesis e indicarse su nivel de significación y la prueba estadística utilizada. En caso contrario, las conclusiones carecerán de validez alguna.

Un aspecto clave de cualquier estudio, especialmente en los de intervención, es el cálculo previo del tamaño muestral necesario. El investigador debe definir el efecto clínicamente importante que quiere ser capaz de detectar con su estudio y calcular a continuación qué tamaño muestral le proporcionará al estudio la potencia suficiente para demostrarlo. La muestra de un estudio no es grande o pequeña, sino suficiente o insuficiente. Si la muestra no es suficiente, puede no detectarse un efecto existente por falta de potencia (error de tipo 2). Por otro lado, una muestra mayor de lo necesario puede mostrar como estadísticamente significativo un efecto que no sea relevante desde el punto de vista clínico. Aquí hay dos trampas muy habituales. Primero, el del estudio que no alcanza significación y sus autores afirman que es por falta de potencia (por tamaño muestral insuficiente), pero no hacen ningún esfuerzo por calcular la potencia, que siempre puede hacerse a posteriori. En ese caso, podemos hacerlo nosotros usando programas de estadística o cualquiera de las calculadoras disponibles en internet, como la GRANMO. Segundo, se aumenta el tamaño muestral hasta que la diferencia observada sea significativa, encontrando la ansiada p < 0,05. Este caso es más sencillo: solo tenemos que valorar si el efecto encontrado es relevante desde el punto de vista clínico. Os aconsejo practicar y comparar los tamaños muestrales necesarios de los estudios con los que definen los autores. A lo mejor os lleváis alguna sorpresa.

Una vez seleccionados los participantes, un aspecto fundamental es el de la homogeneidad de los grupos basales. Esto es especialmente importante en el caso de los ensayos clínicos: si queremos estar seguros de que la diferencia de efecto observada entre los dos grupos se debe a la intervención, los dos grupos deben ser iguales en todo, menos en la intervención.

Para esto nos fijaremos en la clásica tabla I de la publicación del ensayo. Aquí tenemos que decir que, si hemos repartido los participantes al azar entre los dos grupos, cualquier diferencia entre ellos se deberá, sí o sí, al azar. No os dejéis engañar por las p, recordad que el tamaño muestral está calculado para la magnitud clínicamente importante de la variable principal, no para las características basales de los dos grupos. Si veis alguna diferencia y os parece clínicamente relevante, habrá que comprobar que los autores han tenido en cuenta su influencia sobre los resultados del estudio y han hecho el ajuste pertinente durante la fase de análisis.

El siguiente punto es el de la aleatorización. Esta es una parte fundamental de cualquier ensayo clínico, por lo que debe estar claramente definido cómo se hizo. Aquí os tengo que decir que el azar es caprichoso y tiene muchos vicios, pero raramente produce grupos de igual tamaño. Pensad un momento si tiráis una moneda 100 veces. Aunque la probabilidad de salir cara en cada lanzamiento sea del 50%, será muy raro que lanzando 100 veces saquéis exactamente 50 caras. Cuánto mayor sea el número de participantes, más sospechoso nos deberá parecer que los dos grupos sean iguales. Pero cuidado, esto solo vale para la aleatorización simple. Existen métodos de aleatorización en los que los grupos sí pueden quedar más equilibrados.

Otro punto caliente es el uso indebido que, a veces, puede hacerse con variables cualitativas. Aunque las variables cualitativas pueden codificarse con números, mucho cuidado con hacer operaciones aritméticas con ellos. Probablemente no tendrán ningún sentido. Otra trampa que podemos encontrarnos tiene que ver con el hecho de categorizar una variable continua. Pasar una variable continua a cualitativa suele llevar aparejada pérdida de información, así que debe tener un significado clínico claro. En caso contrario, podemos sospechar que la razón sea la búsqueda de una p < 0,05, siempre más fácil de conseguir con la variable cualitativa.

Entrando ya en el análisis de los datos, hay que comprobar que los autores han seguido el protocolo del estudio diseñado a priori. Desconfiad siempre de los estudios post hoc que no estaban planificados desde el comienzo. Si buscamos lo suficiente, siempre hallaremos un grupo que se comporta como a nosotros nos interesa. Como suele decirse, si torturas los datos lo suficiente, acabarán por confesar.

Otra conducta inaceptable es finalizar el estudio antes de tiempo por obtenerse buenos resultados. Una vez más, si la duración del seguimiento se ha establecido durante la fase de diseño como la idónea para detectar el efecto, esto debe respetarse. Cualquier violación del protocolo debe estar más que justificada. Lógicamente, es lógico terminar el estudio antes de tiempo por motivos de seguridad de los participantes, pero habrá que tener en cuenta cómo afecta este hecho en la valoración de los resultados.

Antes de realizar el análisis de los resultados, los autores de cualquier trabajo tienen que depurar sus datos, revisando la calidad y la integridad de los valores recogidos. En este sentido, uno de los aspectos a los que hay que prestar atención es al manejo de los datos extremos (los llamados outliers). Estos son los valores que se alejan mucho de los valores centrales de la distribución. En muchas ocasiones pueden deberse a errores en el cálculo, medición o transcripción del valor de la variable, pero también pueden ser valores reales que se deban a la especial idiosincrasia de la variable. El problema es que existe una tendencia a eliminarlos del análisis aún cuando no haya seguridad de que se deban a algún error. Lo correcto es tenerlos en cuenta al hacer el análisis y utilizar, si es necesario, métodos estadísticos robustos que permitan ajustar estas desviaciones.

Finalmente, el aspecto que nos puede costar más a los no muy expertos en estadística es saber si se ha empleado el método estadístico correcto. Un error frecuente es el empleo de pruebas paramétricas sin comprobar previamente si se cumplen los requisitos necesarios. Esto puede hacerse por ignorancia o para obtener la significación estadística, ya que las pruebas paramétricas son menos exigentes en este sentido. Para entendernos, la p será más pequeña que si empleamos la prueba equivalente no paramétrica.

También, con cierta frecuencia, se obvian otros requisitos para poder aplicar determinada prueba de contraste. Como ejemplo, para realizar una prueba de la t de Student o un ANOVA es necesario comprobar la homocedasticidad (una palabra muy fea que quiere decir que las varianzas son iguales), comprobación que se pasa por alto en muchos trabajos. Lo mismo ocurre con los modelos de regresión que, con frecuencia, no se acompañan del preceptivo diagnóstico del modelo que permite justificar su uso.

Otro asunto en el que puede haber trampa es el de las comparaciones múltiples. Por ejemplo, cuando el ANOVA da significativo nos dice que hay al menos dos medias que son diferentes, pero no cuáles, así que nos ponemos a compararlas dos a dos. El problema es que cuando hacemos comparaciones repetidas aumenta la probabilidad de error de tipo I, o sea, la probabilidad de encontrar diferencias significativas solo por azar. Esto puede permitir encontrar, aunque solo sea por casualidad, una p < 0,05, lo que viste mucho el estudio (sobre todo si has gastado mucho tiempo y/o dinero en hacerlo). En estos casos los autores deben emplear alguna de las correcciones disponibles (como la de Bonferroni, una de las más sencillas) para que el alfa global se mantenga en 0,05. El precio a pagar es sencillo: la p tiene que ser mucho más pequeña para ser significativa. Cuando veamos comparaciones múltiples sin corrección solo tendrá dos explicaciones: la ignorancia del que haya hecho el análisis o el intento de encontrar una significación que, probablemente, no soportaría la disminución del valor de p que conllevaría la corrección.

Otra víctima frecuente del mal uso de la estadística es el coeficiente de correlación de Pearson, que se utiliza para casi todo. La correlación, como tal, nos dice si dos variables están relacionadas, pero no nos dice nada sobre la causalidad de una variable para la producción de la otra. Otro mal uso es utilizar el coeficiente de correlación para comparar los resultados obtenidos por dos observadores, cuando probablemente lo que deba utilizarse en este caso es el coeficiente de correlación intraclase (para variables continuas) o el índice kappa (para cualitativas dicotómicas). Por último, también es incorrecto comparar dos métodos de medición (por ejemplo, glucemia capilar y venosa) mediante correlación o regresión lineal. Para estos casos lo correcto sería usar la regresión de Passing y Bablok.

Otra situación en la que una mente paranoica como la mía sospecharía es aquella en la que el método estadístico empleado no lo conocen ni los más listos del lugar. Siempre que haya una forma más conocida (y muchas veces más sencilla) de hacer el análisis, deberemos preguntarnos por qué han usado un método tan raro. En estos casos exigiremos a los autores que justifiquen su elección y que aporten una cita donde podamos revisar el método. En estadística hay que tratar de elegir la técnica correcta para cada ocasión y no aquella que nos proporcione el resultado más apetecible.

En cualquiera de los test de contraste anteriores, los autores suelen emplear un nivel de significación para p < 0,05, lo habitual, pero el contraste puede hacerse con una o con dos colas. Cuando hacemos un ensayo para probar un nuevo fármaco, lo que esperamos es que funcione mejor que el placebo o el fármaco con el que lo estemos comparando. Sin embargo, pueden ocurrir otras dos situaciones que no podemos desdeñar: que funcione igual o, incluso, que funcione peor. Un contraste bilateral (con dos colas) no asume la dirección del efecto, ya que calcula la probabilidad de obtener una diferencia igual o mayor que la observada, en las dos direcciones. Si el investigador está muy seguro de la dirección del efecto puede hacer un contraste unilateral (con una cola), midiendo la probabilidad del resultado en la dirección considerada. El problema es cuando lo hace por otra razón: la p del contraste bilateral es el doble de grande que la del unilateral, por lo que será más fácil conseguir significación estadística con el contraste unilateral. Lo que no es correcto es que este último sea el motivo para hacer un contraste unilateral. Lo correcto, salvo que haya razones bien justificadas, es hacer un contraste bilateral.

Para ir terminando esta entrada tan tramposa, diremos unas palabras sobre el uso de las medidas adecuadas para presentar los resultados. Hay muchas formas de maquillar la verdad sin llegar a mentir y, aunque en el fondo todas dicen lo mismo, la apariencia puede ser muy diferente según cómo lo digamos. El ejemplo más típico es el de usar medidas de riesgo relativas en lugar de medidas absolutas de impacto. Siempre que veamos un ensayo clínico, debemos exigir que nos presenten la reducción absoluta del riesgo y el número necesario a tratar (NNT). La reducción relativa del riesgo es un número mayor que la absoluta, por lo que parecerá que el impacto es mayor. Dado que las medidas absolutas son más fáciles de calcular y se obtienen de los mismos datos que la relativas, deberemos desconfiar si los autores no nos las ofrecen: quizás el efecto no sea tan importante como nos pretenden hacer ver.

Otro ejemplo es el uso de la odds ratio frente a los riesgos relativos (cuando pueden calcularse ambos). La odds ratio tiende a magnificar la asociación entre las variables, así que su uso no justificado también puede hacernos sospechar. Si podéis, calcular el riesgo relativo y comparad las dos medidas.

De igual manera, sospecharemos de los estudios de pruebas diagnósticas que no nos proporcionan los cocientes de probabilidad y se limiten a sensibilidad, especificidad y valores predictivos. Los valores predictivos pueden ser altos si la prevalencia de la enfermedad en la población del estudio es alta, pero no sería aplicables a poblaciones con menos proporción de enfermos. Esto se soslaya con el uso de los cocientes de probabilidad. Siempre deberemos preguntarnos el motivo que puedan tener los autores para obviar el dato parámetro más válido para calibrar la potencia de la prueba diagnóstica.

Y, por último, mucho cuidado con los gráficos: aquí las posibilidades de maquillar los resultados solo están limitadas por la imaginación. Hay que fijarse en las unidades empleadas y tratar de extraer la información del gráfico más allá de lo que pueda parecer que representa a primera vista.

Y aquí dejamos el tema por hoy. Nos ha faltado hablar en detalle sobre otra de las entidades más incomprendidas y manipuladas, que no es otra que nuestra p. A p se le atribuyen muchos significados, generalmente de forma errónea, como la probabilidad de que la hipótesis nula sea cierta, probabilidad que tiene su método específico para poder hacer una estimación. Pero esa es otra historia…

Pareja con pareja

Print Friendly, PDF & Email

Todos conoceréis el caso de alguien que, tras realizar un estudio y recoger varios millones de variables, se ha dirigido al estadístico de su centro de trabajo y, demostrando de forma fehaciente su claridad de ideas respecto a su trabajo, le ha dicho: por favor (hay que ser educados), crúzalo todo con todo, a ver qué sale.

Llegados a este punto te pueden ocurrir varias cosas. Si el estadístico es un desalmado sin escrúpulos te dirigirá una media sonrisa y te dirá que vuelvas al cabo de unos días. Entonces te dará varios centenares de hojas con gráficos, tablas y números que no sabrás por dónde coger. Otra cosa que te puede ocurrir es que te mande a paseo, cansado como estará de que le hagan peticiones semejantes.

Pero puedes tener suerte y encontrar un estadístico competente y paciente que, de forma abnegada, te explicará que la cosa no debe funcionar así. Lo lógico es que tú, antes de recoger ningún dato, hayas elaborado una memoria del proyecto en la que esté previsto, entre otras cosas, qué hay que analizar y qué variables hay que cruzar entre sí. Incluso, te puede sugerir que, si el análisis no es muy complicado, intentes hacerlo tú mismo.

Esto último te puede parecer el desvarío de una mente trastornada por las matemáticas pero, si lo piensas un momento, no es tan mala idea. Si nosotros hacemos el análisis, al menos el preliminar, de nuestros resultados, nos puede ayudar a entender mejor el estudio. Además, ¿quién mejor que nosotros mismos puede saber lo que queremos?

Con los paquetes estadísticos actuales, la estadística bivariante más sencilla puede estar a nuestro alcance. Únicamente tenemos que tener buen cuidado en saber elegir el test de contraste de hipótesis adecuado, para lo cual habremos de tener en cuenta tres aspectos: el tipo de variables que queremos comparar, si los datos son apareados o independientes y si tenemos que utilizar test paramétricos o no paramétricos. Veamos estos tres aspectos.

En cuanto al tipo de variables, existen múltiples denominaciones según la clasificación o el paquete estadístico que utilicemos pero, simplificando, diremos que hay tres tipos de variables. En primer lugar, están las continuas o de escala. Como su nombre indica, recogen el valor de una variable continua como puede ser el peso, la talla, la glucemia, etc. En segundo lugar, están las variables nominales, que constan de dos o más categorías que son mutuamente excluyentes. Por ejemplo, la variable color de pelo puede tener las categorías “moreno”, “rubio” y “pelirrojo”. Cuando estas variables tienen dos categorías, las llamamos dicotómicas (sí/no, vivo/muerto, etc.). Por último, cuando las categorías están ordenadas por rango, hablamos de variables ordinales: “no fuma”, “fuma poco”, “fuma moderadamente”, “fuma mucho”. Aunque a veces puedan usar números, estos indican la posición de las categorías dentro de la serie, sin implicar, por ejemplo, que la distancia de la categoría 1 a la 2 sea la misma que la de la 2 a la 3. Por ejemplo, podemos clasificar el reflujo vesicoureteral en grados I, II, III y IV (tener un grado IV es más que un II, pero no significa que se tenga el doble de reflujo).

Saber qué tipo de variable tenemos entre manos es sencillo. Si tenemos duda, podemos seguir el siguiente razonamiento basado en la respuesta a dos preguntas:

  1. ¿Tiene la variable valores teóricos infinitos? Aquí hay que abstraerse un poco y fijarse en los de “valores teóricos”. Por ejemplo, si recogemos el peso de nuestros participantes, los valores teóricos serán infinitos aunque, en la práctica, esto estará limitado por la precisión de nuestra báscula. Si la respuesta es sí estaremos antes una variable continua o de escala. Si es no, pasamos a la siguiente pregunta.
  2. ¿Los valores están ordenados en algún tipo de rango? Si la respuesta es sí, nos encontraremos ante una variable ordinal. Si la respuesta es no, tendremos una variable nominal.

El segundo aspecto es el de las medidas apareadas o independientes. Dos medidas están apareadas cuando se mide una variable en dos ocasiones tras haber aplicado algún cambio, habitualmente en el mismo sujeto. Por ejemplo: presión arterial antes y después de un test de esfuerzo, peso antes y después de una intervención nutricional, etc. Por su parte, las medidas independientes son aquellas que no tienen relación entre sí (son variables diferentes): peso, talla, género, edad, etc.

Por último, hemos mencionado lo de poder utilizar test paramétricos o no paramétricos. No vamos a entrar ahora en detalle, pero para poder utilizar un test paramétrico la variable debe cumplir una serie de características, como seguir una distribución normal, tener un determinado tamaño muestral, etc. Además, hay técnicas que son más exigentes que otras a la hora de tener que cumplir estas condiciones. Ante la duda, es preferible utilizar técnicas no paramétricas sin necesidad (el único problema es que es más difícil conseguir significación estadística, pero el contraste es igual de válido) que usar una prueba paramétrica cuando no se cumplan los requisitos necesarios.

Una vez que ya hemos dado respuesta a estos tres aspectos, solo nos queda hacer las parejas de variables que vamos a comparar y elegir el test estadístico apropiado. Lo podéis ver resumido en la tabla adjunta.En las filas está representado el tipo de variable independiente, que es aquella cuyo valor no depende de otra variable (suele estar en el eje x de las representaciones gráficas) y que suele ser la que modificamos en el estudio para ver el efecto sobre otra variable (la dependiente). En las columnas, por su parte, tenemos la variable dependiente, que es aquella cuyo valor se modifica con los cambios de la variable independiente. De todas formas, no os lieis: el programa estadístico hará el contraste de hipótesis sin tener en cuenta cuál es la dependiente y cuál la independiente, solo tendrá en cuenta los tipos de variables.

La tabla se explica sola, así que no le vamos a dar muchas vueltas. Por ejemplo, si hemos medido la presión arterial (variable de escala) y queremos saber si hay diferencias entre hombres y mujeres (género, variable nominal dicotómica), el test adecuado será el de la t de Student para muestras independientes. Si quisiéramos ver si hay diferencia en la presión antes y después de un tratamiento, utilizaríamos el mismo test de la t de Student pero para muestras apareadas.

Otro ejemplo: si queremos saber si hay diferencias significativas en el color de pelo (nominal politómica: “rubio”, “moreno” y “pelirrojo) y si el participante es del norte o sur de Europa (nominal dicotómica), podríamos emplear un test de la Ji-cuadrado.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de las peculiaridades de cada test que debemos tener en cuenta, sino que solo hemos mencionado el test en sí. Por ejemplo, la ji-cuadrado tiene que cumplir unos mínimos en cada casilla de la tabla de contingencia, en el caso de la t de Student debemos considerar si las varianzas son iguales (homocedasticidad) o no, etc. Pero esa es otra historia…

Aquiles y el bosque de los efectos

Print Friendly, PDF & Email

Sesgo de publicación

Aquiles. ¡Qué tío! Sin duda, uno de los más famosos de todo el follón que armaron en Troya por culpa de Helena la guapa. Ya sabéis su historia. El tío era la leche porque su madre, que era nada menos que la ninfa Tetis, lo bañó en ambrosía y lo sumergió en la laguna Estigia para que fuese invulnerable. Pero cometió un error que una ninfa no debiera haberse permitido: lo agarró por el talón derecho, que no se mojó en la laguna. Así que de ahí le viene a Aquiles su punto débil. Héctor no se dio cuenta a tiempo pero Paris, bastante más espabilado, le metió un flechazo en el talón y lo mandó otra vez a la laguna, pero no al agua, sino al otro lado. Y sin barquero.

Este cuento es el origen de la expresión “talón de Aquiles”, que suele referirse al punto más débil o vulnerable de alguien o algo que, por lo demás, suele ser conocido por su fortaleza.

El sesgo de publicación

Por ejemplo, algo tan robusto y formidable como el metanálisis tiene su talón de Aquiles: el sesgo de publicación. Y eso se debe a que en el mundo de la ciencia no hay justicia social.

Todos los trabajos científicos deberían tener las mismas oportunidades de ser publicados y alcanzar la fama, pero la realidad no es en absoluto así y los trabajos pueden verse discriminados por cuatro razones: significación estadística, popularidad del tema que tratan, el tener alguien que los apadrine y el idioma en que están escritos.

Estos son los principales factores que pueden contribuir a este sesgo de publicación. En primer lugar, es más probable que se publiquen los estudios con resultados significativos y, dentro de estos, es más probable que se publiquen cuando el efecto es mayor. Esto hace que los estudios con resultados negativos o con efectos de pequeña magnitud puedan no llegar a ser publicados, con lo que sacaremos una conclusión sesgada del análisis solo de los estudios grandes con resultado positivo. De igual manera, los trabajos sobre temas de interés público tienen más probabilidad de ser publicados con independencia de la importancia de sus resultados. Además, el padrino también influye: una casa comercial que financie un estudio de un producto suyo y le salga mal, encima no va a publicarlo para que todos sepamos que su producto no es útil.

En segundo lugar, como es lógico, los estudios publicados tienen más probabilidad de llegar a nuestras manos que los que no se publican en revistas científicas. Es el caso de tesis doctorales, comunicaciones a congresos, informes de agencias gubernamentales o, incluso, estudios pendientes de publicar realizados por investigadores del tema que estemos tratando. Por este motivo es tan importante hacer una búsqueda que incluya este tipo de trabajos, que se engloban dentro del término de literatura gris.

Por último, pueden enumerarse una serie de sesgos que influyen en la probabilidad de que un trabajo sea publicado o recuperado por el investigador que realiza la revisión sistemática tales como el sesgo de lenguaje (limitamos la búsqueda por idioma), el sesgo de disponibilidad (se incluyen solo los estudios que son fáciles de recuperar por parte del investigador), el sesgo de coste (se incluyen estudios que son gratis o baratos), el sesgo de familiaridad (solo se incluyen los de la disciplina del investigador), el sesgo de duplicación (los que tienen resultados significativos tienen más probabilidad de ser publicados más de una vez) y el sesgo de citación (los estudios con resultado significativo tienen más probabilidad de ser citados por otros autores).

Uno puede pensar que esto de perder trabajos durante la revisión no puede ser tan grave, ya que podría argumentarse, por ejemplo, que los estudios no publicados en revistas con revisión por pares suelen ser de peor calidad, por lo que no merecen ser incluidos en el metanálisis. Sin embargo, no está claro ni que las revistas científicas aseguren la calidad metodológica del trabajo ni que este sea el único método para hacerlo. Hay investigadores, como los de las agencias gubernamentales, que no están interesados en publicar en revistas científicas, sino en elaborar informes para quienes los encargan. Además, la revisión por pares no es garantía de calidad ya que, con demasiada frecuencia, ni el investigador que realiza el trabajo ni los encargados de revisarlo tienen una formación en metodología que asegure la calidad del producto final.

Todo esto puede verse empeorado por el hecho de que estos mismos factores pueden influir en los criterios de inclusión y exclusión de los estudios primarios del metanálisis, de tal forma que obtenemos una muestra de trabajos que puede no ser representativa del conocimiento global sobre el tema del que trate la revisión sistemática y el metanálisis.

Si tenemos un sesgo de publicación la aplicabilidad de los resultados se verá seriamente comprometida. Por esto decimos que el sesgo de publicación es el verdadero talón de Aquiles del metanálisis.

Si delimitamos correctamente los criterios de inclusión y exclusión de los estudios y hacemos una búsqueda global y sin restricciones de la literatura habremos hecho todo lo posible para minimizar el riesgo de sesgo, pero nunca podremos estar seguros de haberlo evitado. Por eso se han ideado técnicas y herramientas para su detección.

Estudio del sesgo de publicación

La más usada tiene el simpático nombre de gráfico en embudo, aunque es más conocido por su nombre en inglés: funnel plot. En él se representa la magnitud del efecto medido (eje X) frente a una medida de precisión (eje Y), que suele ser el tamaño muestral, pero que puede también ser el inverso de la varianza o el error estándar. Representamos cada estudio primario con un punto y observamos la nube de puntos.

En la forma más habitual, con el tamaño de la muestra en el eje Y, la precisión de los resultados será mayor en los estudios de muestra más grande, con lo que los puntos estarán más juntos en la parte alta del eje y se irán dispersando al acercarnos al origen del eje Y. De esta forma, se observa una nube de puntos en forma de embudo, con la parte ancha hacia abajo. Este gráfico debe ser simétrico y, en caso de que no sea así, debemos sospechar siempre un sesgo de publicación. En el segundo ejemplo que os pongo podéis ver como “faltan” los estudios que están hacia el lado de falta de efecto: esto puede significar que solo se publican los estudios con resultado positivo.

Este método es muy sencillo de utilizar pero, en ocasiones, podemos tener dudas acerca de la asimetría de nuestro embudo, sobre todo si el número de estudios es pequeño. Además, el embudo puede ser asimétrico por defectos de la calidad de los estudios o porque estemos tratando con intervenciones cuyo efecto varíe según el tamaño de la muestra de cada estudio.  Para estos casos se han ideado otros métodos más objetivos como la prueba de correlación de rangos de Begg y la prueba de regresión lineal de Egger.

La prueba de Begg estudia la presencia de asociación entre las estimaciones de los efectos y sus varianzas. Si existe correlación entre ellos, mal asunto. El problema de esta prueba es que tiene poca potencia estadística, por lo que es poco de fiar cuando el número de estudios primarios es pequeño.

La prueba de Egger, más específica que la de Begg, consiste en representar gráficamente la recta de regresión entre la precisión de los estudios (variable independiente) y el efecto estandarizado (variable dependiente). Esta regresión hay que ponderarla por el inverso de la varianza, así que no os recomiendo que la hagáis por vuestra cuenta, salvo que seáis estadísticos consumados. Cuando no hay sesgo de publicación la recta de regresión se origina en el cero del eje Y. Cuánto más se aleje del cero, mayor evidencia de sesgo de publicación.

Como siempre, existen programas informáticos que hacen estas pruebas con rapidez sin que tengamos que quemarnos el cerebro con sus cálculos.

¿Y si después de hacer el trabajo vemos que hay sesgo de publicación? ¿Podemos hacer algo para ajustarlo? Como siempre, podemos.

La forma más sencilla es utilizar un método gráfico que se llama de ajuste y relleno (trim and fill para los amantes del inglés). Consiste en lo siguiente: a) dibujamos el funnel plot; b) quitamos los estudios pequeños para que el embudo sea simétrico; c) se determina el nuevo centro del gráfico; d) se vuelven a poner los estudios quitados y añadimos su reflejo al otro lado de la línea central; e) reestimamos el efecto.

Otros métodos de estudio del sesgo de publicación

Otra actitud muy conservadora que podemos adoptar es dar por hecho que existe un sesgo de publicación y preguntarnos cuánto afecta nuestros resultados, dando por hecho que nos hemos dejado estudios sin incluir en el análisis.

La única forma de saber si el sesgo de publicación afecta a nuestras estimaciones sería comparar el efecto en los estudios recuperados y en los no recuperados pero, claro está, entonces no tendríamos que preocuparnos por el sesgo de publicación.

Para saber si el resultado observado es robusto o, por el contrario, es susceptible de estar sesgado por un sesgo de publicación, se han ideado dos métodos de la N de seguridad, los conocidos en inglés como los métodos fail-safe N.

El primero es el método de la N de seguridad de Rosenthal. Supongamos que tenemos un metanálisis con un efecto que es estadísticamente significativo, por ejemplo, un riesgo relativo mayor que uno con una p < 0,05 (o un intervalo de confianza del 95% que no incluye el valor nulo, el uno). Entonces nos hacemos una pregunta: ¿cuántos estudios con RR = 1 (valor nulo) tendremos que incluir hasta que la p no sea significativa? Si necesitamos pocos estudios (menos de 10) para hacer nulo el valor del efecto, podemos preocuparnos porque puede que el efecto sea nulo en realidad y nuestra significación sea producto de un sesgo de publicación. Por el contrario, si hacen falta muchos estudios, probablemente el efecto sea significativo de verdad. Este número de estudios es lo que significa la letra N del nombre del método.

El problema de este método es que se centra en la significación estadística y no en la importancia de los resultados. Lo correcto sería buscar cuántos estudios hacen falta para que el resultado pierda importancia clínica, no significación estadística. Además, asume que los efectos de los estudios faltantes es nulo (uno en caso de riesgos relativos y odds ratios, cero en casos de diferencias de medias), cuando el efecto de los estudios faltantes puede ir en sentido contrario que el efecto que detectamos o en el mismo sentido pero de menor magnitud.

Para evitar estos inconvenientes existe una variación de la fórmula anterior que valora la significación estadística y la importancia clínica. Con este método, que se denomina el de la N de seguridad de Orwin, se calcula cuántos estudios hacen falta para llevar el valor del efecto a un valor específico, que será generalmente el menor efecto que sea clínicamente importante. Este método permite también especificar el efecto medio de los estudios faltantes.

La declaración PRISMA

Para terminar con el metanálisis, veamos cuál es la forma correcta de expresar los resultados del análisis de los datos. Para hacerlo bien, podemos seguir las recomendaciones de la declaración PRISMA, que dedica siete de sus 27 ítems a darnos consejos de cómo presentar los resultados de un metanálisis.

Primero debemos informar sobre el proceso de selección de estudios: cuántos hemos encontrado y evaluado, cuántos hemos seleccionado y cuántos rechazado, explicando además las razones para hacerlo. Para esto resulta muy útil el diagrama de flujo que debe incluir la revisión sistemática de la que procede el metanálisis si se acoge a la declaración PRISMA.

En segundo lugar deben especificarse las características de los estudios primarios, detallando qué datos sacamos de cada uno de ellos y sus correspondientes citas bibliográficas para facilitar que cualquier lector del trabajo pueda comprobar los datos si no se fía de nosotros. En este sentido va también el tercer apartado, que se refiere a la evaluación del riesgo de sesgos de los estudios y su validez interna.

Cuarto, debemos presentar los resultados de cada estudio individual con un dato resumen de cada grupo de intervención analizado junto con los estimadores calculados y sus intervalos de confianza. Estos datos nos servirán para confeccionar la información que PRISMA nos pide en su quinto punto referente a la presentación de resultados y no es otro que la síntesis de todos los estudios del metanálisis, sus intervalos de confianza, resultados del estudio de homogeneidad, etc.

Esto suele hacerse de forma gráfica mediante un diagrama de efectos, una herramienta gráfica popularmente más conocida por su nombre en inglés: el forest plot. Este gráfico es una especie de bosque donde los árboles serían los estudios primarios del metanálisis y donde se resumen todos los resultados relevantes de la síntesis cuantitativa.

La Cochrane Collaboration recomienda estructurar el forest plot en cinco columnas bien diferenciadas. En la columna 1 se listan los estudios primarios o los grupos o subgrupos de pacientes incluidos en el metanálisis. Habitualmente se representan por un identificador compuesto por el nombre del primer autor y la fecha de publicación.La columna 2 nos muestra los resultados de las medidas de efecto de cada estudio tal como las refieren sus respectivos autores.

La columna 3 es el forest plot propiamente dicho, la parte gráfica del asunto. En él se representan las medidas de efecto de cada estudio a ambos lados de la línea de efecto nulo, que ya sabemos que es el cero para diferencias de media y el uno para odds ratios, riesgos relativos, hazard ratios, etc. Cada estudio se representa por un cuadrado cuya área suele ser proporcional a la contribución de cada uno al resultado global. Además, el cuadrado está dentro de un segmento que representa los extremos de su intervalo de confianza.

Estos intervalos de confianza nos informan sobre la precisión de los estudios y nos dicen cuáles son estadísticamente significativos: aquellos cuyo intervalo no cruza la línea de efecto nulo. De todas formas, no olvidéis que, aunque crucen la línea de efecto nulo y no sean estadísticamente significativos, los límites del intervalo pueden darnos mucha información sobre la importancia clínica de los resultados de cada estudio. Por último, en el fondo del gráfico encontraremos un diamante que representa el resultado global del metanálisis. Su posición respecto a la línea de efecto nulo nos informará sobre la significación estadística del resultado global, mientras que su anchura nos dará una idea de su precisión (su intervalo de confianza). Además, en la parte superior de esta columna encontraremos el tipo de medida de efecto, el modelo de análisis de datos que se ha utilizados (efectos fijos o efectos aleatorios) y el valor de significación de los intervalos de confianza (habitualmente 95%).

Suele completar este gráfico una cuarta columna con la estimación del peso de cada estudio en tantos por cien y una quinta columna con las estimaciones del efecto ponderado de cada uno. Y en algún rinconcillo de todo este bosque estará la medida de heterogeneidad que se ha utilizado, junto con su significación estadística en los casos en que sea pertinente.

Para finalizar la exposición de los resultados, PRISMA recomienda un sexto apartado con la evaluación que se haya hecho de los riesgos de sesgo del estudio y un séptimo con todos los análisis adicionales que haya sido necesario realizar: estratificación, análisis de sensibilidad, metarregresión, etc.

Lo que dice la Cochrane

Como veis, nada es fácil en esto de los metanálisis. Por eso, la Cochrane recomienda seguir una serie de pasos para interpretar correctamente los resultados. A saber:

  1. Verificar qué variable se compara y cómo. Suele verse en la parte superior del forest plot.
  2. Localizar la medida de efecto utilizada. Esto es lógico y necesario para saber interpretar los resultados. No es lo mismo una hazard ratio que una diferencia de medias o lo que sea que se haya usado.
  3. Localizar el diamante, su posición y su amplitud. Conviene también fijarse en el valor numérico del estimador global y en su intervalo de confianza.
  4. Comprobar que se ha estudiado la heterogeneidad. Esto puede verse a ojo mirando si los segmentos que representan los estudios primarios están o no muy dispersos y si se solapan o no. En cualquier caso, siempre habrá un estadístico que valore el grado de heterogeneidad. Si vemos que existe heterogeneidad, lo siguiente será buscar qué explicación dan los autores sobre su existencia.
  5. Sacar nuestras conclusiones. Nos fijaremos en qué lado de la línea de efecto nulo están el efecto global y su intervalo de confianza. Ya sabéis que, aunque sea significativo, el límite inferior del intervalo conviene que esté lo más lejos posible de la línea, por aquello de la importancia clínica, que no siempre coincide con la significación estadística. Por último, volved a mirar el estudio de homogeneidad. Si hay mucha heterogeneidad los resultados no serán tan fiables.

Nos vamos…

Y con esto damos por finalizado el tema del metanálisis. En realidad, el forest plot no es exclusivo de los metanálisis y puede usarse siempre que queramos comparar estudios para dilucidar su significación estadística o clínica, o en casos como los estudios de equivalencia, en los que a la línea de efecto nulo se le unen las de los umbrales de equivalencia. Pero aún tiene una utilidad más. Una variante del forest plot sirve también para valorar si existe sesgo de publicación en la revisión sistemática aunque, como ya sabemos, en estos casos le cambiamos el nombre por el de gráfico en embudo. Pero esa es otra historia…

Churras y merinas

Print Friendly, PDF & Email

Estudio de la heterogeneidad en el metanálisis

Todos conoceréis el cuento chino del pobre grano de arroz solitario que se cae al suelo y no lo oye nadie. Claro que si en lugar de caerse un grano se cae un saco lleno de arroz eso ya será otra cosa. Hay muchos ejemplos de que la unión hace la fuerza. Una hormiga roja es inofensiva, salvo que te muerda en alguna zona blanda y noble, que suelen ser las más sensibles. Pero ¿qué me decís de una marabunta de millones de hormigas rojas? Eso sí que acojona, porque si se juntan todas y vienen a por ti, poco podrás hacer para parar su empuje. Sí, la unión hace la fuerza.

Y esto también pasa en estadística. Con una muestra relativamente pequeña de votantes bien elegidos podemos estimar quién va a ganar unas elecciones en las que votan millones. Así que, ¿qué no podríamos hacer con un montón de esas muestras? Seguro que la estimación sería más fiable y más generalizable.

Entrando en materia

Pues bien, esta es precisamente una de las finalidades del metanálisis, que utiliza diversas técnicas estadísticas para hacer una síntesis cuantitativa de los resultados de un conjunto de estudios que, aunque tratan de responder a la misma pregunta, no llegan exactamente al mismo resultado. Pero cuidado, no podemos ponernos a juntar estudios para sacar conclusiones sobre la suma de ellos sin antes tomar una serie de precauciones. Esto sería como mezclar churras con merinas que, no sé muy bien porqué, debe ser algo terriblemente peligroso porque todo el mundo sabe que es algo a evitar.

Pensad que tenemos un conjunto de ensayos clínicos sobre un mismo tema y queremos hacer un metanálisis para obtener un resultado global. Es más que conveniente que exista la menor variabilidad posible entre los estudios si queremos combinarlos. Porque, señoras y señores, aquí también impera aquello de juntos, pero no revueltos.

Antes de pensar en combinar los resultados de los estudios de una revisión sistemática para hacer un metanálisis debemos hacer siempre un estudio previo de la heterogeneidad de los estudios primarios, que no es más que la variabilidad que existe entre los estimadores que se han obtenido en cada uno de esos estudios.

Estudio de la heterogeneidad en el metanálisis

En primer lugar, investigaremos posibles causas de heterogeneidad, como pueden ser diferencias en los tratamientos, variabilidad de las poblaciones de los diferentes estudios y diferencias en los diseños de los ensayos. Si existe mucha heterogeneidad desde el punto de vista clínico, quizás lo más idóneo sea no hacer metanálisis y limitarnos a realizar un análisis de síntesis cualitativa de los resultados de la revisión.

Una vez que llegamos a la conclusión de que los estudios se parecen lo suficiente como para intentar combinarlos debemos tratar de medir esta heterogeneidad para tener un dato objetivo. Para esto, diversos cerebros privilegiados han creado una serie de estadísticos que contribuyen a nuestra cotidiana selva de siglas y letras.

Empezamos con las letras

Hasta hace poco el más famoso era la Q de Cochran, que no tiene nada que ver ni con el amigo de James Bond ni con nuestro amigo Archie Cochrane. Su cálculo tiene en cuenta la suma de las desviaciones entre el resultado del estudio y el resultado global (elevados al cuadrado por aquello de que no se anulen positivas con negativas), ponderando cada estudio según su contribución al resultados global. Parece impresionante pero, en realidad, no es para tanto. En el fondo no es más que una prima aristócrata de la ji-cuadrado. En efecto, la Q sigue una distribución ji-cuadrado con k-1 grados de libertad (k es el número de estudios primarios). Calculamos su valor, buscamos en la distribución de frecuencias la probabilidad de que la diferencia no se deba al azar y tratamos de rechazar nuestra hipótesis nula (que asume que las diferencias entre estudios son debidas al azar). Pero la Q, a pesar de sus apariencias, tiene una serie de debilidades.

En primer lugar, es un parámetro conservador y debemos siempre tener en cuenta que no significativo no es sinónimo obligatoriamente de ausencia de heterogeneidad: simplemente, no podemos rechazar la hipótesis nula, así que la damos como buena, pero siempre con el riesgo de cometer un error de tipo II y columpiarnos. Por esto, algunos proponen utilizar un nivel de significación de p<0,1 en lugar de la p<0,05 habitual. Otro fallo que tiene la Q es que no cuantifica el grado de heterogeneidad y, por supuesto, tampoco da razones de las causas que la producen. Y, por si fuera poco, pierde potencia cuando el número de estudios es pequeño y no permite comparar diferentes metanálisis entre sí si el número de estudios es diferente.

Por estos motivos se ha desarrollado otro estadístico que es mucho más celebre en la actualidad: la I2. Este parámetro proporciona una estimación de la variabilidad total entre los estudios respecto a la variabilidad total lo que, dicho de otro modo, es la proporción de la variabilidad debida a diferencias reales entre los estimadores respecto a la variabilidad debida al azar (dicho de forma aún más sencilla, la proporción de variabilidad no debida al azar). Además, es  menos sensible a la magnitud del efecto y al número de estudios. También parece impresionante, pero en realidad es otra prima aventajada del coeficiente de correlación intraclase.

Su valor va de 0 a 100%, considerándose habitualmente los límites de 25%, 50% y 75% para delimitar cuando existe una heterogeneidad baja, moderada y alta, respectivamente. La I2 no depende de las unidades de medida de los efectos ni del número de estudios, por lo que sí permite comparaciones con distintas medidas de efecto y entre diferentes metanálisis con diferente número de estudios.

Si encontráis algún estudio con Q pero sin I2, o viceversa, y queréis calcular el que no tenéis, podéis utilizar la siguiente formulilla, donde k es el número de estudios primarios:

I^{2}= \frac{Q-k+1}{Q}

Existe un tercer parámetro menos conocido, pero no por ello menos digno de mención: la H2. Esta H2 mide el exceso del valor de Q respecto del valor que esperaríamos obtener si no existiese heterogeneidad. Por tanto, un valor de 1 significa que no hay heterogeneidad y su valor aumenta cuando aumenta la heterogeneidad entre los estudios. Pero su verdadero interés es que permite el cálculo de intervalos de confianza para la I2.

Otras veces los autores realizan un contraste de hipótesis con una hipótesis nula de no heterogeneidad y utilizan una chi ji-cuadrado o algún estadístico similar. En estos casos, lo que proporcionan es un valor de significación estadística. Si la p es < 0,05 se puede rechazar la hipótesis nula y decir que hay heterogeneidad. En caso contrario diremos que no podemos rechazar la hipótesis nula de no heterogeneidad.

En resumen, siempre que veamos un indicador de homogeneidad que represente un porcentaje nos indicará la proporción de variabilidad que no es debida al azar. Por su parte, cuando nos den una “p” habrá heterogeneidad significativa cuando la “p” sea menor de 0,05.

No os preocupéis por los cálculos de Q, I2 y H2. Para eso se usan programas específicos como RevMan o módulos que hacen la misma función dentro de los programas de estadística habituales.

Métodos gráficos para el estudio de la heterogeneidad en el metanálisis

Un punto de atención: recordad siempre que no poder demostrar heterogeneidad no siempre quiere decir que los estudios sean homogéneos. El problema es que la hipótesis nula asume que son homogéneos y las diferencias se deben al azar. Si podemos rechazarla podemos asegurar que hay heterogeneidad (siempre con un pequeño grado de incertidumbre). Pero esto no funciona al revés: si no podemos rechazarla quiere decir simplemente eso, que no podemos rechazar que no haya heterogeneidad, pero siempre habrá una probabilidad de cometer un error de tipo II si asumimos directamente que los estudios son homogéneos.

Por este motivo se han ideado una serie de métodos gráficos para inspeccionar los estudios y comprobar que no hay datos de heterogeneidad aunque los parámetros numéricos digan otra cosa.

Quizás el más utilizado sea el gráfico de Galbraith, que puede emplearse tanto para ensayos como para metanálisis de estudios observacionales. Este gráfico, que podéis ver en la primera figura, representa la precisión de cada estudio frente a su efecto estandarizado junto con la línea de la ecuación de regresión ajustada y unas bandas de confianza. La posición de cada estudio respecto al eje de la precisión indica el peso de su contribución al resultado global, mientras que su localización fuera de las bandas de confianza indica su contribución a la heterogeneidad.

El gráfico de Galbraith puede resultar útil también para detectar fuentes de heterogeneidad, ya que se pueden etiquetar los estudios según diferentes variables y ver como contribuyen a la heterogeneidad global.

Otra herramienta que puede utilizarse para metanálisis de ensayos clínicos es el gráfico de L’Abbé (segunda figura), que representa las tasas de respuesta de los grupos de tratamiento y de control y su posición respecto a la diagonal. Por encima de la diagonal quedan los estudios con resultado favorable al tratamiento, mientras que por debajo están aquellos con resultado favorable al control. Los estudios suelen representarse con un área proporcional a su precisión y su dispersión indica heterogeneidad. Además, en ocasiones pueden dar información adicional. Por ejemplo, en el gráfico que os adjunto podéis ver que a riesgos bajos los estudios están en el área del control, mientras que en riesgos altos van hacia la zona favorable al tratamiento. Esta distribución, además de ser sugestiva de heterogeneidad, puede sugerirnos que la eficacia del tratamiento depende del nivel de riesgo o, dicho de otro modo, que tenemos alguna variable modificadora de efecto en nuestro estudio. Una pequeña pega de esta herramienta es que solo es aplicable a metanálisis de ensayos clínicos y cuando la variable dependiente es dicotómica.

Hay que darle a cada uno su peso

Bien, supongamos que hacemos el estudio de heterogeneidad y decidimos que vamos a combinar los estudios para hacer el metanálisis. El siguiente paso es analizar los estimadores del tamaño de efecto de los estudios, ponderándolos según la contribución que cada estudio va a tener sobre el resultado global. Esto es lógico, no puede contribuir lo mismo al resultado final un ensayo con pocos participantes y un resultado poco preciso que otro con miles de participantes y una medida de resultado más precisa.

La forma más habitual de tener en cuenta estas diferencias es ponderar la estimación del tamaño del efecto por la inversa de la varianza de los resultados, realizando posteriormente el análisis para obtener el efecto medio. Para estos hay varias posibilidades, algunas de ellas muy complejas desde el punto de vista estadístico, aunque los dos métodos que se utilizan con más frecuencia son el modelo de efecto fijo y el modelo de efectos aleatorios. Ambos modelos difieren en la concepción que hacen de la población de partida de la que proceden los estudios primarios del metanálisis.

Los dos modelos

El modelo de efecto fijo considera que no existe heterogeneidad y que todos los estudios estiman el mismo tamaño de efecto de la población (todos miden el mismo efecto, por eso se llama de efecto fijo), por lo que se asume que la variabilidad que se observa entre los estudios individuales se debe únicamente al error que se produce al realizar el muestreo aleatorio en cada estudio. Este error se cuantifica estimando la varianza intraestudios, asumiendo que las diferencias en los tamaños de efecto estimados se deben solo a que se han utilizado muestras de sujetos diferentes.

Por otro lado, en el modelo de efectos aleatorios se parte de la base de que el tamaño de efecto varía en cada estudio y sigue una distribución de frecuencias normal dentro de la población, por lo que cada estudio estima un tamaño de efecto diferente. Por lo tanto, además de la varianza intraestudios debida al error del muestreo aleatorio, el modelo incluye también la variabilidad entre estudios, que representaría la desviación de cada estudio respecto del tamaño de efecto medio. Estos dos términos de error son independientes entre sí, contribuyendo ambos a la varianza del estimador de los estudios.

En resumen, el modelo de efecto fijo incorpora solo un término de error por la variabilidad de cada estudio, mientras que el de efectos aleatorios añade, además, otro término de error debido a la variabilidad entre los estudios.

Veis que no he escrito ni una sola fórmula. En realidad no nos hace falta conocerlas y son bastante antipáticas, llenas de letras griegas que no hay quien las entienda. Pero no os preocupéis. Como siempre, los programas estadísticos como RevMan de la Cochrane Collaboration permiten hacer los cálculos de forma sencilla, quitando y sacando estudios del análisis y cambiando de modelo según nos apetezca.

El tipo de modelo a elegir tiene su importancia. Si en el análisis previo de homogeneidad vemos que los estudios son homogéneos podremos utilizar el modelo de efecto fijo. Pero si detectamos que existe heterogeneidad, dentro de los límites que nos permitan combinar los estudios, será preferible usar el modelo de efectos aleatorios.

Otra consideración a realizar es la de la aplicabilidad o validez externa de los resultados del metanálisis. Si hemos utilizado el modelo de efecto fijo será comprometido generalizar los resultados fuera de las poblaciones con características similares a las de los estudios incluidos. Esto no ocurre con los resultados obtenidos utilizando el modelo de efectos aleatorios, cuya validez externa es mayor por provenir de poblaciones de diferentes estudios.

En cualquier caso, obtendremos una medida de efecto medio junto con su intervalo de confianza. Este intervalo de confianza será estadísticamente significativo cuando no cruce la línea de efecto nulo, que ya sabemos que es cero para diferencias de medias y uno para odds ratios y riesgos relativos. Además, la amplitud del intervalo nos informará sobre la precisión de la estimación del efecto medio en la población: cuánto más ancho, menos preciso, y viceversa.

Si pensáis un poco comprenderéis en seguida porqué el modelo de efectos aleatorios es más conservador que el de efecto fijo en el sentido de que los intervalos de confianza que se obtienen son menos precisos, ya que incorpora más variabilidad en su análisis. En algún caso puede ocurrir que el estimador sea significativo si usamos el de efecto fijo y no lo sea si usamos el de efectos aleatorios, pero esto no debe condicionarnos a la hora de escoger el modelo a utilizar. Siempre debemos basarnos en la medida previa de heterogeneidad aunque, si tenemos dudas, también podemos utilizar los dos y comparar los diferentes resultados.

¿Y si hay heterogeneidad?

Una vez estudiada la homogeneidad de los estudios primarios podemos llegar a la desoladora conclusión de que la heterogeneidad es la reina de la situación. ¿Podemos hacer algo? Claro, podemos. Siempre podemos no combinar los estudios o combinarlos a pesar de la heterogeneidad y obtener una medida resumen, pero habrá que calcular también medidas de variabilidad entre estudios y, aun así, no podremos estar seguros de nuestros resultados.

Otra posibilidad es hacer un análisis estratificado según la variable que cause la heterogeneidad, siempre que seamos capaces de identificarla. Para esto podemos hacer un análisis de sensibilidad, repitiendo los cálculos extrayendo uno a uno cada uno de los subgrupos y ver cómo influyen en el resultado global. El problema es que esto deja de lado el verdadero objetivo del metanálisis, que no es otro que el de obtener un valor global de estudios homogéneos.

Los más sesudos en estos temas pueden, por último, recurrir a la metarregresión. Esta técnica es similar a un modelo de regresión multivariante en el que las características de los estudios se usan como variables explicativas y la variable de efecto o alguna medida de la desviación de cada estudio respecto al global se usa como variable dependiente. Hay que hacer, además, una ponderación según la contribución de cada estudio al resultado global y procurar no meter muchos coeficientes al modelo de regresión si el número de estudios primarios no es muy grande. No os aconsejo que hagáis una metarregresión en vuestra casa si no es acompañados de personas mayores.

Nos vamos…

Y ya solo nos quedaría comprobar que no nos faltan estudios sin recoger y presentar los resultados de forma correcta. Los datos de los metanálisis suelen representarse en un gráfico específico que se suele conocer por su nombre en inglés: el forest plot. Pero esa es otra historia…