Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado por elEstadística Categora

Columnas, tartas y un italiano ilustre

Print Friendly, PDF & Email

Cuando uno lee el título de esta entrada puede preguntarse con qué estúpida ocurrencia voy a machacar hoy a la sufrida concurrencia, pero no temáis, lo único que vamos a hacer es poner en valor ese famoso aforismo que dice que una imagen vale más que mil palabras. ¿Os he aclarado algo? Supongo que no.

Como todos sabemos, la estadística descriptiva es aquella rama de la estadística que utilizamos habitualmente para obtener una primera aproximación a los resultados de nuestro estudio, una vez que lo hemos terminado.

Lo primero que hacemos es describir los datos, para lo cual realizamos tablas de frecuencias y utilizamos medidas diversas de centralización y dispersión. El problema con estos parámetros es que, aunque representan verdaderamente la esencia de los datos, a veces es difícil proporcionar con ellos una visión sintética y comprensiva. Es en estos casos en los que podemos recurrir a otro recurso, que no es otro que la representación gráfica de los resultados del estudio. Ya sabéis, una imagen vale más que mil palabras, o eso dicen.

Hay multitud de tipos de gráficos para ayudarnos a comprender mejor la representación de los datos, pero hoy nos vamos a limitar a aquellos que tienen que ver con las variables cualitativas o categóricas.

Recordad que las variables cualitativas representan atributos o categorías de la variable. Cuando la variable no incluye ningún sentido de orden, se dice que es cualitativa nominal, mientras que si se puede establecer cierto orden entre las categorías diríamos que es cualitativa ordinal. Por ejemplo, la variable “fumador” sería cualitativa nominal si tiene dos posibilidades: “sí” o “no”. Sin embargo, si la definimos como “ocasional”, “poco fumador”, “moderado” o “muy fumador”, ya existe cierta jerarquía y hablamos de variable cualitativa ordinal.

El primer tipo de gráfico que vamos a considerar a la hora de representar una variable cualitativa es el gráfico de sectores, mucho más conocido como gráfico de tarta. Este consiste en una circunferencia cuya área representa el total de los datos. Así, a cada categoría se le asigna un área que será directamente proporcional a su frecuencia. De esta forma, las categorías más frecuentes tendrán áreas mayores, de modo que de un vistazo podemos hacernos una idea de cómo se distribuyen las frecuencias en las categorías.

Hay tres formas de calcular el área de cada sector. La más sencilla es multiplicar la frecuencia relativa de cada categoría por 360°, obteniendo los grados de ese sector.

La segunda es utilizar la frecuencia absoluta de la categoría, según la siguiente regla de tres:

Frecuencia absoluta / Frecuencia total de datos = Grados del sector / 360°

Por último, la tercera forma consiste en utilizar las proporciones o porcentajes de las categorías:

% de la categoría / 100% = Grados del sector / 360°

Las fórmulas son muy sencillas, pero, de todas formas, no habrá necesidad de recurrir a ellas porque el programa con el que hagamos el gráfico lo hará por nosotros. La instrucción en R es pie(), tal como podéis ver en la primera figura, en la que os muestro una distribución de niños con enfermedades exantemáticas y cómo se representaría el gráfico de sectores.El gráfico de sectores está diseñado para representar variables categóricas nominales, aunque no es raro ver tartas representando variables de otros tipos. Sin embargo, y en mi humilde opinión, esto no es totalmente correcto.

Por ejemplo, si hacemos un gráfico de sectores para una variable cualitativa ordinal estaremos perdiendo la información sobre la jerarquía de las variables, por lo que resultaría más correcto utilizar un gráfico que permita ordenar las categorías de menos a más. Y este gráfico no es otro que el diagrama de barras, del que hablaremos a continuación.

El diagrama de sectores será especialmente útil cuando haya pocas variables. Si hay muchas, la interpretación deja de ser tan intuitiva, aunque siempre podemos completar el gráfico con una tabla de frecuencias que nos ayude a interpretar mejor los datos. Otro consejo es tener mucho cuidado con los efectos en 3D a la hora de dibujar las tartas. Si nos pasamos de elaborados, el gráfico perderá claridad y será más difícil de leer.

El segundo gráfico que vamos a ver es, ya lo hemos mencionado, el gráfico de barras, el óptimo para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es muy correcto hacer es usarlo para las variables cualitativas nominales.

El diagrama de barras es capaz de expresar la magnitud de las diferencias entre las categorías de la variable, pero ahí está, precisamente, su punto débil, ya que es fácilmente manipulable si modificamos las escalas de los ejes. Por eso hay que tener cuidado al analizar este tipo de gráficos para evitar que nos engañen con el mensaje que el autor del estudio pueda querer transmitir.

Este gráfico también es sencillo de hacer con la mayor parte de los programas estadísticos y hojas de cálculo. La función en R es barplot(), como veis en la segunda figura, que representa la gravedad de una muestra de niños asmáticos.Con lo visto hasta ahora, algunos pensaréis que el título de esta entrada es un poco engañoso. En realidad, la cosa no va de columnas y tartas, sino de barras y sectores. Además, ¿quién es el italiano ilustre? Pues aquí sí que no engaño a nadie, porque el personaje fue las dos cosas, italiano e ilustre, y me estoy refiriendo a Vilfredo Federico Pareto.

Pareto fue un italiano que nació a mediados del siglo XIX en París. Esta pequeña contradicción se debe a que su padre estaba entonces exiliado en Francia por ser uno de los seguidores de Giuseppe Mazzini, que estaba entonces empeñado en la unificación italiana. De todas formas, Pareto vivió en Italia desde los 10 años de edad, convirtiéndose en un ingeniero con amplios conocimientos matemáticos y humanistas y que contribuyó de manera decisiva al desarrollo de la microeconomía. Hablaba y escribía con fluidez en francés, inglés, italiano, latín y griego, y se hizo famoso por multitud de contribuciones como la distribución de Pareto, la eficiencia de Pareto, el índice de Pareto y el principio de Pareto. Para representar este último inventó el diagrama de Pareto, que es el que le trae hoy aquí entre nosotros.

El diagrama de Pareto (también conocido en economía como curva cerrada o distribución A-B-C) organiza los datos en orden descendente de izquierda a derecha, representados por barras, asignando así un orden de prioridades. Además, el diagrama incorpora una línea curva que representa la frecuencia acumulada de las categorías de la variable. Esto permitía inicialmente explicar el principio de Pareto, que viene a decir que hay muchos problemas sin importancia frente a unos pocos que sí son importantes, con lo que resultaba muy útil para la toma de decisiones.

Como es fácil de comprender, esta priorización hace que el diagrama de Pareto sea especialmente útil para representar variables cualitativas ordinales, superando al diagrama de barras al dar información sobre el porcentaje acumulado al ir agregando las categorías de la distribución de la variable. El cambio de pendiente de esta curva nos informa también del cambio en la concentración de datos, que depende de la variabilidad en que los sujetos de la muestra se reparten entre las distintas categorías.

Por desgracia, R no dispone de una función simple para representar diagramas de Pareto, pero podemos obtenerlo fácilmente con el script que os adjunto en la tercera figura, obteniendo el gráfico de la cuarta.

Y aquí lo vamos a dejar por hoy. Antes de decir adiós quiero avisaros que no debéis confundir las barras del diagrama de barras con las del histograma ya que, aunque pueden parecerse desde el punto de vista gráfico, ambos representan cosas muy diferentes. En un diagrama de barras solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá ya que, en realidad, encierra la distribución de frecuencias de la variable, por lo que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra. Pero esa es otra historia…

Como un reloj olvidado

Print Friendly, PDF & Email

No me gusta el final del verano. Empiezan los días con mal tiempo, me levanto totalmente de noche y anochece cada vez más temprano. Y, por si fuera poco, se aproxima el engorroso momento del cambio de hora.

Además de las molestias del cambio y del tedio de estar dos o tres días recordando la hora que es y la que podría ser de no haber cambiado, hay que proceder a cambiar un montón de relojes de forma manual. Y, por mucho que te esfuerces en cambiarlos todos, siempre te dejas alguno con la hora vieja. No te pasa con el reloj de la cocina, que miras siempre para saber cómo de rápido tienes que desayunar, o con el del coche, que te mira fijamente todas las mañanas. Pero seguro que hay alguno que no cambias. Incluso, alguna vez me ha pasado, que me doy cuenta cuando al siguiente cambio de hora veo que no lo necesita porque lo dejé sin cambiar en la vez anterior.

Estos relojes olvidados me recuerdan un poco a las variables categóricas o cualitativas.

Pensaréis que, una vez más, me he olvidado de tomar la pastilla esta mañana, pero no. Todo tiene su razonamiento. Cuando terminamos un estudio y tenemos ya los resultados, lo primero que hacemos es una descripción de los mismos para, después, pasar a hacer todo tipo de contrastes, si viene al caso.

Pues bien, las variables cualitativas siempre se menosprecian cuando aplicamos nuestros conocimientos de estadística descriptiva. Habitualmente nos limitamos a clasificarlas y hacer tablas de frecuencia con las que calcular algunos índices como su frecuencia relativa o acumulada, dar alguna medida representativa como la moda y poco más. Con su representación gráfica ya nos esforzamos un poco más, con diagramas de barras o de sectores, pictogramas y otros inventos parecidos. Y, por último, nos aplicamos un poco más cuando relacionamos dos variables cualitativas mediante una tabla de contingencia.

Sin embargo, nos olvidamos de la variabilidad, algo que nunca haríamos con una variable cuantitativa. Las variables cuantitativas son como ese reloj de la pared de la cocina que nos mira directamente a los ojos cada mañana y que no consiente que lo dejemos fuera de hora. Por eso, recurrimos a esos conceptos que entendemos tan bien como la media y la varianza o la desviación típica. Pero el que no conozcamos la forma de medir de forma objetiva la variabilidad de las variables cualitativas o categóricas, ya sean nominales u ordinales, no quiere decir que no exista. Para este fin, se han desarrollado diversos índices de diversidad, que algunos autores distinguen como índices de dispersión, variabilidad y disparidad. Vamos a ver algunos de ellos, cuyas fórmulas podéis ver en el recuadro adjunto, para que podáis disfrutar de la belleza del lenguaje matemático.

Los dos índices más conocidos y utilizados para medir la variabilidad o diversidad son el índice de Blau (o de Hirschman-Herfindal) y el índice de entropía (o de Teachman). Ambos tienen un significado muy similar y, de hecho, están correlacionados linealmente.

El índice de Blau cuantifica la probabilidad de que dos individuos tomados al azar de una población estén en diferentes categorías de una variable (siempre que el tamaño de la población sea infinito o el muestreo se realice con reemplazo). Su valor mínimo, cero, indicaría que todos los miembros están en la misma categoría, con lo que no habría variedad. Cuanto mayor sea su valor, más dispersos entre las diferentes categorías de la variable estarán los componentes del grupo. Este valor máximo se alcanza cuando los componentes se distribuyen de manera igual entre todas las categorías (sus frecuencias relativas son iguales). Su valor máximo sería (k-1)/k, con lo que es función de k (el número de categorías de la variable cualitativa) y no del tamaño de la población. Este valor tiende a 1 al aumentar el número de categorías (para decirlo de forma más correcta, cuando k tiende a infinito).

Veamos algunos ejemplos para aclararnos un poco. Si os fijáis en la fórmula del índice de Blau, el sumatorio de los cuadrados de las frecuencias relativas en una población totalmente homogénea valdrá 1, con lo que el índice valdrá 0. Solo habrá una categoría con frecuencia 1 (el 100%) y el resto con frecuencia cero.

Como hemos dicho, aunque los sujetos se distribuyan de forma similar en todas las categorías, el índice aumenta al aumentar el número de categorías. Por ejemplo, si hay cuatro categorías con una frecuencia de 0,25, el índice de Blau valdrá 0,75 (1 –  (4 x 0,252)). Si hay cinco categorías con una frecuencia de 0,2, el índice valdrá 0,8 (1 – (5 x 0,22). Y así sucesivamente.

Como ejemplo práctico, imaginad una enfermedad en la que hay diversidad desde el punto de vista genético. En una ciudad A tienen el genotipo 1 el 85% de los enfermos y el genotipo 2 el 15%. El índice de Blau valdrá 1 – (0,852 + 0,152) = 0,255. A la vista de este resultado podremos decir que, aunque no es homogénea, el grado de heterogeneidad no es muy alto.

Ahora imaginad una ciudad B con un 60% de genotipo 1, un 25% de genotipo 2 y un 15% de genotipo 3. El índice de Blau valdrá 1 – (0,62 x 0,252 x 0,152) = 0,555. Claramente, el grado de heterogeneidad es mayor entre los enfermos de la ciudad B que entre los de A. Los más listillos me diréis que eso ya se veía sin calcular el índice, pero tenéis que tener en cuenta que son ejemplos muy sencillos para no echar las bilis calculando. En los estudios de la vida real, más complejos, no suele ser tan evidente y, en cualquier caso, siempre es más objetivo cuantificar la medida que quedarnos con nuestra impresión subjetiva.

Este índice podría usarse también para comparar la diversidad de dos variables diferentes (siempre que tenga sentido hacerlo) pero, el hecho de que su valor máximo dependa del número de categorías de la variable, y no del tamaño de la muestra o de la población, cuestiona su utilidad para comparar la diversidad de variables con diferente número de categorías. Para evitar este problema el índice de Blau puede normalizarse dividiéndolo por su máximo, obteniéndose así el índice de variación cualitativa. Su significado es, lógicamente, el mismo que el del índice de Blau y su valor oscila entre 0 y 1. Así, podremos usar cualquiera de los dos si comparamos la diversidad de dos variables con el mismo número de categorías, pero será más correcto usar el índice de variación cualitativa si las variables tienen un número de categorías diferente.

El otro índice, algo menos famoso, es el índice de Teachman o índice de entropía, cuya fórmula también os adjunto. Muy brevemente diremos que su valor mínimo, que es cero, indica que no hay diferencias entre los componentes en la variable de interés (la población es homogénea). Su valor máximo puede estimarse como el valor negativo del logaritmo neperiano del inverso del número de categorías (-ln(1/k)) y se alcanza cuando todas las categorías tienen la misma frecuencia relativa (la entropía alcanza su valor máximo). Como veis, muy parecido al de Blau, que es mucho más sencillo de calcular que el de Teachman.

Para ir acabando esta entrada, el tercer índice del que os quiero hablar hoy nos indica, más que la variabilidad de la población, la dispersión que sus componentes tienen respecto al valor más frecuente. Esto puede medirse mediante la razón de variación, que indica el grado en que los valores observados no coinciden con el de la moda, que es la categoría más frecuente. Como con los anteriores, también os dejo la fórmula en el recuadro adjunto.

Para no desentonar con los anteriores, su valor mínimo también es cero y se obtiene cuando todos los casos coinciden con la moda. Cuanto más bajo el valor, menos dispersión. Cuanto más baja sea la frecuencia absoluta de la moda, más se aproximará a 1, el valor que indica máxima dispersión. Creo que este índice es muy sencillito, así que no le vamos a dedicar más atención.

Y hemos llegado al final. Espero que a partir de ahora prestemos más atención al análisis descriptivo de los resultados de las variables cualitativas. Claro que habría que completarlo con una descripción gráfica adecuada utilizando los archiconocidos diagramas de barras o de sectores (las tartas) y otros menos conocidos como los diagramas de Pareto. Pero esa es otra historia…

Idolatrada, pero incomprendida

Print Friendly, PDF & Email

La estadística se nos atraganta un poco a la mayoría de los que nos denominamos “clínicos”. Los conocimientos sobre el tema adquiridos durante nuestros años de formación hace tiempo que habitan en el mundo neblinoso del olvido. Recordamos vagamente términos como distribución de probabilidad, contraste de hipótesis, análisis de la varianza, regresión… Es por este motivo que siempre nos da un poco de aprensión cuando llegamos al apartado de métodos de los artículos científicos, en los que se detallan todas estas técnicas que, aunque nos resultan conocidas, no conocemos con la profundidad suficiente para interpretar correctamente sus resultados.

Menos mal que la Providencia nos ha puesto un salvavidas: nuestra querida e idolatrada p. ¿Quién no se habrá perdido con una descripción farragosa de métodos matemáticos para respirar, por fin, aliviado al encontrar el valor de p? Sobre todo, si la p es pequeña y tiene muchos ceros.

El problema con la p es que, aunque es unánimemente idolatrada, también es mayoritariamente incomprendida. Su valor es, con mucha frecuencia, malinterpretado. Y esto es así porque muchos albergamos ideas erróneas sobre lo que significa realmente el valor de p.

Vamos a intentar aclararlo.

Siempre que queremos saber algo sobre una variable, el efecto de una exposición, la comparación de dos tratamientos, etc., nos encontraremos con la ubicuidad del azar: está en todas partes y nunca podemos librarnos de él, aunque podemos intentar limitarlo y, desde luego, tratar de medir su efecto.

Pongamos un ejemplo para entenderlo mejor. Supongamos que hacemos un ensayo clínico para comparar el efecto de dos dietas, A y B, sobre la ganancia de peso en dos grupos de participantes. Simplificando, el resultado del ensayo tendrá una de las tres características: los de la dieta A ganan más peso, los de la dieta B ganan más peso, ambos grupos ganan igual peso (podría haber, incluso, una cuarta: los dos grupos pierden peso). En cualquier caso, siempre vamos a obtener un resultado diferente, aunque sea por azar (incluso en el supuesto de que las dos dietas sean iguales).

Imaginaos que los de la dieta A engordan 2 kg y los de la dieta B, 3 kg. ¿Se engorda más con la dieta B o la diferencia se debe al azar (muestras elegidas, variabilidad biológica, imprecisión de mediciones, etc.)? Aquí es donde entra nuestro contraste de hipótesis.

Cuando nosotros vamos a hacer el ensayo partimos de la hipótesis de igualdad, de no diferencia de efecto (se engorda igual con las dos dietas). Esto es lo que llamamos hipótesis nula (H0) que, repito para que quede claro, asumimos que es la cierta. Si la variable que estamos midiendo sigue una distribución de probabilidad conocida (normal, ji-cuadrado, t de Student, etc.), podemos calcular la probabilidad de presentarse cada uno de los valores de la distribución. En otras palabras, podemos calcular la probabilidad de obtener un resultado tan distinto de la igualdad como el que hemos obtenido, siempre bajo el supuesto de la H0.

Ese es el valor de p: la probabilidad de que la diferencia de resultado observada se deba al azar. Por convenio, si esa probabilidad es menor del 5% (0,05) nos parecerá poco probable que la diferencia se deba al azar y rechazaremos H0, la hipótesis de igualdad, aceptando la hipótesis alternativa (Ha) que, en este ejemplo, dirá que una dieta engorda más que la otra. Por otra parte, si la probabilidad es mayor del 5%, no nos sentiremos lo suficientemente seguros para afirmar que la diferencia no se debe a la casualidad, así que NO rechazamos H0 y nos quedamos con la hipótesis de igualdad: las dos dietas son similares.

Tened en cuenta que siempre nos movemos en el terreno de la probabilidad. Si la p es menor de 0,05 (estadísticamente significativa), rechazaremos H0, pero siempre con una probabilidad de cometer un error de tipo 1: dar por bueno un efecto que, en realidad, no existe (un falso positivo). Por otra parte, si p es mayor de 0,05, nos quedamos con H0 y decimos que no hay diferencia de efecto, pero siempre con una probabilidad de cometer un error de tipo 2: no detectar un efecto que, en realidad, existe (falso negativo).

Podemos ver, por tanto, que el valor de p es algo sencillo desde el punto de vista conceptual. Sin embargo, hay una serie de errores habituales sobre lo que representa o no representa el valor de p. Vamos a tratar de aclararlos.

Es falso que una p menor de 0,05 signifique que la hipótesis nula es falsa y una p mayor de 0,05 que la hipótesis nula es cierta. Como ya hemos mencionado, el abordaje es siempre probabilístico. La p < 0,05 solo quiere decir que, por convenio, es poco probable que H0 sea cierta, así que la rechazamos, aunque siempre con una pequeña probabilidad de equivocarnos. Por otra parte, si p > 0,05 tampoco se asegura que H0 sea cierta, ya que puede existir un efecto real y que el estudio no tenga potencia suficiente para detectarlo.

En este punto hay que recalcar un hecho: la hipótesis nula solo es falsable. Esto quiere decir que solo podemos rechazarla (con lo que nos quedamos con Ha, con una probabilidad de error), pero nunca podemos afirmar que es cierta. Si p > 0,05 no podremos rechazarla, así que nos mantendremos en el supuesto inicial de igualdad de efecto, que no podemos demostrar de una forma positiva.

Es falso que el valor de p tenga relación con la fiabilidad del estudio. Podemos pensar que las conclusiones del estudio serán más fiables cuanto menor sea el valor de p, pero tampoco es cierto. En realidad, el valor de p es la probabilidad de obtener un valor semejante por azar si repetimos el experimento en las mismas condiciones y no solo depende de que el efecto que queremos demostrar exista o no. Hay otros factores que pueden influir en la magnitud de la p: el tamaño de la muestra, el tamaño del efecto, la varianza de la variable medida, la distribución de probabilidad empleada, etc.

Es falso que el valor de p indique la importancia del resultado. Como ya hemos repetido varias veces, el valor de p solo es la probabilidad de que la diferencia observada se deba al azar. Una diferencia estadísticamente significativa no tiene obligatoriamente que ser clínicamente importante. La importancia clínica la establece el investigador y es posible encontrar resultados con una p muy pequeña que no sean importantes desde el punto de vista clínico y viceversa, valores no significativos que sean importantes.

Es falso que el valor de p represente la probabilidad de que la hipótesis nula sea cierta. Esta creencia hace que, a veces, busquemos el valor exacto de p y no nos conformemos con saber solo si es mayor o menor de 0,05. La culpa de este error de concepto la tiene una mala interpretación de la probabilidad condicional. A nosotros nos interesa saber cuál es la probabilidad de que H0 sea cierta una vez que hemos obtenido unos resultados con nuestro ensayo. Expresado matemáticamente, queremos saber P(H0|resultados). Sin embargo, el valor de p lo que nos proporciona es la probabilidad de obtener nuestros resultados bajo el supuesto de que la hipótesis nula es cierta, o sea, P(resultados|H0).

Por tanto, si interpretamos que la probabilidad de que H0 sea cierta a la vista de nuestros resultados (P(H0|resultados)) es igual al valor de p (P(resultados|H0)) estaremos cayendo en una falacia inversa o falacia de la transposición de los condicionales.

En realidad, la probabilidad de que H0 sea cierta no depende solo de los resultados del estudio, sino que también se ve influida por la probabilidad previa que se estimase antes del estudio, que es una medida de la creencia subjetiva que refleja su plausibilidad, generalmente basada en estudios y conocimientos previos. Pensemos que queremos contrastar un efecto que creemos muy poco probable que sea cierto. Valoraremos con precaución un valor de p < 0,05, aunque sea significativo. Por el contrario, si estamos convencidos de que el efecto existe, con poca p nos daremos por satisfechos.

En resumen, para calcular la probabilidad de que el efecto sea real deberemos calibrar el valor de p con el valor de la probabilidad basal de H0, que será asignada por el investigador o por datos previos disponibles. Existen métodos matemáticos para calcular esta probabilidad en función de su probabilidad basal y el valor de p, pero lo más sencillo es recurrir a una herramienta gráfica que es el nomograma de Held, que podéis ver en la figura.

Para utilizar el nomograma de Held solo tenemos que trazar una línea desde la probabilidad previa que consideremos que tiene H0 hasta el valor de p y prolongarla para ver qué valor de probabilidad posterior alcanzamos. Como ejemplo, hemos representado un estudio con un valor de p = 0,03 en el que creemos que la probabilidad de la H0 es del 20% (creemos que hay un 80% de que el efecto sea real). Si prolongamos la línea nos dice que la probabilidad mínima de H0 del 6%: hay un 94% de probabilidad de que el efecto sea real. Por otro lado, pensad en otro estudio con el mismo valor de p pero en el que pensamos que la probabilidad del efecto es más baja, por ejemplo, del 20% (la probabilidad de H0 es del 80%), Para un mismo valor de p, la probabilidad mínima posterior de H0 es del 50%, luego hay un 50% de que el efecto sea real. Vemos, así, como la probabilidad posterior cambia según la probabilidad previa.

Y hasta aquí hemos llegado por hoy. Hemos visto cómo la p solo nos da una idea del papel que el azar ha podido tener en nuestros resultados y que, además, puede depender de otros factores, quizás el más importante el tamaño muestral. La conclusión es que, en muchas ocasiones, el valor de p es un parámetro que permite valorar de forma muy limitada la importancia de los resultados de un estudio. Para hacerlo mejor, es preferible recurrir al uso de los intervalos de confianza, que nos permitirán valorar la importancia clínica y la significación estadística. Pero esa es otra historia…

El detector de tramposos

Print Friendly, PDF & Email

Cuando pensamos en inventos e inventores, a la mayoría de nosotros nos viene a la cabeza el nombre de Thomas Alva Edison, conocido entre sus amigos como el mago de Menlo Park. Este señor creó más de mil inventos, de algunos de los cuales puede decirse que cambiaron el mundo. Entre ellos podemos nombrar la bombilla incandescente, el fonógrafo, el kinetoscopio, el polígrafo, el telégrafo cuádruplex, etc., etc., etc. Pero quizás su gran mérito no sea el de haber inventado todas estas cosas, sino el de aplicar métodos de producción en cadena y de trabajo en equipo al proceso de investigación, favoreciendo la difusión de sus inventos y la creación del primer laboratorio de investigación industrial.

Pero a pesar de toda su genialidad y excelencia, a Edison se le pasó inventar algo que habría tenido tanta utilidad como la bombilla: un detector de tramposos. La explicación de esta falta es doble: vivió entre los siglos XIX y XX y no se dedicaba a leer artículos sobre medicina. Si hubiese vivido en nuestro tiempo y hubiese tenido que leer literatura médica, no me cabe duda que el mago de Menlo Park se habría dado cuenta de la utilidad de este invento y se habría puesto las pilas (que, por cierto, no las inventó él, sino Alessandro Volta).

Y no es que yo esté hoy especialmente negativo, el problema es que, como ya dijo Altman hace más de 15 años, el material remitido a las revistas médicas es malo desde el punto de vista metodológico en un altísimo porcentaje de los casos. Es triste, pero el sitio más adecuado para guardar muchos de los trabajos que se publican es el cubo de la basura.

En la mayor parte de los casos la causa probablemente sea la ignorancia de los que escribimos. “Somos clínicos”, nos decimos, así que dejamos de lado los aspectos metodológicos, de los cuales tenemos una formación, en general, bastante deficiente. Para arreglarlo, las revistas mandan revisar nuestros trabajos a otros colegas, que andan más o menos como nosotros. “Somos clínicos”, se dicen, así que se comen todos nuestros errores.

Aunque esto es, de por sí, grave, puede tener remedio: estudiar. Pero es un hecho todavía más grave que, en ocasiones, estos errores pueden ser intencionados con el objetivo de inducir al lector a llegar a una determinada conclusión tras la lectura del trabajo. El remedio para este problema es hacer una lectura crítica del trabajo, prestando atención a la validez interna del estudio. En este sentido, quizás el aspecto más difícil de valorar para el clínico sin formación metodológica sea el relacionado con la estadística empleada para analizar los resultados del trabajo. Es aquí, sin ninguna duda, donde mejor se pueden aprovechar de nuestra ignorancia utilizando métodos que proporcionen resultados más vistosos, en lugar de los métodos adecuados.

Como sé que no vais a estar dispuestos a hacer un máster sobre bioestadística, en espera de que alguien invente el detector de tramposos, vamos a dar una serie de pistas para que el personal no experto pueda sospechar la existencia de estas trampas.

La primera puede parecer una obviedad, pero no lo es: ¿se ha utilizado algún método estadístico? Aunque es excepcionalmente raro, puede haber autores que no consideren utilizar ninguno. Recuerdo un congreso al que pude asistir en el que se exponían los valores de una variable a lo largo del estudio que, primero, subían y, después, bajaban, lo que permitía concluir que el resultado no era “muy allá”. Como es lógico y evidente, toda comparación debe hacerse con el adecuado contraste de hipótesis e indicarse su nivel de significación y la prueba estadística utilizada. En caso contrario, las conclusiones carecerán de validez alguna.

Un aspecto clave de cualquier estudio, especialmente en los de intervención, es el cálculo previo del tamaño muestral necesario. El investigador debe definir el efecto clínicamente importante que quiere ser capaz de detectar con su estudio y calcular a continuación qué tamaño muestral le proporcionará al estudio la potencia suficiente para demostrarlo. La muestra de un estudio no es grande o pequeña, sino suficiente o insuficiente. Si la muestra no es suficiente, puede no detectarse un efecto existente por falta de potencia (error de tipo 2). Por otro lado, una muestra mayor de lo necesario puede mostrar como estadísticamente significativo un efecto que no sea relevante desde el punto de vista clínico. Aquí hay dos trampas muy habituales. Primero, el del estudio que no alcanza significación y sus autores afirman que es por falta de potencia (por tamaño muestral insuficiente), pero no hacen ningún esfuerzo por calcular la potencia, que siempre puede hacerse a posteriori. En ese caso, podemos hacerlo nosotros usando programas de estadística o cualquiera de las calculadoras disponibles en internet, como la GRANMO. Segundo, se aumenta el tamaño muestral hasta que la diferencia observada sea significativa, encontrando la ansiada p < 0,05. Este caso es más sencillo: solo tenemos que valorar si el efecto encontrado es relevante desde el punto de vista clínico. Os aconsejo practicar y comparar los tamaños muestrales necesarios de los estudios con los que definen los autores. A lo mejor os lleváis alguna sorpresa.

Una vez seleccionados los participantes, un aspecto fundamental es el de la homogeneidad de los grupos basales. Esto es especialmente importante en el caso de los ensayos clínicos: si queremos estar seguros de que la diferencia de efecto observada entre los dos grupos se debe a la intervención, los dos grupos deben ser iguales en todo, menos en la intervención.

Para esto nos fijaremos en la clásica tabla I de la publicación del ensayo. Aquí tenemos que decir que, si hemos repartido los participantes al azar entre los dos grupos, cualquier diferencia entre ellos se deberá, sí o sí, al azar. No os dejéis engañar por las p, recordad que el tamaño muestral está calculado para la magnitud clínicamente importante de la variable principal, no para las características basales de los dos grupos. Si veis alguna diferencia y os parece clínicamente relevante, habrá que comprobar que los autores han tenido en cuenta su influencia sobre los resultados del estudio y han hecho el ajuste pertinente durante la fase de análisis.

El siguiente punto es el de la aleatorización. Esta es una parte fundamental de cualquier ensayo clínico, por lo que debe estar claramente definido cómo se hizo. Aquí os tengo que decir que el azar es caprichoso y tiene muchos vicios, pero raramente produce grupos de igual tamaño. Pensad un momento si tiráis una moneda 100 veces. Aunque la probabilidad de salir cara en cada lanzamiento sea del 50%, será muy raro que lanzando 100 veces saquéis exactamente 50 caras. Cuánto mayor sea el número de participantes, más sospechoso nos deberá parecer que los dos grupos sean iguales. Pero cuidado, esto solo vale para la aleatorización simple. Existen métodos de aleatorización en los que los grupos sí pueden quedar más equilibrados.

Otro punto caliente es el uso indebido que, a veces, puede hacerse con variables cualitativas. Aunque las variables cualitativas pueden codificarse con números, mucho cuidado con hacer operaciones aritméticas con ellos. Probablemente no tendrán ningún sentido. Otra trampa que podemos encontrarnos tiene que ver con el hecho de categorizar una variable continua. Pasar una variable continua a cualitativa suele llevar aparejada pérdida de información, así que debe tener un significado clínico claro. En caso contrario, podemos sospechar que la razón sea la búsqueda de una p < 0,05, siempre más fácil de conseguir con la variable cualitativa.

Entrando ya en el análisis de los datos, hay que comprobar que los autores han seguido el protocolo del estudio diseñado a priori. Desconfiad siempre de los estudios post hoc que no estaban planificados desde el comienzo. Si buscamos lo suficiente, siempre hallaremos un grupo que se comporta como a nosotros nos interesa. Como suele decirse, si torturas los datos lo suficiente, acabarán por confesar.

Otra conducta inaceptable es finalizar el estudio antes de tiempo por obtenerse buenos resultados. Una vez más, si la duración del seguimiento se ha establecido durante la fase de diseño como la idónea para detectar el efecto, esto debe respetarse. Cualquier violación del protocolo debe estar más que justificada. Lógicamente, es lógico terminar el estudio antes de tiempo por motivos de seguridad de los participantes, pero habrá que tener en cuenta cómo afecta este hecho en la valoración de los resultados.

Antes de realizar el análisis de los resultados, los autores de cualquier trabajo tienen que depurar sus datos, revisando la calidad y la integridad de los valores recogidos. En este sentido, uno de los aspectos a los que hay que prestar atención es al manejo de los datos extremos (los llamados outliers). Estos son los valores que se alejan mucho de los valores centrales de la distribución. En muchas ocasiones pueden deberse a errores en el cálculo, medición o transcripción del valor de la variable, pero también pueden ser valores reales que se deban a la especial idiosincrasia de la variable. El problema es que existe una tendencia a eliminarlos del análisis aún cuando no haya seguridad de que se deban a algún error. Lo correcto es tenerlos en cuenta al hacer el análisis y utilizar, si es necesario, métodos estadísticos robustos que permitan ajustar estas desviaciones.

Finalmente, el aspecto que nos puede costar más a los no muy expertos en estadística es saber si se ha empleado el método estadístico correcto. Un error frecuente es el empleo de pruebas paramétricas sin comprobar previamente si se cumplen los requisitos necesarios. Esto puede hacerse por ignorancia o para obtener la significación estadística, ya que las pruebas paramétricas son menos exigentes en este sentido. Para entendernos, la p será más pequeña que si empleamos la prueba equivalente no paramétrica.

También, con cierta frecuencia, se obvian otros requisitos para poder aplicar determinada prueba de contraste. Como ejemplo, para realizar una prueba de la t de Student o un ANOVA es necesario comprobar la homocedasticidad (una palabra muy fea que quiere decir que las varianzas son iguales), comprobación que se pasa por alto en muchos trabajos. Lo mismo ocurre con los modelos de regresión que, con frecuencia, no se acompañan del preceptivo diagnóstico del modelo que permite justificar su uso.

Otro asunto en el que puede haber trampa es el de las comparaciones múltiples. Por ejemplo, cuando el ANOVA da significativo nos dice que hay al menos dos medias que son diferentes, pero no cuáles, así que nos ponemos a compararlas dos a dos. El problema es que cuando hacemos comparaciones repetidas aumenta la probabilidad de error de tipo I, o sea, la probabilidad de encontrar diferencias significativas solo por azar. Esto puede permitir encontrar, aunque solo sea por casualidad, una p < 0,05, lo que viste mucho el estudio (sobre todo si has gastado mucho tiempo y/o dinero en hacerlo). En estos casos los autores deben emplear alguna de las correcciones disponibles (como la de Bonferroni, una de las más sencillas) para que el alfa global se mantenga en 0,05. El precio a pagar es sencillo: la p tiene que ser mucho más pequeña para ser significativa. Cuando veamos comparaciones múltiples sin corrección solo tendrá dos explicaciones: la ignorancia del que haya hecho el análisis o el intento de encontrar una significación que, probablemente, no soportaría la disminución del valor de p que conllevaría la corrección.

Otra víctima frecuente del mal uso de la estadística es el coeficiente de correlación de Pearson, que se utiliza para casi todo. La correlación, como tal, nos dice si dos variables están relacionadas, pero no nos dice nada sobre la causalidad de una variable para la producción de la otra. Otro mal uso es utilizar el coeficiente de correlación para comparar los resultados obtenidos por dos observadores, cuando probablemente lo que deba utilizarse en este caso es el coeficiente de correlación intraclase (para variables continuas) o el índice kappa (para cualitativas dicotómicas). Por último, también es incorrecto comparar dos métodos de medición (por ejemplo, glucemia capilar y venosa) mediante correlación o regresión lineal. Para estos casos lo correcto sería usar la regresión de Passing y Bablok.

Otra situación en la que una mente paranoica como la mía sospecharía es aquella en la que el método estadístico empleado no lo conocen ni los más listos del lugar. Siempre que haya una forma más conocida (y muchas veces más sencilla) de hacer el análisis, deberemos preguntarnos por qué han usado un método tan raro. En estos casos exigiremos a los autores que justifiquen su elección y que aporten una cita donde podamos revisar el método. En estadística hay que tratar de elegir la técnica correcta para cada ocasión y no aquella que nos proporcione el resultado más apetecible.

En cualquiera de los test de contraste anteriores, los autores suelen emplear un nivel de significación para p < 0,05, lo habitual, pero el contraste puede hacerse con una o con dos colas. Cuando hacemos un ensayo para probar un nuevo fármaco, lo que esperamos es que funcione mejor que el placebo o el fármaco con el que lo estemos comparando. Sin embargo, pueden ocurrir otras dos situaciones que no podemos desdeñar: que funcione igual o, incluso, que funcione peor. Un contraste bilateral (con dos colas) no asume la dirección del efecto, ya que calcula la probabilidad de obtener una diferencia igual o mayor que la observada, en las dos direcciones. Si el investigador está muy seguro de la dirección del efecto puede hacer un contraste unilateral (con una cola), midiendo la probabilidad del resultado en la dirección considerada. El problema es cuando lo hace por otra razón: la p del contraste bilateral es el doble de grande que la del unilateral, por lo que será más fácil conseguir significación estadística con el contraste unilateral. Lo que no es correcto es que este último sea el motivo para hacer un contraste unilateral. Lo correcto, salvo que haya razones bien justificadas, es hacer un contraste bilateral.

Para ir terminando esta entrada tan tramposa, diremos unas palabras sobre el uso de las medidas adecuadas para presentar los resultados. Hay muchas formas de maquillar la verdad sin llegar a mentir y, aunque en el fondo todas dicen lo mismo, la apariencia puede ser muy diferente según cómo lo digamos. El ejemplo más típico es el de usar medidas de riesgo relativas en lugar de medidas absolutas de impacto. Siempre que veamos un ensayo clínico, debemos exigir que nos presenten la reducción absoluta del riesgo y el número necesario a tratar (NNT). La reducción relativa del riesgo es un número mayor que la absoluta, por lo que parecerá que el impacto es mayor. Dado que las medidas absolutas son más fáciles de calcular y se obtienen de los mismos datos que la relativas, deberemos desconfiar si los autores no nos las ofrecen: quizás el efecto no sea tan importante como nos pretenden hacer ver.

Otro ejemplo es el uso de la odds ratio frente a los riesgos relativos (cuando pueden calcularse ambos). La odds ratio tiende a magnificar la asociación entre las variables, así que su uso no justificado también puede hacernos sospechar. Si podéis, calcular el riesgo relativo y comparad las dos medidas.

De igual manera, sospecharemos de los estudios de pruebas diagnósticas que no nos proporcionan los cocientes de probabilidad y se limiten a sensibilidad, especificidad y valores predictivos. Los valores predictivos pueden ser altos si la prevalencia de la enfermedad en la población del estudio es alta, pero no sería aplicables a poblaciones con menos proporción de enfermos. Esto se soslaya con el uso de los cocientes de probabilidad. Siempre deberemos preguntarnos el motivo que puedan tener los autores para obviar el dato parámetro más válido para calibrar la potencia de la prueba diagnóstica.

Y, por último, mucho cuidado con los gráficos: aquí las posibilidades de maquillar los resultados solo están limitadas por la imaginación. Hay que fijarse en las unidades empleadas y tratar de extraer la información del gráfico más allá de lo que pueda parecer que representa a primera vista.

Y aquí dejamos el tema por hoy. Nos ha faltado hablar en detalle sobre otra de las entidades más incomprendidas y manipuladas, que no es otra que nuestra p. A p se le atribuyen muchos significados, generalmente de forma errónea, como la probabilidad de que la hipótesis nula sea cierta, probabilidad que tiene su método específico para poder hacer una estimación. Pero esa es otra historia…

Pareja con pareja

Print Friendly, PDF & Email

Todos conoceréis el caso de alguien que, tras realizar un estudio y recoger varios millones de variables, se ha dirigido al estadístico de su centro de trabajo y, demostrando de forma fehaciente su claridad de ideas respecto a su trabajo, le ha dicho: por favor (hay que ser educados), crúzalo todo con todo, a ver qué sale.

Llegados a este punto te pueden ocurrir varias cosas. Si el estadístico es un desalmado sin escrúpulos te dirigirá una media sonrisa y te dirá que vuelvas al cabo de unos días. Entonces te dará varios centenares de hojas con gráficos, tablas y números que no sabrás por dónde coger. Otra cosa que te puede ocurrir es que te mande a paseo, cansado como estará de que le hagan peticiones semejantes.

Pero puedes tener suerte y encontrar un estadístico competente y paciente que, de forma abnegada, te explicará que la cosa no debe funcionar así. Lo lógico es que tú, antes de recoger ningún dato, hayas elaborado una memoria del proyecto en la que esté previsto, entre otras cosas, qué hay que analizar y qué variables hay que cruzar entre sí. Incluso, te puede sugerir que, si el análisis no es muy complicado, intentes hacerlo tú mismo.

Esto último te puede parecer el desvarío de una mente trastornada por las matemáticas pero, si lo piensas un momento, no es tan mala idea. Si nosotros hacemos el análisis, al menos el preliminar, de nuestros resultados, nos puede ayudar a entender mejor el estudio. Además, ¿quién mejor que nosotros mismos puede saber lo que queremos?

Con los paquetes estadísticos actuales, la estadística bivariante más sencilla puede estar a nuestro alcance. Únicamente tenemos que tener buen cuidado en saber elegir el test de contraste de hipótesis adecuado, para lo cual habremos de tener en cuenta tres aspectos: el tipo de variables que queremos comparar, si los datos son apareados o independientes y si tenemos que utilizar test paramétricos o no paramétricos. Veamos estos tres aspectos.

En cuanto al tipo de variables, existen múltiples denominaciones según la clasificación o el paquete estadístico que utilicemos pero, simplificando, diremos que hay tres tipos de variables. En primer lugar, están las continuas o de escala. Como su nombre indica, recogen el valor de una variable continua como puede ser el peso, la talla, la glucemia, etc. En segundo lugar, están las variables nominales, que constan de dos o más categorías que son mutuamente excluyentes. Por ejemplo, la variable color de pelo puede tener las categorías “moreno”, “rubio” y “pelirrojo”. Cuando estas variables tienen dos categorías, las llamamos dicotómicas (sí/no, vivo/muerto, etc.). Por último, cuando las categorías están ordenadas por rango, hablamos de variables ordinales: “no fuma”, “fuma poco”, “fuma moderadamente”, “fuma mucho”. Aunque a veces puedan usar números, estos indican la posición de las categorías dentro de la serie, sin implicar, por ejemplo, que la distancia de la categoría 1 a la 2 sea la misma que la de la 2 a la 3. Por ejemplo, podemos clasificar el reflujo vesicoureteral en grados I, II, III y IV (tener un grado IV es más que un II, pero no significa que se tenga el doble de reflujo).

Saber qué tipo de variable tenemos entre manos es sencillo. Si tenemos duda, podemos seguir el siguiente razonamiento basado en la respuesta a dos preguntas:

  1. ¿Tiene la variable valores teóricos infinitos? Aquí hay que abstraerse un poco y fijarse en los de “valores teóricos”. Por ejemplo, si recogemos el peso de nuestros participantes, los valores teóricos serán infinitos aunque, en la práctica, esto estará limitado por la precisión de nuestra báscula. Si la respuesta es sí estaremos antes una variable continua o de escala. Si es no, pasamos a la siguiente pregunta.
  2. ¿Los valores están ordenados en algún tipo de rango? Si la respuesta es sí, nos encontraremos ante una variable ordinal. Si la respuesta es no, tendremos una variable nominal.

El segundo aspecto es el de las medidas apareadas o independientes. Dos medidas están apareadas cuando se mide una variable en dos ocasiones tras haber aplicado algún cambio, habitualmente en el mismo sujeto. Por ejemplo: presión arterial antes y después de un test de esfuerzo, peso antes y después de una intervención nutricional, etc. Por su parte, las medidas independientes son aquellas que no tienen relación entre sí (son variables diferentes): peso, talla, género, edad, etc.

Por último, hemos mencionado lo de poder utilizar test paramétricos o no paramétricos. No vamos a entrar ahora en detalle, pero para poder utilizar un test paramétrico la variable debe cumplir una serie de características, como seguir una distribución normal, tener un determinado tamaño muestral, etc. Además, hay técnicas que son más exigentes que otras a la hora de tener que cumplir estas condiciones. Ante la duda, es preferible utilizar técnicas no paramétricas sin necesidad (el único problema es que es más difícil conseguir significación estadística, pero el contraste es igual de válido) que usar una prueba paramétrica cuando no se cumplan los requisitos necesarios.

Una vez que ya hemos dado respuesta a estos tres aspectos, solo nos queda hacer las parejas de variables que vamos a comparar y elegir el test estadístico apropiado. Lo podéis ver resumido en la tabla adjunta.En las filas está representado el tipo de variable independiente, que es aquella cuyo valor no depende de otra variable (suele estar en el eje x de las representaciones gráficas) y que suele ser la que modificamos en el estudio para ver el efecto sobre otra variable (la dependiente). En las columnas, por su parte, tenemos la variable dependiente, que es aquella cuyo valor se modifica con los cambios de la variable independiente. De todas formas, no os lieis: el programa estadístico hará el contraste de hipótesis sin tener en cuenta cuál es la dependiente y cuál la independiente, solo tendrá en cuenta los tipos de variables.

La tabla se explica sola, así que no le vamos a dar muchas vueltas. Por ejemplo, si hemos medido la presión arterial (variable de escala) y queremos saber si hay diferencias entre hombres y mujeres (género, variable nominal dicotómica), el test adecuado será el de la t de Student para muestras independientes. Si quisiéramos ver si hay diferencia en la presión antes y después de un tratamiento, utilizaríamos el mismo test de la t de Student pero para muestras apareadas.

Otro ejemplo: si queremos saber si hay diferencias significativas en el color de pelo (nominal politómica: “rubio”, “moreno” y “pelirrojo) y si el participante es del norte o sur de Europa (nominal dicotómica), podríamos emplear un test de la Ji-cuadrado.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de las peculiaridades de cada test que debemos tener en cuenta, sino que solo hemos mencionado el test en sí. Por ejemplo, la ji-cuadrado tiene que cumplir unos mínimos en cada casilla de la tabla de contingencia, en el caso de la t de Student debemos considerar si las varianzas son iguales (homocedasticidad) o no, etc. Pero esa es otra historia…

Aquiles y el bosque de los efectos

Print Friendly, PDF & Email

Aquiles. ¡Qué tío! Sin duda, uno de los más famosos de todo el follón que armaron en Troya por culpa de Helena la guapa. Ya sabéis su historia. El tío era la leche porque su madre, que era nada menos que la ninfa Tetis, lo bañó en ambrosía y lo sumergió en la laguna Estigia para que fuese invulnerable. Pero cometió un error que una ninfa no debiera haberse permitido: lo agarró por el talón derecho, que no se mojó en la laguna. Así que de ahí le viene a Aquiles su punto débil. Héctor no se dio cuenta a tiempo pero Paris, bastante más espabilado, le metió un flechazo en el talón y lo mandó otra vez a la laguna, pero no al agua, sino al otro lado. Y sin barquero.

Este cuento es el origen de la expresión “talón de Aquiles”, que suele referirse al punto más débil o vulnerable de alguien o algo que, por lo demás, suele ser conocido por su fortaleza.

Por ejemplo, algo tan robusto y formidable como el metanálisis tiene su talón de Aquiles: el sesgo de publicación. Y eso se debe a que en el mundo de la ciencia no hay justicia social.

Todos los trabajos científicos deberían tener las mismas oportunidades de ser publicados y alcanzar la fama, pero la realidad no es en absoluto así y los trabajos pueden verse discriminados por cuatro razones: significación estadística, popularidad del tema que tratan, el tener alguien que los apadrine y el idioma en que están escritos.

Estos son los principales factores que pueden contribuir a este sesgo de publicación. En primer lugar, es más probable que se publiquen los estudios con resultados significativos y, dentro de estos, es más probable que se publiquen cuando el efecto es mayor. Esto hace que los estudios con resultados negativos o con efectos de pequeña magnitud puedan no llegar a ser publicados, con lo que sacaremos una conclusión sesgada del análisis solo de los estudios grandes con resultado positivo. De igual manera, los trabajos sobre temas de interés público tienen más probabilidad de ser publicados con independencia de la importancia de sus resultados. Además, el padrino también influye: una casa comercial que financie un estudio de un producto suyo y le salga mal, encima no va a publicarlo para que todos sepamos que su producto no es útil.

En segundo lugar, como es lógico, los estudios publicados tienen más probabilidad de llegar a nuestras manos que los que no se publican en revistas científicas. Es el caso de tesis doctorales, comunicaciones a congresos, informes de agencias gubernamentales o, incluso, estudios pendientes de publicar realizados por investigadores del tema que estemos tratando. Por este motivo es tan importante hacer una búsqueda que incluya este tipo de trabajos, que se engloban dentro del término de literatura gris.

Por último, pueden enumerarse una serie de sesgos que influyen en la probabilidad de que un trabajo sea publicado o recuperado por el investigador que realiza la revisión sistemática tales como el sesgo de lenguaje (limitamos la búsqueda por idioma), el sesgo de disponibilidad (se incluyen solo los estudios que son fáciles de recuperar por parte del investigador), el sesgo de coste (se incluyen estudios que son gratis o baratos), el sesgo de familiaridad (solo se incluyen los de la disciplina del investigador), el sesgo de duplicación (los que tienen resultados significativos tienen más probabilidad de ser publicados más de una vez) y el sesgo de citación (los estudios con resultado significativo tienen más probabilidad de ser citados por otros autores).

Uno puede pensar que esto de perder trabajos durante la revisión no puede ser tan grave, ya que podría argumentarse, por ejemplo, que los estudios no publicados en revistas con revisión por pares suelen ser de peor calidad, por lo que no merecen ser incluidos en el metanálisis. Sin embargo, no está claro ni que las revistas científicas aseguren la calidad metodológica del trabajo ni que este sea el único método para hacerlo. Hay investigadores, como los de las agencias gubernamentales, que no están interesados en publicar en revistas científicas, sino en elaborar informes para quienes los encargan. Además, la revisión por pares no es garantía de calidad ya que, con demasiada frecuencia, ni el investigador que realiza el trabajo ni los encargados de revisarlo tienen una formación en metodología que asegure la calidad del producto final.

Todo esto puede verse empeorado por el hecho de que estos mismos factores pueden influir en los criterios de inclusión y exclusión de los estudios primarios del metanálisis, de tal forma que obtenemos una muestra de trabajos que puede no ser representativa del conocimiento global sobre el tema del que trate la revisión sistemática y el metanálisis.

Si tenemos un sesgo de publicación la aplicabilidad de los resultados se verá seriamente comprometida. Por esto decimos que el sesgo de publicación es el verdadero talón de Aquiles del metanálisis.

Si delimitamos correctamente los criterios de inclusión y exclusión de los estudios y hacemos una búsqueda global y sin restricciones de la literatura habremos hecho todo lo posible para minimizar el riesgo de sesgo, pero nunca podremos estar seguros de haberlo evitado. Por eso se han ideado técnicas y herramientas para su detección.

La más usada tiene el simpático nombre de gráfico en embudo, aunque es más conocido por su nombre en inglés: funnel plot. En él se representa la magnitud del efecto medido (eje X) frente a una medida de precisión (eje Y), que suele ser el tamaño muestral, pero que puede también ser el inverso de la varianza o el error estándar. Representamos cada estudio primario con un punto y observamos la nube de puntos.

En la forma más habitual, con el tamaño de la muestra en el eje Y, la precisión de los resultados será mayor en los estudios de muestra más grande, con lo que los puntos estarán más juntos en la parte alta del eje y se irán dispersando al acercarnos al origen del eje Y. De esta forma, se observa una nube de puntos en forma de embudo, con la parte ancha hacia abajo. Este gráfico debe ser simétrico y, en caso de que no sea así, debemos sospechar siempre un sesgo de publicación. En el segundo ejemplo que os pongo podéis ver como “faltan” los estudios que están hacia el lado de falta de efecto: esto puede significar que solo se publican los estudios con resultado positivo.

Este método es muy sencillo de utilizar pero, en ocasiones, podemos tener dudas acerca de la asimetría de nuestro embudo, sobre todo si el número de estudios es pequeño. Además, el embudo puede ser asimétrico por defectos de la calidad de los estudios o porque estemos tratando con intervenciones cuyo efecto varíe según el tamaño de la muestra de cada estudio.  Para estos casos se han ideado otros métodos más objetivos como la prueba de correlación de rangos de Begg y la prueba de regresión lineal de Egger.

La prueba de Begg estudia la presencia de asociación entre las estimaciones de los efectos y sus varianzas. Si existe correlación entre ellos, mal asunto. El problema de esta prueba es que tiene poca potencia estadística, por lo que es poco de fiar cuando el número de estudios primarios es pequeño.

La prueba de Egger, más específica que la de Begg, consiste en representar gráficamente la recta de regresión entre la precisión de los estudios (variable independiente) y el efecto estandarizado (variable dependiente). Esta regresión hay que ponderarla por el inverso de la varianza, así que no os recomiendo que la hagáis por vuestra cuenta, salvo que seáis estadísticos consumados. Cuando no hay sesgo de publicación la recta de regresión se origina en el cero del eje Y. Cuánto más se aleje del cero, mayor evidencia de sesgo de publicación.

Como siempre, existen programas informáticos que hacen estas pruebas con rapidez sin que tengamos que quemarnos el cerebro con sus cálculos.

¿Y si después de hacer el trabajo vemos que hay sesgo de publicación? ¿Podemos hacer algo para ajustarlo? Como siempre, podemos.

La forma más sencilla es utilizar un método gráfico que se llama de ajuste y relleno (trim and fill para los amantes del inglés). Consiste en lo siguiente: a) dibujamos el funnel plot; b) quitamos los estudios pequeños para que el embudo sea simétrico; c) se determina el nuevo centro del gráfico; d) se vuelven a poner los estudios quitados y añadimos su reflejo al otro lado de la línea central; e) reestimamos el efecto.Otra actitud muy conservadora que podemos adoptar es dar por hecho que existe un sesgo de publicación y preguntarnos cuánto afecta nuestros resultados, dando por hecho que nos hemos dejado estudios sin incluir en el análisis.

La única forma de saber si el sesgo de publicación afecta a nuestras estimaciones sería comparar el efecto en los estudios recuperados y en los no recuperados pero, claro está, entonces no tendríamos que preocuparnos por el sesgo de publicación.

Para saber si el resultado observado es robusto o, por el contrario, es susceptible de estar sesgado por un sesgo de publicación, se han ideado dos métodos de la N de seguridad, los conocidos en inglés como los métodos fail-safe N.

El primero es el método de la N de seguridad de Rosenthal. Supongamos que tenemos un metanálisis con un efecto que es estadísticamente significativo, por ejemplo, un riesgo relativo mayor que uno con una p < 0,05 (o un intervalo de confianza del 95% que no incluye el valor nulo, el uno). Entonces nos hacemos una pregunta: ¿cuántos estudios con RR = 1 (valor nulo) tendremos que incluir hasta que la p no sea significativa? Si necesitamos pocos estudios (menos de 10) para hacer nulo el valor del efecto, podemos preocuparnos porque puede que el efecto sea nulo en realidad y nuestra significación sea producto de un sesgo de publicación. Por el contrario, si hacen falta muchos estudios, probablemente el efecto sea significativo de verdad. Este número de estudios es lo que significa la letra N del nombre del método.

El problema de este método es que se centra en la significación estadística y no en la importancia de los resultados. Lo correcto sería buscar cuántos estudios hacen falta para que el resultado pierda importancia clínica, no significación estadística. Además, asume que los efectos de los estudios faltantes es nulo (uno en caso de riesgos relativos y odds ratios, cero en casos de diferencias de medias), cuando el efecto de los estudios faltantes puede ir en sentido contrario que el efecto que detectamos o en el mismo sentido pero de menor magnitud.

Para evitar estos inconvenientes existe una variación de la fórmula anterior que valora la significación estadística y la importancia clínica. Con este método, que se denomina el de la N de seguridad de Orwin, se calcula cuántos estudios hacen falta para llevar el valor del efecto a un valor específico, que será generalmente el menor efecto que sea clínicamente importante. Este método permite también especificar el efecto medio de los estudios faltantes.

Para terminar con el metanálisis, veamos cuál es la forma correcta de expresar los resultados del análisis de los datos. Para hacerlo bien, podemos seguir las recomendaciones de la declaración PRISMA, que dedica siete de sus 27 ítems a darnos consejos de cómo presentar los resultados de un metanálisis.

Primero debemos informar sobre el proceso de selección de estudios: cuántos hemos encontrado y evaluado, cuántos hemos seleccionado y cuántos rechazado, explicando además las razones para hacerlo. Para esto resulta muy útil el diagrama de flujo que debe incluir la revisión sistemática de la que procede el metanálisis si se acoge a la declaración PRISMA.

En segundo lugar deben especificarse las características de los estudios primarios, detallando qué datos sacamos de cada uno de ellos y sus correspondientes citas bibliográficas para facilitar que cualquier lector del trabajo pueda comprobar los datos si no se fía de nosotros. En este sentido va también el tercer apartado, que se refiere a la evaluación del riesgo de sesgos de los estudios y su validez interna.

Cuarto, debemos presentar los resultados de cada estudio individual con un dato resumen de cada grupo de intervención analizado junto con los estimadores calculados y sus intervalos de confianza. Estos datos nos servirán para confeccionar la información que PRISMA nos pide en su quinto punto referente a la presentación de resultados y no es otro que la síntesis de todos los estudios del metanálisis, sus intervalos de confianza, resultados del estudio de homogeneidad, etc.

Esto suele hacerse de forma gráfica mediante un diagrama de efectos, una herramienta gráfica popularmente más conocida por su nombre en inglés: el forest plot. Este gráfico es una especie de bosque donde los árboles serían los estudios primarios del metanálisis y donde se resumen todos los resultados relevantes de la síntesis cuantitativa.

La Cochrane Collaboration recomienda estructurar el forest plot en cinco columnas bien diferenciadas. En la columna 1 se listan los estudios primarios o los grupos o subgrupos de pacientes incluidos en el metanálisis. Habitualmente se representan por un identificador compuesto por el nombre del primer autor y la fecha de publicación.La columna 2 nos muestra los resultados de las medidas de efecto de cada estudio tal como las refieren sus respectivos autores.

La columna 3 es el forest plot propiamente dicho, la parte gráfica del asunto. En él se representan las medidas de efecto de cada estudio a ambos lados de la línea de efecto nulo, que ya sabemos que es el cero para diferencias de media y el uno para odds ratios, riesgos relativos, hazard ratios, etc. Cada estudio se representa por un cuadrado cuya área suele ser proporcional a la contribución de cada uno al resultado global. Además, el cuadrado está dentro de un segmento que representa los extremos de su intervalo de confianza.

Estos intervalos de confianza nos informan sobre la precisión de los estudios y nos dicen cuáles son estadísticamente significativos: aquellos cuyo intervalo no cruza la línea de efecto nulo. De todas formas, no olvidéis que, aunque crucen la línea de efecto nulo y no sean estadísticamente significativos, los límites del intervalo pueden darnos mucha información sobre la importancia clínica de los resultados de cada estudio. Por último, en el fondo del gráfico encontraremos un diamante que representa el resultado global del metanálisis. Su posición respecto a la línea de efecto nulo nos informará sobre la significación estadística del resultado global, mientras que su anchura nos dará una idea de su precisión (su intervalo de confianza). Además, en la parte superior de esta columna encontraremos el tipo de medida de efecto, el modelo de análisis de datos que se ha utilizados (efectos fijos o efectos aleatorios) y el valor de significación de los intervalos de confianza (habitualmente 95%).

Suele completar este gráfico una cuarta columna con la estimación del peso de cada estudio en tantos por cien y una quinta columna con las estimaciones del efecto ponderado de cada uno. Y en algún rinconcillo de todo este bosque estará la medida de heterogeneidad que se ha utilizado, junto con su significación estadística en los casos en que sea pertinente.

Para finalizar la exposición de los resultados, PRISMA recomienda un sexto apartado con la evaluación que se haya hecho de los riesgos de sesgo del estudio y un séptimo con todos los análisis adicionales que haya sido necesario realizar: estratificación, análisis de sensibilidad, metarregresión, etc.

Como veis, nada es fácil en esto de los metanálisis. Por eso, la Cochrane recomienda seguir una serie de pasos para interpretar correctamente los resultados. A saber:

  1. Verificar qué variable se compara y cómo. Suele verse en la parte superior del forest plot.
  2. Localizar la medida de efecto utilizada. Esto es lógico y necesario para saber interpretar los resultados. No es lo mismo una hazard ratio que una diferencia de medias o lo que sea que se haya usado.
  3. Localizar el diamante, su posición y su amplitud. Conviene también fijarse en el valor numérico del estimador global y en su intervalo de confianza.
  4. Comprobar que se ha estudiado la heterogeneidad. Esto puede verse a ojo mirando si los segmentos que representan los estudios primarios están o no muy dispersos y si se solapan o no. En cualquier caso, siempre habrá un estadístico que valore el grado de heterogeneidad. Si vemos que existe heterogeneidad, lo siguiente será buscar qué explicación dan los autores sobre su existencia.
  5. Sacar nuestras conclusiones. Nos fijaremos en qué lado de la línea de efecto nulo están el efecto global y su intervalo de confianza. Ya sabéis que, aunque sea significativo, el límite inferior del intervalo conviene que esté lo más lejos posible de la línea, por aquello de la importancia clínica, que no siempre coincide con la significación estadística. Por último, volved a mirar el estudio de homogeneidad. Si hay mucha heterogeneidad los resultados no serán tan fiables.

Y con esto damos por finalizado el tema del metanálisis. En realidad, el forest plot no es exclusivo de los metanálisis y puede usarse siempre que queramos comparar estudios para dilucidar su significación estadística o clínica, o en casos como los estudios de equivalencia, en los que a la línea de efecto nulo se le unen las de los umbrales de equivalencia. Pero aún tiene una utilidad más. Una variante del forest plot sirve también para valorar si existe sesgo de publicación en la revisión sistemática aunque, como ya sabemos, en estos casos le cambiamos el nombre por el de gráfico en embudo. Pero esa es otra historia…

Churras y merinas

Print Friendly, PDF & Email

Todos conoceréis el cuento chino del pobre grano de arroz solitario que se cae al suelo y no lo oye nadie. Claro que si en lugar de caerse un grano se cae un saco lleno de arroz eso ya será otra cosa. Hay muchos ejemplos de que la unión hace la fuerza. Una hormiga roja es inofensiva, salvo que te muerda en alguna zona blanda y noble, que suelen ser las más sensibles. Pero ¿qué me decís de una marabunta de millones de hormigas rojas? Eso sí que acojona, porque si se juntan todas y vienen a por ti, poco podrás hacer para parar su empuje. Sí, la unión hace la fuerza.

Y esto también pasa en estadística. Con una muestra relativamente pequeña de votantes bien elegidos podemos estimar quién va a ganar unas elecciones en las que votan millones. Así que, ¿qué no podríamos hacer con un montón de esas muestras? Seguro que la estimación sería más fiable y más generalizable.

Pues bien, esta es precisamente una de las finalidades del metanálisis, que utiliza diversas técnicas estadísticas para hacer una síntesis cuantitativa de los resultados de un conjunto de estudios que, aunque tratan de responder a la misma pregunta, no llegan exactamente al mismo resultado. Pero cuidado, no podemos ponernos a juntar estudios para sacar conclusiones sobre la suma de ellos sin antes tomar una serie de precauciones. Esto sería como mezclar churras con merinas que, no sé muy bien porqué, debe ser algo terriblemente peligroso porque todo el mundo sabe que es algo a evitar.

Pensad que tenemos un conjunto de ensayos clínicos sobre un mismo tema y queremos hacer un metanálisis para obtener un resultado global. Es más que conveniente que exista la menor variabilidad posible entre los estudios si queremos combinarlos. Porque, señoras y señores, aquí también impera aquello de juntos, pero no revueltos.

Antes de pensar en combinar los resultados de los estudios de una revisión sistemática para hacer un metanálisis debemos hacer siempre un estudio previo de la heterogeneidad de los estudios primarios, que no es más que la variabilidad que existe entre los estimadores que se han obtenido en cada uno de esos estudios.

En primer lugar, investigaremos posibles causas de heterogeneidad, como pueden ser diferencias en los tratamientos, variabilidad de las poblaciones de los diferentes estudios y diferencias en los diseños de los ensayos. Si existe mucha heterogeneidad desde el punto de vista clínico, quizás lo más idóneo sea no hacer metanálisis y limitarnos a realizar un análisis de síntesis cualitativa de los resultados de la revisión.

Una vez que llegamos a la conclusión de que los estudios se parecen lo suficiente como para intentar combinarlos debemos tratar de medir esta heterogeneidad para tener un dato objetivo. Para esto, diversos cerebros privilegiados han creado una serie de estadísticos que contribuyen a nuestra cotidiana selva de siglas y letras.

Hasta hace poco el más famoso era la Q de Cochran, que no tiene nada que ver ni con el amigo de James Bond ni con nuestro amigo Archie Cochrane. Su cálculo tiene en cuenta la suma de las desviaciones entre el resultado del estudio y el resultado global (elevados al cuadrado por aquello de que no se anulen positivas con negativas), ponderando cada estudio según su contribución al resultados global. Parece impresionante pero, en realidad, no es para tanto. En el fondo no es más que una prima aristócrata de la ji-cuadrado. En efecto, la Q sigue una distribución ji-cuadrado con k-1 grados de libertad (k es el número de estudios primarios). Calculamos su valor, buscamos en la distribución de frecuencias la probabilidad de que la diferencia no se deba al azar y tratamos de rechazar nuestra hipótesis nula (que asume que las diferencias entre estudios son debidas al azar). Pero la Q, a pesar de sus apariencias, tiene una serie de debilidades.

En primer lugar, es un parámetro conservador y debemos siempre tener en cuenta que no significativo no es sinónimo obligatoriamente de ausencia de heterogeneidad: simplemente, no podemos rechazar la hipótesis nula, así que la damos como buena, pero siempre con el riesgo de cometer un error de tipo II y columpiarnos. Por esto, algunos proponen utilizar un nivel de significación de p<0,1 en lugar de la p<0,05 habitual. Otro fallo que tiene la Q es que no cuantifica el grado de heterogeneidad y, por supuesto, tampoco da razones de las causas que la producen. Y, por si fuera poco, pierde potencia cuando el número de estudios es pequeño y no permite comparar diferentes metanálisis entre sí si el número de estudios es diferente.

Por estos motivos se ha desarrollado otro estadístico que es mucho más celebre en la actualidad: la I2. Este parámetro proporciona una estimación de la variabilidad total entre los estudios respecto a la variabilidad total lo que, dicho de otro modo, es la proporción de la variabilidad debida a diferencias reales entre los estimadores respecto a la variabilidad debida al azar (dicho de forma aún más sencilla, la proporción de variabilidad no debida al azar). Además, es  menos sensible a la magnitud del efecto y al número de estudios. También parece impresionante, pero en realidad es otra prima aventajada del coeficiente de correlación intraclase.

Su valor va de 0 a 100%, considerándose habitualmente los límites de 25%, 50% y 75% para delimitar cuando existe una heterogeneidad baja, moderada y alta, respectivamente. La I2 no depende de las unidades de medida de los efectos ni del número de estudios, por lo que sí permite comparaciones con distintas medidas de efecto y entre diferentes metanálisis con diferente número de estudios.

Si encontráis algún estudio con Q pero sin I2, o viceversa, y queréis calcular el que no tenéis, podéis utilizar la siguiente formulilla, donde k es el número de estudios primarios:

I^{2}= \frac{Q-k+1}{Q}

Existe un tercer parámetro menos conocido, pero no por ello menos digno de mención: la H2. Esta H2 mide el exceso del valor de Q respecto del valor que esperaríamos obtener si no existiese heterogeneidad. Por tanto, un valor de 1 significa que no hay heterogeneidad y su valor aumenta cuando aumenta la heterogeneidad entre los estudios. Pero su verdadero interés es que permite el cálculo de intervalos de confianza para la I2.

Otras veces los autores realizan un contraste de hipótesis con una hipótesis nula de no heterogeneidad y utilizan una chi ji-cuadrado o algún estadístico similar. En estos casos, lo que proporcionan es un valor de significación estadística. Si la p es < 0,05 se puede rechazar la hipótesis nula y decir que hay heterogeneidad. En caso contrario diremos que no podemos rechazar la hipótesis nula de no heterogeneidad.

En resumen, siempre que veamos un indicador de homogeneidad que represente un porcentaje nos indicará la proporción de variabilidad que no es debida al azar. Por su parte, cuando nos den una “p” habrá heterogeneidad significativa cuando la “p” sea menor de 0,05.

No os preocupéis por los cálculos de Q, I2 y H2. Para eso se usan programas específicos como RevMan o módulos que hacen la misma función dentro de los programas de estadística habituales.

Un punto de atención: recordad siempre que no poder demostrar heterogeneidad no siempre quiere decir que los estudios sean homogéneos. El problema es que la hipótesis nula asume que son homogéneos y las diferencias se deben al azar. Si podemos rechazarla podemos asegurar que hay heterogeneidad (siempre con un pequeño grado de incertidumbre). Pero esto no funciona al revés: si no podemos rechazarla quiere decir simplemente eso, que no podemos rechazar que no haya heterogeneidad, pero siempre habrá una probabilidad de cometer un error de tipo II si asumimos directamente que los estudios son homogéneos.

Por este motivo se han ideado una serie de métodos gráficos para inspeccionar los estudios y comprobar que no hay datos de heterogeneidad aunque los parámetros numéricos digan otra cosa.

Quizás el más utilizado sea el gráfico de Galbraith, que puede emplearse tanto para ensayos como para metanálisis de estudios observacionales. Este gráfico, que podéis ver en la primera figura, representa la precisión de cada estudio frente a su efecto estandarizado junto con la línea de la ecuación de regresión ajustada y unas bandas de confianza. La posición de cada estudio respecto al eje de la precisión indica el peso de su contribución al resultado global, mientras que su localización fuera de las bandas de confianza indica su contribución a la heterogeneidad.

El gráfico de Galbraith puede resultar útil también para detectar fuentes de heterogeneidad, ya que se pueden etiquetar los estudios según diferentes variables y ver como contribuyen a la heterogeneidad global.

Otra herramienta que puede utilizarse para metanálisis de ensayos clínicos es el gráfico de L’Abbé (segunda figura), que representa las tasas de respuesta de los grupos de tratamiento y de control y su posición respecto a la diagonal. Por encima de la diagonal quedan los estudios con resultado favorable al tratamiento, mientras que por debajo están aquellos con resultado favorable al control. Los estudios suelen representarse con un área proporcional a su precisión y su dispersión indica heterogeneidad. Además, en ocasiones pueden dar información adicional. Por ejemplo, en el gráfico que os adjunto podéis ver que a riesgos bajos los estudios están en el área del control, mientras que en riesgos altos van hacia la zona favorable al tratamiento. Esta distribución, además de ser sugestiva de heterogeneidad, puede sugerirnos que la eficacia del tratamiento depende del nivel de riesgo o, dicho de otro modo, que tenemos alguna variable modificadora de efecto en nuestro estudio. Una pequeña pega de esta herramienta es que solo es aplicable a metanálisis de ensayos clínicos y cuando la variable dependiente es dicotómica.

Bien, supongamos que hacemos el estudio de heterogeneidad y decidimos que vamos a combinar los estudios para hacer el metanálisis. El siguiente paso es analizar los estimadores del tamaño de efecto de los estudios, ponderándolos según la contribución que cada estudio va a tener sobre el resultado global. Esto es lógico, no puede contribuir lo mismo al resultado final un ensayo con pocos participantes y un resultado poco preciso que otro con miles de participantes y una medida de resultado más precisa.

La forma más habitual de tener en cuenta estas diferencias es ponderar la estimación del tamaño del efecto por la inversa de la varianza de los resultados, realizando posteriormente el análisis para obtener el efecto medio. Para estos hay varias posibilidades, algunas de ellas muy complejas desde el punto de vista estadístico, aunque los dos métodos que se utilizan con más frecuencia son el modelo de efecto fijo y el modelo de efectos aleatorios. Ambos modelos difieren en la concepción que hacen de la población de partida de la que proceden los estudios primarios del metanálisis.

El modelo de efecto fijo considera que no existe heterogeneidad y que todos los estudios estiman el mismo tamaño de efecto de la población (todos miden el mismo efecto, por eso se llama de efecto fijo), por lo que se asume que la variabilidad que se observa entre los estudios individuales se debe únicamente al error que se produce al realizar el muestreo aleatorio en cada estudio. Este error se cuantifica estimando la varianza intraestudios, asumiendo que las diferencias en los tamaños de efecto estimados se deben solo a que se han utilizado muestras de sujetos diferentes.

Por otro lado, en el modelo de efectos aleatorios se parte de la base de que el tamaño de efecto varía en cada estudio y sigue una distribución de frecuencias normal dentro de la población, por lo que cada estudio estima un tamaño de efecto diferente. Por lo tanto, además de la varianza intraestudios debida al error del muestreo aleatorio, el modelo incluye también la variabilidad entre estudios, que representaría la desviación de cada estudio respecto del tamaño de efecto medio. Estos dos términos de error son independientes entre sí, contribuyendo ambos a la varianza del estimador de los estudios.

En resumen, el modelo de efecto fijo incorpora solo un término de error por la variabilidad de cada estudio, mientras que el de efectos aleatorios añade, además, otro término de error debido a la variabilidad entre los estudios.

Veis que no he escrito ni una sola fórmula. En realidad no nos hace falta conocerlas y son bastante antipáticas, llenas de letras griegas que no hay quien las entienda. Pero no os preocupéis. Como siempre, los programas estadísticos como RevMan de la Cochrane Collaboration permiten hacer los cálculos de forma sencilla, quitando y sacando estudios del análisis y cambiando de modelo según nos apetezca.

El tipo de modelo a elegir tiene su importancia. Si en el análisis previo de homogeneidad vemos que los estudios son homogéneos podremos utilizar el modelo de efecto fijo. Pero si detectamos que existe heterogeneidad, dentro de los límites que nos permitan combinar los estudios, será preferible usar el modelo de efectos aleatorios.

Otra consideración a realizar es la de la aplicabilidad o validez externa de los resultados del metanálisis. Si hemos utilizado el modelo de efecto fijo será comprometido generalizar los resultados fuera de las poblaciones con características similares a las de los estudios incluidos. Esto no ocurre con los resultados obtenidos utilizando el modelo de efectos aleatorios, cuya validez externa es mayor por provenir de poblaciones de diferentes estudios.

En cualquier caso, obtendremos una medida de efecto medio junto con su intervalo de confianza. Este intervalo de confianza será estadísticamente significativo cuando no cruce la línea de efecto nulo, que ya sabemos que es cero para diferencias de medias y uno para odds ratios y riesgos relativos. Además, la amplitud del intervalo nos informará sobre la precisión de la estimación del efecto medio en la población: cuánto más ancho, menos preciso, y viceversa.

Si pensáis un poco comprenderéis en seguida porqué el modelo de efectos aleatorios es más conservador que el de efecto fijo en el sentido de que los intervalos de confianza que se obtienen son menos precisos, ya que incorpora más variabilidad en su análisis. En algún caso puede ocurrir que el estimador sea significativo si usamos el de efecto fijo y no lo sea si usamos el de efectos aleatorios, pero esto no debe condicionarnos a la hora de escoger el modelo a utilizar. Siempre debemos basarnos en la medida previa de heterogeneidad aunque, si tenemos dudas, también podemos utilizar los dos y comparar los diferentes resultados.

Una vez estudiada la homogeneidad de los estudios primarios podemos llegar a la desoladora conclusión de que la heterogeneidad es la reina de la situación. ¿Podemos hacer algo? Claro, podemos. Siempre podemos no combinar los estudios o combinarlos a pesar de la heterogeneidad y obtener una medida resumen, pero habrá que calcular también medidas de variabilidad entre estudios y, aun así, no podremos estar seguros de nuestros resultados.

Otra posibilidad es hacer un análisis estratificado según la variable que cause la heterogeneidad, siempre que seamos capaces de identificarla. Para esto podemos hacer un análisis de sensibilidad, repitiendo los cálculos extrayendo uno a uno cada uno de los subgrupos y ver cómo influyen en el resultado global. El problema es que esto deja de lado el verdadero objetivo del metanálisis, que no es otro que el de obtener un valor global de estudios homogéneos.

Los más sesudos en estos temas pueden, por último, recurrir a la metarregresión. Esta técnica es similar a un modelo de regresión multivariante en el que las características de los estudios se usan como variables explicativas y la variable de efecto o alguna medida de la desviación de cada estudio respecto al global se usa como variable dependiente. Hay que hacer, además, una ponderación según la contribución de cada estudio al resultado global y procurar no meter muchos coeficientes al modelo de regresión si el número de estudios primarios no es muy grande. No os aconsejo que hagáis una metarregresión en vuestra casa si no es acompañados de personas mayores.

Y ya solo nos quedaría comprobar que no nos faltan estudios sin recoger y presentar los resultados de forma correcta. Los datos de los metanálisis suelen representarse en un gráfico específico que se suele conocer por su nombre en inglés: el forest plot. Pero esa es otra historia…

Tres patas de un gato

Print Friendly, PDF & Email

Lo de buscarle tres pies al gato, o tres patas, es un dicho muy popular. Parece que se dice que busca tres pies a un gato aquél que trata de demostrar alguna cosa imposible, generalmente con tretas y engaños. En realidad, el refrán inicial hacía referencia a buscar cinco pies en lugar de tres. Esto parece más lógico, ya que como los gatos tienen cuatro patas, encontrarles tres de ellas es cosa fácil, pero encontrar cinco es algo imposible, a no ser que consideremos la cola del gato como otro pie, lo cual no tiene mucho sentido.

Pero hoy no vamos a hablar de gatos con tres, cuatro o cinco pies. Vamos a hablar sobre algo un poco más etéreo, como son los modelos multivariables de regresión lineal múltiple. Este sí que es un gato con multitud de pies, pero nosotros nos vamos a fijar únicamente en tres de ellos que reciben los nombres de colinealidad, tolerancia y factor de inflación (o incremento) de la varianza. Que nadie se desanime, es más fácil de lo que puede parecer de entrada.

Ya vimos en una entrada anterior cómo los modelos de regresión lineal simple relacionaban dos variables entre sí, de forma que las variaciones de una de ellas (la variable independiente o predictora) podían servir para calcular cómo iba a variar la otra variable (la variable dependiente). Estos modelos se representaban según la ecuación y = a + bx, donde x es la variable independiente e y la dependiente.

Pues bien, la regresión lineal múltiple añade más variables independientes, de tal manera que permite hacer predicciones de la variable dependiente según los valores de las variables predictoras o independientes. La fórmula genérica sería la siguiente:

y = a + bx1 + cx2 + dx3 + … + nxn, siendo n el número de variables independientes.

Una de las condiciones para que el modelo de regresión lineal múltiple funcione adecuadamente es que las variables independientes sean realmente independientes y no estén correlacionadas entre sí.

Imaginad un ejemplo absurdo en el que metemos en el modelo el peso en kilogramos y el peso en libras. Ambas variables variarán del mismo modo. De hecho el coeficiente de correlación, R, será 1, ya que prácticamente las dos representan la misma variable. Ejemplos tan tontos es difícil verlos en los trabajos científicos, pero hay otros menos evidentes (como incluir, por ejemplo la talla y el índice de masa corporal, que se calcula a partir del peso y de la talla) y otros que no son evidentes en absoluto para el investigador. Esto es lo que se llama colinealidad, que no es más que la existencia de una asociación lineal entre el conjunto de las variables independientes.

La colinealidad es un grave problema para el modelo multivariable, ya que las estimaciones obtenidas por el mismo son muy inestables, al hacerse más difícil separar el efecto de cada variable predictora.

Pues bien, para determinar si nuestro modelo sufre de colinealidad podemos construir una matriz donde se muestran los coeficientes de correlación, R, de unas variables con otras. En aquellos casos en los que observemos R altos, podremos sospechar que existe colinealidad. Ahora bien, si queremos cuantificar esto recurriremos a las otras dos patas del gato que hemos comentado al inicio: tolerancia y factor de inflación de la varianza.

Si elevamos el coeficiente R al cuadrado obtenemos el coeficiente de determinación (R2), que representa el porcentaje de la variación (o varianza) de una variable que es explicada por la variación en la otra variable. Así, nos encontramos con el concepto de tolerancia, que se calcula como el complementario de R2 (1-R2) y que representa la proporción de la variabilidad de dicha variable que no se explica por el resto de las variables independientes incluidas en el modelo de regresión.

De esta forma, cuanto más baja sea la tolerancia, más probable será que exista colinealidad. Suele considerarse que existe colinealidad cuando R2 es superior a 0,9 y, por tanto, la tolerancia está por debajo de 0,1.

Ya solo nos queda la tercera pata, que es el factor de inflación de la varianza. Este se calcula como el inverso de la tolerancia (1/T) y representa la proporción de la variabilidad (o varianza) de la variable que es explicada por el resto de las variables predictoras del modelo. Como es lógico, cuanto mayor sea el factor de inflación de la varianza, mayor será la probabilidad de que exista colinealidad. Generalmente se considera que existe colinealidad cuando el factor de inflación entre dos variables es mayor de 10 o cuando la media de todos los factores de inflación de todas las variables independientes es muy superior a uno.

Y aquí vamos a dejar los modelos multivariables por hoy. Ni que decir tiene que todo lo que hemos contado en la práctica se hace recurriendo a programas informáticos que nos calculan estos parámetros de manera sencilla.

Hemos visto aquí algunos de los aspectos de la regresión lineal múltiple, quizás el más utilizado de los modelos multivariables. Pero hay otros, como el análisis multivariante de la varianza (MANOVA), el análisis factorial o el análisis por conglomerados o clústeres. Pero esa es otra historia…

En busca de la causalidad

Print Friendly, PDF & Email

En Medicina es frecuente que tratemos de buscar relaciones de causa efecto. Si queremos demostrar que el fármaco X produce un efecto, no tenemos más que tomar dos grupos de personas, a un grupo le damos el fármaco, al otro grupo no se lo damos y vemos si hay diferencias.

Pero la cosa no es tan sencilla, porque nunca podemos estar seguros de que las diferencias en efecto entre los dos grupos se deban en realidad a otros factores distintos al tratamiento que hemos empleado. Estos factores son los llamados factores de confusión, que pueden ser conocidos o desconocidos y que nos pueden sesgar los resultados de la comparación.

Para resolver este problema se inventó el elemento clave de un ensayo clínico, la aleatorización. Si repartimos los participantes en el ensayo entre las dos ramas de forma aleatoria conseguiremos que estas variables de confusión se repartan de forma homogénea entre las dos ramas del ensayo, con lo que cualquier diferencia entre las dos tendrá que ser debida a la intervención. Solo así podremos establecer relaciones de causa-efecto entre nuestra exposición o tratamiento y la variable de resultado que midamos.

El problema de los estudios cuasi-experimentales y de los observacionales es que carecen de aleatorización. Por este motivo, nunca podremos estar seguros de que las diferencias se deban a la exposición y no a cualquier variable confusora, por lo que no podemos establecer con seguridad relaciones causales.

Este es un inconveniente molesto, ya que muchas veces será imposible realizar ensayos aleatorizados ya sea por motivos éticos, económicos, de la naturaleza de la intervención o de lo que sea. Por eso se han inventado algunas argucias para poder establecer relaciones causales en ausencia de aleatorización. Una de estas técnicas es la de los propensity score que vimos en una entrada anterior. Otra es la que vamos a desarrollar hoy, que tiene el bonito nombre de regresión discontinua.

La regresión discontinua es un diseño cuasi-experimental que permite realizar inferencia causal en ausencia de aleatorización. Se puede aplicar cuando la exposición de interés se asigna, al menos parcialmente, según el valor de una variable aleatoria continua si esta variable cae por encima o por debajo de un determinado valor umbral.regresion-discontinua_umbral Pensemos, por ejemplo, en un fármaco hipocolesterolemiante que pautaremos cuando el colesterol LDL aumente por encima de un valor determinado, o de una terapia antirretroviral en un enfermo de sida que indicaremos cuando su contaje de CD4 disminuya por debajo de determinado valor. Existe una discontinuidad en el valor umbral de la variable que produce un cambio brusco en la probabilidad de asignación al grupo de intervención, tal como os muestro en la figura adjunta.

En estos casos en los que la asignación del tratamiento depende, al menos en parte, del valor de una variable continua, la asignación en las proximidades del umbral es casi como si fuese aleatoria. ¿Por qué? Porque las determinaciones están sujetas a una variabilidad aleatoria por error de muestreo (además de la propia variabilidad de las variables biológicas), lo que hace que los individuos que están muy cerca del umbral, por encima o por debajo, sean muy similares en cuanto a las variables que puedan actuar como confusoras (el estar por encima o por debajo del umbral puede depender de la variabilidad aleatoria del resultado de la medición de la variable), de manera similar a como ocurre en un ensayo clínico. A fin de cuentas, podemos pensar que un ensayo clínico no es más que un diseño de discontinuidad en el que el umbral es un número aleatorio.

La matemática de la regresión discontinua es solo para iniciados y no es mi intención explicarla aquí (primero tendría que entenderla yo), así que nos vamos a conformar con conocer algunos términos que nos servirán para entender los trabajos que empleen esta metodología.

La regresión discontinua puede ser nítida o difusa. En la nítida, la probabilidad de asignación cambia de cero a uno en el umbral (la asignación del tratamiento sigue una regla determinista). Por ejemplo, se inicia el tratamiento cuando se cruza el umbral, con independencia de otros factores. Por otra parte, en la difusa hay otros factores en juego que hacen que en el umbral la probabilidad de asignación cambie, pero no de cero a uno, sino que puede depender de esos otros factores añadidos.

Así, el resultado del modelo de regresión varía un poco según se trate de una regresión discontinua nítida o difusa. En el caso de la regresión nítida se calcula el llamado efecto causal medio, según el cual los participantes son asignados a la intervención con seguridad si traspasan el umbral. En el caso de la regresión difusa, la asignación ya no se realiza según un modelo determinista, sino según uno probabilístico (según el valor respecto al umbral y el de otros factores que el investigador puede considerar importantes). En estos casos hay que hacer un análisis por intención de tratamiento según la diferencia de la probabilidad de asignación cerca del punto de corte (algunos pueden no traspasar el umbral pero ser asignados a la intervención porque así lo considere el investigador según los otros factores).

Así, en el modelo probabilístico habrá que medir el efecto en los cumplidores (los asignados a la intervención), por lo que el modelo de regresión nos dará el efecto causal medio de los cumplidores, que es la medida típica de la regresión discontinua difusa.

Y creo que aquí lo vamos a dejar por hoy. No hemos hablado nada sobre la ecuación de regresión, pero baste decir que tiene en cuenta las pendientes de la función de probabilidad de asignación antes y después del umbral y una variable de interacción para la posibilidad de que los efectos del tratamiento sean heterogéneos a ambos lados del umbral. Como veis, todo bastante complicado, pero para eso están los paquetes estadísticos como R o Stata que implementan estos modelos sin apenas esfuerzo.

Para terminar, decir solo que lo habitual es ver modelos que utilizan regresión lineal para variables de resultado cuantitativas, pero existen extensiones del modelo que utilizan variables dicotómicas y técnicas de regresión logística, e incluso modelos con estudios de supervivencia y variables de tiempo a suceso. Pero esa es otra historia…

Censura

Print Friendly, PDF & Email

En el sentido más conocido de la palabra, censura es la acción de examinar una obra destinada al público, suprimiendo o modificando la parte que no se ajusta a determinados planteamientos políticos, morales o religiosos, para determinar si se puede o no publicar o exhibir. Entonces, ¿qué queremos decir en estadística cuando hablamos de datos censurados?. Nada que ver con la política, moral ni la religión. Para explicar lo que es un dato censurado tendremos que hablar primero de las variables de tiempo a suceso y de los análisis de supervivencia.

De manera general, podemos decir que hay tres tipos de variables: cuantitativas, cualitativas y de tiempo a suceso. Las dos primeras se entienden bastante bien en general, pero las de tiempo a suceso son un poco más complicadas de entender.

Imaginemos que queremos estudiar la mortalidad de esa terrible enfermedad que es la fildulastrosis. Podríamos contar el número de fallecidos al final del periodo del estudio y dividirlos por la población total al inicio. Por ejemplo, si al inicio hay 50 enfermos y se nos mueren cuatro durante el seguimiento, podríamos calcular la mortalidad como 4/50 = 0,08, o sea del 8%. Así, si hemos seguido a la población durante cinco años, podremos decir que la supervivencia de la enfermedad a los cinco años es del 92% (100-8 = 92).

Sencillo, ¿verdad? El problema es que esto solo es válido cuando todos los sujetos tienen el mismo periodo de seguimiento y no se producen pérdidas o abandonos a lo largo del estudio, situación que suele estar lejos de la realidad en la mayor parte de los casos.

En estos casos, lo correcto es medir no solo si se produce el fallecimiento (que sería una variable dicotómica), sino también cuándo se produce, teniendo en cuenta además el diferente periodo de seguimiento y las pérdidas. Así, utilizaríamos una variable de tiempo a suceso, que está compuesta por una variable dicotómica (el suceso que se mide) y una continua (el tiempo de seguimiento cuando se produce).

Siguiendo el ejemplo anterior, los participantes en el estudio podrían clasificarse en tres tipos: aquéllos que fallecen durante el seguimiento, los que permaneces vivos al final del estudio y los que se pierden durante el seguimiento.

De los que se mueren podemos calcular su supervivencia pero, ¿cuál es la supervivencia de los que están vivos al final del estudio? ¿Y cuál es la supervivencia de los que se pierden durante el seguimiento? Está claro que algunos de los perdidos pueden haber fallecido al final del estudio sin que nosotros lo detectemos, por lo que nuestra medida de la mortalidad no será exacta.

Y aquí es donde nos encontramos con los datos censurados. Todos aquellos que no presentan el evento durante un estudio de supervivencia se denominan censurados (las pérdidas y los que acaban el estudio sin presentar el evento). La importancia de estos datos censurados es que hay que tenerlos en cuenta al hacer el estudio de supervivencia, tal como veremos a continuación.

La metodología a seguir es confeccionar una tabla de supervivencia que tenga en cuenta los sucesos (en este caso las muertes) y los datos censurados, tal como vemos en la tabla adjunta.

Las columnas de la tabla representan lo siguiente: x, el número de año del seguimiento; Nx, el número de participantes vivos al inicio de ese año; Cx, el número de pérdidas de ese año (censurados); Mx, el número de fallecidos durante ese periodo; PM, probabilidad de morir en ese periodo; PSP, la probabilidad de sobrevivir en ese periodo (la probabilidad de no presentar el evento); y PSG, la probabilidad de supervivencia hasta ese momento.censuraComo vemos, el primer año partimos de 50 participantes, de los cuales uno fallece. La probabilidad de fallecer en ese periodo es de 1/50 = 0,02, con lo que la probabilidad de supervivencia en el periodo (que es igual a la global por ser el primer periodo) es de 1-0,02 = 0,98.

En el segundo periodo partimos de 49 y no fallece ni se pierde nadie. La PM en el periodo es cero y la de supervivencia uno. Así, la probabilidad global será de 1×0,98 = 0,98.

En el tercer periodo seguimos con 49. Se pierden dos y fallece uno. La PM es de 1/49 = 0,0204 y la PSP de 1-0,0204 = 0,9796. Si multiplicamos la PSP por la global del periodo anterior, obtenemos la supervivencia global de este periodo: 0,9796×0,98 = 0,96.

En el cuarto periodo partimos de 46 participantes, produciéndose cinco pérdidas y dos fallecimientos. La PM será de 2/46 = 0,0434, la PSP de 1-0,0434 = 0,9566 y la PSG de 0,9566×0,96 = 0,9183.

Por último, en el quinto periodo partimos de 39 participantes. Tenemos dos censurados y ningún evento (fallecimiento). PM es cero, PSP es igual a uno (no se muere nadie en este periodo) y PSG 1×0,9183 = 0,9183.

Finalmente, teniendo en cuenta los datos censurados, podemos decir que la supervivencia global de la fildulastrosis es del 91,83% a los cinco años.

Y con esto vamos a dejarlo por hoy. Hemos visto cómo se construye una tabla de supervivencia con datos censurados para tener en cuenta el seguimiento desigual de los participantes y las pérdidas durante el seguimiento.

Solo dos reflexiones antes de terminar. En primer lugar, aunque se hable de análisis de supervivencia, el evento no tiene porqué ser el fallecimiento de los participantes. Puede ser cualquier evento que se produzca a lo largo del seguimiento del estudio.

En segundo lugar, las variables de tiempo a suceso y los datos censurados son la base para realizar otras técnicas estadísticas que estiman la probabilidad de producirse el evento en estudio en un momento determinado, como los modelos de regresión de Cox. Pero esa es otra historia…