Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasSesgo de publicación
image_pdf

Un sesgo por ausencia

La unión hace la fuerza. Es un hecho. Los grandes objetivos se logran con más facilidad con la unión del esfuerzo de muchos. Y esto también se cumple en estadística.
En efecto, hay ocasiones en que los ensayos clínicos no tienen la potencia necesaria para demostrar lo que persiguen, ya sea por falta de muestra por motivos de tiempo, dinero o dificultad para reclutar participantes, o por otro tipo de limitaciones de tipo metodológico. En estos casos, es posible recurrir a una técnica que nos permite, en ocasiones, aunar el esfuerzo de múltiples ensayos para poder alcanzar la conclusión a la que no llegaríamos con ninguno de los ensayos por separado. Esta técnica es el metanálisis.
El metanálisis nos da una síntesis matemática cuantitativa exacta de los estudios incluidos en el análisis, generalmente los estudios recuperados durante la realización de una revisión sistemática. Lógicamente, si incluimos todos los estudios que se hayan realizado sobre un tema (o, al menos, todos los que sean relevantes para nuestra investigación), esa síntesis reflejará el conocimiento actual sobre el tema. Sin embargo, si la recogida está sesgada y nos faltan estudios, el resultado será reflejo solo de los artículos recogidos, no del total del conocimiento disponible.
Cuando planeamos la revisión debemos establecer una estructura de búsqueda global para tratar de encontrar todos los trabajos. Si no lo hacemos así podemos cometer un sesgo de recuperación, que tendrá el mismo efecto sobre el análisis cuantitativo que el sesgo de publicación. Pero, incluso con las búsquedas electrónicas modernas, es muy difícil encontrar toda la información relevante sobre un tema concreto.
En los casos de que falten estudios, la importancia del efecto dependerá de cómo se pierdan los estudios. Si se pierden al azar, todo quedará en un problema de menor información, con lo que la precisión de nuestros resultados será menor y los intervalos de confianza serán más amplios, pero puede que nuestras conclusiones sean correctas. Sin embargo, si los trabajos que no encontramos son sistemáticamente diferentes de los que encontramos, el resultado de nuestro análisis puede estar sesgado, ya que nuestras conclusiones solo podrán aplicarse a la muestra de trabajos, que será una muestra sesgada.
Existen una serie de factores que pueden contribuir a este sesgo de publicación. En primer lugar, es más probable que se publiquen los estudios con resultados significativos y, dentro de estos, es más probable que se publiquen cuando el efecto es mayor. Esto hace que los estudios con resultados negativos o con efectos de pequeña magnitud puedan no llegar a ser publicados, con lo que sacaremos una conclusión sesgada del análisis solo de los estudios grandes con resultado positivo.
En segundo lugar, como es lógico, los estudios publicados tienen más probabilidad de llegar a nuestras manos que los que no se publican en revistas científicas. Es el caso de tesis doctorales, comunicaciones a congresos, informes de agencias gubernamentales o, incluso, estudios pendientes de publicar realizados por investigadores del tema que estemos tratando. Por este motivo es tan importante hacer una búsqueda que incluya este tipo de trabajos, que se engloban dentro del término de literatura gris.
Por último, pueden enumerarse una serie de sesgos que influyen en la probabilidad de que un trabajo sea publicado o recuperado por el investigador que realiza la revisión sistemática tales como el sesgo de lenguaje (limitamos la búsqueda por idioma), el sesgo de disponibilidad (se incluyen solo los estudios que son fáciles de recuperar por parte del investigador), el sesgo de coste (se incluyen estudios que son gratis o baratos), el sesgo de familiaridad (solo se incluyen los de la disciplina del investigador), el sesgo de duplicación (los que tienen resultados significativos tienen más probabilidad de ser publicados más de una vez) y el sesgo de citación (los estudios con resultado significativo tienen más probabilidad de ser citados por otros autores).
Uno puede pensar que esto de perder trabajos durante la revisión no puede ser tan grave, ya que podría argumentarse que los estudios no publicados en revistas con revisión por pares suelen ser de peor calidad, por lo que no merecen ser incluidos en el metanálisis. Sin embargo, no está claro ni que las revistas científicas aseguren la calidad metodológica del trabajo ni que este sea el único método para hacerlo. Hay investigadores, como los de las agencias gubernamentales, que no están interesados en publicar en revistas científicas, sino en elaborar informes para quienes los encargan. Además, la revisión por pares no es garantía de calidad ya que, con demasiada frecuencia, ni el investigador que realiza el trabajo ni los encargados de revisarlo tienen una formación en metodología que asegure la calidad del producto final.
Existen herramientas para valorar el riesgo de sesgo de publicación. Quizás lo más sencillo puede ser representar un forest plot ordenado con los estudios más precisos en la parte superior y los menos en la inferior. Según nos desplazamos hacia abajo disminuye la precisión de los resultados, con lo que el efecto debe oscilar hacia ambos lados de la medida resumen de resultado. Si solo oscila hacia uno de los lados, podemos suponer de forma indirecta que no hemos detectado los trabajos que deben existir que oscilen hacia el lado contrario, por lo que seguramente tendremos un sesgo de publicación.
funnel_sesgoOtro procedimiento similar es la utilización del gráfico de embudo o funnel plot, tal como veis en la imagen adjunta. En este gráfico se representa en el eje X el tamaño del efecto y en el eje Y una medida de la varianza o el tamaño muestral, invertido. Así, en la parte superior estarán los estudios más grandes y precisos. Una vez más, según bajamos por el gráfico, la precisión de los estudios es menor y se van desplazando hacia los lados por error aleatorio. Cuando existe sesgo de publicación este desplazamiento es asimétrico. El problema del gráfico en embudo (funnel plot para los ingleses) es que su interpretación puede ser subjetiva, por lo que hay métodos numéricos para tratar de detectar el sesgo de publicación.
Y, llegados a este punto, ¿qué debemos hacer ante un sesgo de publicación? Quizás lo más adecuado será no preguntarse si existe el sesgo, sino cuánto afecta mis resultados (y dar por hecho que nos hemos dejado estudios sin incluir en el análisis).
La única forma de saber si el sesgo de publicación afecta a nuestras estimaciones sería comparar el efecto en los estudios recuperados y en los no recuperados pero, claro está, entonces no tendríamos que preocuparnos por el sesgo de publicación.
Para saber si el resultado observado es robusto o, por el contrario, es susceptible de estar sesgado por un sesgo de publicación, se han ideado dos métodos de la N de seguridad, los conocidos en inglés como los métodos fail-safe N.
El primero es el método de la N de seguridad de Rosenthal. Supongamos que tenemos un metanálisis con un efecto que es estadísticamente significativo, por ejemplo, un riesgo relativo mayor que uno con una p < 0,05 (o un intervalo de confianza del 95% que no incluye el valor nulo, el uno). Entonces nos hacemos una pregunta: ¿cuántos estudios con RR = 1 (valor nulo) tendremos que incluir hasta que la p no sea significativa? Si necesitamos pocos estudios (menos de 10) para hacer nulo el valor del efecto, podemos preocuparnos porque puede que el efecto sea nulo en realidad y nuestra significación sea producto de un sesgo de publicación. Por el contrario, si hacen falta muchos estudios, probablemente el efecto sea significativo de verdad. Este número de estudios es lo que significa la letra N del nombre del método. El problema de este método es que se centra en la significación estadística y no en la importancia de los resultados. Lo correcto sería buscar cuántos estudios hacen falta para que el resultado pierda importancia clínica, no significación estadística. Además, asume que los efectos de los estudios faltantes es nulo (uno en caso de riesgos relativos y odds ratios, cero en casos de diferencias de medias), cuando el efecto de los estudios faltantes puede ir en sentido contrario que el efecto que detectamos o en el mismo sentido pero de menor magnitud. Para evitar estos inconvenientes existe una variación de la fórmula anterior que valora la significación estadística y la importancia clínica. Con este método, que se denomina el de la N de seguridad de Orwin, se calcula cuántos estudios hacen falta para llevar el valor del efecto a un valor específico, que será generalmente el menor efecto que sea clínicamente importante. Este método permite también especificar el efecto medio de los estudios faltantes.
Y aquí dejamos los metanálisis y el sesgo de publicación por hoy. No hemos hablado nada de otros métodos matemáticos para detectar el sesgo de publicación como el de Begg y el de Egger. Hay incluso algún método gráfico aparte de los que hemos mencionado, como el de ajuste y relleno. Pero esa es otra historia…

La asimetría del embudo

Aquiles. ¡Qué tío!. Sin duda, uno de los más famosos de todo el follón que armaron en Troya por culpa de Helena la guapa. Ya sabéis su historia. El tío era la leche porque su madre, que era nada menos que la ninfa Tetis, lo bañó en ambrosía y lo sumergió en la laguna Estigia para que fuese invulnerable. Pero cometió un error que una ninfa no debiera haberse permitido: lo agarró por el talón derecho, que no se mojó en la laguna. Así que de ahí le viene a Aquiles su punto débil. Héctor no se dio cuenta a tiempo pero Paris, bastante más espabilado, le metió un flechazo en el talón y lo mandó otra vez a la laguna, pero no al agua, sino al otro lado. Y sin barquero.

Este cuento es el origen de la expresión “talón de Aquiles”, que suele referirse al punto más débil o vulnerable de alguien o algo que, por lo demás, suele ser conocido por su fortaleza.

Por ejemplo, algo tan robusto y formidable como el metanálisis tiene su talón de Aquiles: el sesgo de publicación. Y eso se debe a que en el mundo de la ciencia no hay justicia social.

Todos los trabajos científicos deberían tener las mismas oportunidades de ser publicados y alcanzar la fama, pero la realidad no es en absoluto así y los trabajos pueden verse discriminados por cuatro razones: significación estadística, popularidad del tema del que tratan, el tener alguien que los apadrine y el idioma en que están escritos.

La realidad es que los trabajos con resultados estadísticamente significativos tienen más probabilidades de ser publicados que los no significativos. Además, incluso si son aceptados, los significativos se publican antes y, con más frecuencia, en revistas en inglés, con mayor prestigio y difusión. Esto hace que, a la larga, se citen en otros trabajos con más frecuencia. Y lo mismo ocurre con los trabajos con resultados “positivos” frente a los que tienen resultados “negativos”.

De igual manera, los trabajos sobre temas de interés público tienen más probabilidad de ser publicados con independencia de la importancia de sus resultados. Además, el padrino también influye: una casa comercial que financie un estudio de un producto suyo y le salga mal, encima no va a publicarlo para que todos sepamos que su producto no es útil. Y, por último, los trabajos en inglés tienen más difusión que los escritos en otros idiomas.

Todo esto puede verse empeorado por el hecho de que estos mismos factores pueden influir en los criterios de inclusión y exclusión de los estudios primarios del metanálisis, de tal forma que obtenemos una muestra de trabajos que puede no ser representativa del conocimiento global sobre el tema del que trate la revisión sistemática y el metanálisis.

Si tenemos un sesgo de publicación la aplicabilidad de los resultados se verá seriamente comprometida. Por esto decimos que el sesgo de publicación es el verdadero talón de Aquiles del metanálisis.

Si delimitamos correctamente los criterios de inclusión y exclusión de los estudios y hacemos una búsqueda global y sin restricciones de la literatura habremos hecho todo lo posible para minimizar el riesgo de sesgo, pero nunca podremos estar seguros de haberlo evitado. Por eso se han ideado técnicas y herramientas para su detección.

funnel_nosesgoLa más usada tiene el simpático nombre de gráfico en embudo, aunque es más conocido por su nombre en inglés: funnel plot. En él se representa la magnitud del efecto medido (eje X) frente a una medida de precisión (eje Y), que suele ser el tamaño muestral, pero que puede también ser el inverso de la varianza o el error estándar. Representamos cada estudio primario con un punto y observamos la nube de puntos.

En la forma más habitual, con el tamaño de la muestra en el eje Y, la precisión de los resultados será mayor en los estudios de muestra más grande, con lo que los puntos estarán más juntos en la parte alta del eje y se irán dispersando al acercarnos al origen del eje Y. De esta forma, se observa una nube de puntos en forma de embudo, con la parte ancha hacia abajo. Este gráfico debe ser simétrico y, en caso de que no sea así, debemos sospechar siempre un sesgo de publicación. En el segundo ejemplo que os pongo podéis ver como “faltan” los estudios que están hacia el lado de falta de efecto: esto puede significar que solo se publican los estudios con resultado positivo.

funnel_sesgoEste método es muy sencillo de utilizar pero, en ocasiones, podemos tener dudas acerca de la asimetría de nuestro embudo, sobre todo si el número de estudios es pequeño. Además, el embudo puede ser asimétrico por defectos de la calidad de los estudios o porque estemos tratando con intervenciones cuyo efecto varíe según el tamaño de la muestra de cada estudio.  Para estos casos se han ideado otros métodos más objetivos como la prueba de correlación de rangos de Begg y la prueba de regresión lineal de Egger.

La prueba de Begg estudia la presencia de asociación entre las estimaciones de los efectos y sus varianzas. Si existe correlación entre ellos, mal asunto. El problema de esta prueba es que tiene poca potencia estadística, por lo que es poco de fiar cuando el número de estudios primarios es pequeño.

eggerLa prueba de Egger, más específica que la de Begg, consiste en representar gráficamente la recta de regresión entre la precisión de los estudios (variable independiente) y el efecto estandarizado (variable dependiente). Esta regresión hay que ponderarla por el inverso de la varianza, así que no os recomiendo que la hagáis por vuestra cuenta, salvo que seáis estadísticos consumados. Cuando no hay sesgo de publicación la recta de regresión se origina en el cero del eje Y. Cuánto más se aleje del cero, mayor evidencia de sesgo de publicación.

Como siempre, existen programas informáticos que hacen estas pruebas con rapidez sin que tengamos que quemarnos el cerebro con sus cálculos.

¿Y si después de hacer el trabajo vemos que hay sesgo de publicación?. ¿Podemos hacer algo para ajustarlo?. Como siempre, podemos.trim_and_fill

La forma más sencilla es utilizar un método gráfico que se llama de ajuste y relleno (trim and fill para los amantes del inglés). Consiste en lo siguiente: a) dibujamos el funnel plot; b) quitamos los estudios pequeños para que el embudo sea simétrico; c) se determina el nuevo centro del gráfico; d) se vuelven a poner los estudios quitados y añadimos su reflejo al otro lado de la línea central; e) reestimamos es efecto.

Y para terminar deciros que, como suele ser habitual, hay un segundo método mucho más exacto pero también bastante más complejo, que consiste en un modelo de regresión basado en la prueba de Egger. Pero esa es otra historia…

Poco ruido y muchas nueces

Sí, ya sé que es al revés. Ese precisamente es el problema con tanta nueva tecnología de la información. Hoy día cualquiera puede escribir y hacer público lo que se le pase por la cabeza, llegando a un montón de gente, aunque lo que diga sea una chorrada (y no, yo no me doy por aludido, ¡a mí no me lee ni mi cuñado!). Lo malo es que gran parte de lo que se escribe no vale un bit, por no referirme a ningún tipo de excretas. Hay mucho ruido y pocas nueces, cuando a todos nos gustaría que ocurriese lo contrario.

Lo mismo pasa en medicina cuando necesitamos información para tomar alguna de nuestras decisiones clínicas. Vayamos a la fuente que vayamos, el volumen de información no solo nos desbordará, sino que encima la mayoría no nos servirá para nada. Además, incluso si encontramos un trabajo bien hecho es posible que no sea suficiente para contestar completamente a nuestra pregunta. Por eso nos gustan tanto las revisiones de la literatura que algunas almas generosas publican en las revistas médicas. Nos ahorran el trabajo de revisar un montón de artículos y nos resumen las conclusiones. Estupendo, ¿no?. Pues a veces sí y a veces no.

Las revisiones tienen también sus limitaciones, que debemos saber valorar. Quizás la más habitual, y generalmente más fácil de digerir, sea la que se conoce como revisión narrativa o de autor. Este tipo de revisiones las suele hacer, generalmente, un experto en el tema, que revisa la literatura y analiza lo que encuentra como lo cree conveniente (para eso es experto) y que hace un resumen de síntesis cualitativa con sus conclusiones de experto. Este tipo de revisiones son buenas para hacernos una idea general sobre un tema, pero no suelen servir para responder a preguntas concretas. Además, como no se especifica cómo se hace la búsqueda de la información, no podemos reproducirla ni comprobar que incluya todo lo importante que haya escrito sobre el tema.

El otro tipo de revisión es la llamada revisión sistemática (RS), que se centra en una pregunta concreta, sigue una metodología de búsqueda y selección de la información claramente especificada y realiza un análisis riguroso y crítico de los resultados encontrados. Incluso, si los estudios primarios son parecidos, la RS va más allá de la síntesis cualitativa, realizando también un análisis de síntesis cuantitativa, que tiene el bonito nombre de metanálisis. El prototipo de RS es la realizada por la Colaboración Cochrane, que ha elaborado una metodología específica. Pero, si queréis mi consejo, haced una lectura crítica incluso si la revisión la han hecho ellos.

Y para hacerlo, nada mejor que revisar sistemáticamente nuestros tres pilares: validez, importancia y aplicabilidad.

En cuanto a la VALIDEZ, trataremos de determinar si la revisión nos da unos resultados no sesgados y que responden correctamente a la pregunta planteada. Como siempre, buscaremos unos criterios primarios de validez. Si estos no se cumplen pensaremos si es ya la hora de pasear al perro: probablemente aprovechemos mejor el tiempo.

¿Se ha planteado claramente el tema de la revisión?. Toda RS debe tratar de responder a una pregunta concreta que sea relevante desde el punto de vista clínico, y que habitualmente se plantea siguiendo el esquema PICO de una pregunta clínica estructurada. Es preferible que solo haya una pregunta, ya que si hay varias se corre el riesgo de no responder adecuadamente a ninguna. Esta pregunta determinará, además, el tipo de estudios que debe incluir la revisión, por lo que debemos valorar si se ha incluido el tipo adecuado. Deben especificarse los criterios de inclusión y exclusión de los trabajos, además de considerarse sus aspectos referentes al ámbito de realización, grupos de estudio, resultados, etc. Diferencias entre los trabajos incluidos en cuanto a los (P)pacientes, la (I)intervención o los (O)resultados hacen que dos RS que se plantean la misma preguntan puedan llegar a conclusiones diferentes.

Si se cumple lo anterior, pasaremos a considerar los criterios secundarios. ¿Se han incluido los estudios importantes que tienen que ver con el tema?. Debemos comprobar que se ha realizado una búsqueda global y no sesgada de la literatura. Lo frecuente es hacer la búsqueda electrónica incluyendo las bases de datos más importantes (generalmente PubMed, Embase y la Cochrane Library), pero esta debe completarse con una estrategia de búsqueda en otros medios para buscar otros trabajos (referencias de los artículos encontrados, contacto con investigadores conocidos, industria farmacéutica, registros nacionales e internacionales, etc), incluyendo la denominada literatura gris (tesis, informes, etc), ya que puede haber trabajos importantes no publicados. Y que nadie se extrañe de esto último: está demostrado que los trabajos que obtienen conclusiones negativas tienen más riesgo de no publicarse, por lo que no aparecen en las RS. Debemos comprobar que los autores han descartado la posibilidad de este sesgo de publicación. En general, todo este proceso de selección se suele plasmar en un diagrama de flujo que muestra el devenir de todos los trabajos valorados en la RS.

Es muy importante que se haya hecho lo suficiente para valorar la calidad de los estudios, buscando la existencia de posibles sesgos. Además, esto debe hacerse de forma independiente por dos autores y, de forma ideal, sin conocer los autores del trabajo o la revista de publicación. Además, debe quedar registrado el grado de concordancia entre los dos revisores.

Por último, en el caso de que se hayan combinado los resultados de los estudios para sacar conclusiones comunes (con o sin metanálisis), debemos preguntarnos si es razonable combinar los resultados de los estudios primarios. Es fundamental para poder sacar conclusiones de datos combinados que los trabajos sean homogéneos y que las diferencias entre ellos sean debidas únicamente al azar. Aunque cierta variabilidad de los estudios aumenta la validez externa de las conclusiones, no podremos unificar los datos para el análisis si la variabilidad es grande. Hay numerosos métodos para valorar la homogeneidad en los que no vamos a entrar ahora, pero sí que vamos a insistir en la necesidad de que los autores de la revisión lo hayan estudiado de forma adecuada.

En cuanto a la IMPORTANCIA de los resultados debemos considerar cuál es el resultado global de la revisión y si la interpretación se ha hecho de forma juiciosa. La RS debe proporcionar una estimación global del efecto de la intervención en base a una media ponderada de los artículos de calidad incluidos. Lo más frecuente es que se expresen medidas relativas como el riesgo relativo o la odds ratio, aunque lo ideal es que se complementen con medidas absolutas como la reducción absoluta del riesgo o el número necesario a tratar (NNT). Además, hay que valorar la precisión de los resultados, para lo que recurriremos a nuestros queridos intervalos de confianza, que nos darán una idea de la precisión de la estimación de la verdadera magnitud del efecto en la población.

Los resultados de los metanálisis se suelen representar de una manera estandarizada. grafico-MASe dibuja un gráfico con una línea vertical de efecto nulo (en el uno para riesgo relativo y odds ratio y en el cero para diferencias de medias) y se representa cada estudio como una marca (su resultado) en medio de un segmento (su intervalo de confianza). Los estudios con resultados con significación estadística son los que no cruzan la línea vertical. Generalmente, los estudios más potentes tienen intervalos más estrechos y contribuyen más al resultado global, que se expresa como un diamante cuyos extremos laterales representan su intervalo de confianza. Solo los diamantes que no crucen la línea vertical tendrán significación estadística. Además, cuanto más estrechos, más precisión. Y, por último, cuánto más se alejen de la línea de efecto nulo, más clara será la diferencia entre los tratamientos o las exposiciones comparadas.

Concluiremos la lectura crítica de la RS valorando la APLICABILIDAD de los resultados en nuestro medio. Habrá que preguntarse si podemos aplicar los resultados a nuestros pacientes y cómo van a influir en la atención que les prestamos. Tendremos que fijarnos si los estudios primarios de la revisión describen a los participantes y si se parecen a nuestros pacientes. Además, aunque ya hemos dicho que es preferible que la RS se oriente a una pregunta concreta, habrá que ver si se han considerado todos los resultados relevantes para la toma de decisiones en el problema en estudio, ya que a veces será conveniente que se considere alguna otra variable secundaria adicional. Y, como siempre, habrá que valorar la relación beneficios-costes-riesgos. El que la conclusión de la RS nos parezca válida no quiere decir que tengamos que aplicarla de forma obligada.

Si queréis valorar correctamente una RS sin olvidar ningún aspecto importante os recomiendo que uséis una lista de verificación como la PRISMA o alguna de las herramientas disponibles en Internet, como las parrillas que se pueden descargar de la página de CASPe.

Como veis, no hemos hablado prácticamente nada del metanálisis, con todas sus técnicas estadísticas para valorar homogeneidad y sus modelos de efectos fijos y aleatorios. Y es que el metanálisis es una fiera a la que hay que echar de comer aparte. Pero esa es otra historia…