Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Los siguientes artculos han sido escritos pormmolina

El detector de tramposos

Cuando pensamos en inventos e inventores, a la mayoría de nosotros nos viene a la cabeza el nombre de Thomas Alva Edison, conocido entre sus amigos como el mago de Menlo Park. Este señor creó más de mil inventos, de algunos de los cuales puede decirse que cambiaron el mundo. Entre ellos podemos nombrar la bombilla incandescente, el fonógrafo, el kinetoscopio, el polígrafo, el telégrafo cuádruplex, etc., etc., etc. Pero quizás su gran mérito no sea el de haber inventado todas estas cosas, sino el de aplicar métodos de producción en cadena y de trabajo en equipo al proceso de investigación, favoreciendo la difusión de sus inventos y la creación del primer laboratorio de investigación industrial.

Pero a pesar de toda su genialidad y excelencia, a Edison se le pasó inventar algo que habría tenido tanta utilidad como la bombilla: un detector de tramposos. La explicación de esta falta es doble: vivió entre los siglos XIX y XX y no se dedicaba a leer artículos sobre medicina. Si hubiese vivido en nuestro tiempo y hubiese tenido que leer literatura médica, no me cabe duda que el mago de Menlo Park se habría dado cuenta de la utilidad de este invento y se habría puesto las pilas (que, por cierto, no las inventó él, sino Alessandro Volta).

Y no es que yo esté hoy especialmente negativo, el problema es que, como ya dijo Altman hace más de 15 años, el material remitido a las revistas médicas es malo desde el punto de vista metodológico en un altísimo porcentaje de los casos. Es triste, pero el sitio más adecuado para guardar muchos de los trabajos que se publican es el cubo de la basura.

En la mayor parte de los casos la causa probablemente sea la ignorancia de los que escribimos. “Somos clínicos”, nos decimos, así que dejamos de lado los aspectos metodológicos, de los cuales tenemos una formación, en general, bastante deficiente. Para arreglarlo, las revistas mandan revisar nuestros trabajos a otros colegas, que andan más o menos como nosotros. “Somos clínicos”, se dicen, así que se comen todos nuestros errores.

Aunque esto es, de por sí, grave, puede tener remedio: estudiar. Pero es un hecho todavía más grave que, en ocasiones, estos errores pueden ser intencionados con el objetivo de inducir al lector a llegar a una determinada conclusión tras la lectura del trabajo. El remedio para este problema es hacer una lectura crítica del trabajo, prestando atención a la validez interna del estudio. En este sentido, quizás el aspecto más difícil de valorar para el clínico sin formación metodológica sea el relacionado con la estadística empleada para analizar los resultados del trabajo. Es aquí, sin ninguna duda, donde mejor se pueden aprovechar de nuestra ignorancia utilizando métodos que proporcionen resultados más vistosos, en lugar de los métodos adecuados.

Como sé que no vais a estar dispuestos a hacer un máster sobre bioestadística, en espera de que alguien invente el detector de tramposos, vamos a dar una serie de pistas para que el personal no experto pueda sospechar la existencia de estas trampas.

La primera puede parecer una obviedad, pero no lo es: ¿se ha utilizado algún método estadístico? Aunque es excepcionalmente raro, puede haber autores que no consideren utilizar ninguno. Recuerdo un congreso al que pude asistir en el que se exponían los valores de una variable a lo largo del estudio que, primero, subían y, después, bajaban, lo que permitía concluir que el resultado no era “muy allá”. Como es lógico y evidente, toda comparación debe hacerse con el adecuado contraste de hipótesis e indicarse su nivel de significación y la prueba estadística utilizada. En caso contrario, las conclusiones carecerán de validez alguna.

Un aspecto clave de cualquier estudio, especialmente en los de intervención, es el cálculo previo del tamaño muestral necesario. El investigador debe definir el efecto clínicamente importante que quiere ser capaz de detectar con su estudio y calcular a continuación qué tamaño muestral le proporcionará al estudio la potencia suficiente para demostrarlo. La muestra de un estudio no es grande o pequeña, sino suficiente o insuficiente. Si la muestra no es suficiente, puede no detectarse un efecto existente por falta de potencia (error de tipo 2). Por otro lado, una muestra mayor de lo necesario puede mostrar como estadísticamente significativo un efecto que no sea relevante desde el punto de vista clínico. Aquí hay dos trampas muy habituales. Primero, el del estudio que no alcanza significación y sus autores afirman que es por falta de potencia (por tamaño muestral insuficiente), pero no hacen ningún esfuerzo por calcular la potencia, que siempre puede hacerse a posteriori. En ese caso, podemos hacerlo nosotros usando programas de estadística o cualquiera de las calculadoras disponibles en internet, como la GRANMO. Segundo, se aumenta el tamaño muestral hasta que la diferencia observada sea significativa, encontrando la ansiada p < 0,05. Este caso es más sencillo: solo tenemos que valorar si el efecto encontrado es relevante desde el punto de vista clínico. Os aconsejo practicar y comparar los tamaños muestrales necesarios de los estudios con los que definen los autores. A lo mejor os lleváis alguna sorpresa.

Una vez seleccionados los participantes, un aspecto fundamental es el de la homogeneidad de los grupos basales. Esto es especialmente importante en el caso de los ensayos clínicos: si queremos estar seguros de que la diferencia de efecto observada entre los dos grupos se debe a la intervención, los dos grupos deben ser iguales en todo, menos en la intervención.

Para esto nos fijaremos en la clásica tabla I de la publicación del ensayo. Aquí tenemos que decir que, si hemos repartido los participantes al azar entre los dos grupos, cualquier diferencia entre ellos se deberá, sí o sí, al azar. No os dejéis engañar por las p, recordad que el tamaño muestral está calculado para la magnitud clínicamente importante de la variable principal, no para las características basales de los dos grupos. Si veis alguna diferencia y os parece clínicamente relevante, habrá que comprobar que los autores han tenido en cuenta su influencia sobre los resultados del estudio y han hecho el ajuste pertinente durante la fase de análisis.

El siguiente punto es el de la aleatorización. Esta es una parte fundamental de cualquier ensayo clínico, por lo que debe estar claramente definido cómo se hizo. Aquí os tengo que decir que el azar es caprichoso y tiene muchos vicios, pero raramente produce grupos de igual tamaño. Pensad un momento si tiráis una moneda 100 veces. Aunque la probabilidad de salir cara en cada lanzamiento sea del 50%, será muy raro que lanzando 100 veces saquéis exactamente 50 caras. Cuánto mayor sea el número de participantes, más sospechoso nos deberá parecer que los dos grupos sean iguales. Pero cuidado, esto solo vale para la aleatorización simple. Existen métodos de aleatorización en los que los grupos sí pueden quedar más equilibrados.

Otro punto caliente es el uso indebido que, a veces, puede hacerse con variables cualitativas. Aunque las variables cualitativas pueden codificarse con números, mucho cuidado con hacer operaciones aritméticas con ellos. Probablemente no tendrán ningún sentido. Otra trampa que podemos encontrarnos tiene que ver con el hecho de categorizar una variable continua. Pasar una variable continua a cualitativa suele llevar aparejada pérdida de información, así que debe tener un significado clínico claro. En caso contrario, podemos sospechar que la razón sea la búsqueda de una p < 0,05, siempre más fácil de conseguir con la variable cualitativa.

Entrando ya en el análisis de los datos, hay que comprobar que los autores han seguido el protocolo del estudio diseñado a priori. Desconfiad siempre de los estudios post hoc que no estaban planificados desde el comienzo. Si buscamos lo suficiente, siempre hallaremos un grupo que se comporta como a nosotros nos interesa. Como suele decirse, si torturas los datos lo suficiente, acabarán por confesar.

Otra conducta inaceptable es finalizar el estudio antes de tiempo por obtenerse buenos resultados. Una vez más, si la duración del seguimiento se ha establecido durante la fase de diseño como la idónea para detectar el efecto, esto debe respetarse. Cualquier violación del protocolo debe estar más que justificada. Lógicamente, es lógico terminar el estudio antes de tiempo por motivos de seguridad de los participantes, pero habrá que tener en cuenta cómo afecta este hecho en la valoración de los resultados.

Antes de realizar el análisis de los resultados, los autores de cualquier trabajo tienen que depurar sus datos, revisando la calidad y la integridad de los valores recogidos. En este sentido, uno de los aspectos a los que hay que prestar atención es al manejo de los datos extremos (los llamados outliers). Estos son los valores que se alejan mucho de los valores centrales de la distribución. En muchas ocasiones pueden deberse a errores en el cálculo, medición o transcripción del valor de la variable, pero también pueden ser valores reales que se deban a la especial idiosincrasia de la variable. El problema es que existe una tendencia a eliminarlos del análisis aún cuando no haya seguridad de que se deban a algún error. Lo correcto es tenerlos en cuenta al hacer el análisis y utilizar, si es necesario, métodos estadísticos robustos que permitan ajustar estas desviaciones.

Finalmente, el aspecto que nos puede costar más a los no muy expertos en estadística es saber si se ha empleado el método estadístico correcto. Un error frecuente es el empleo de pruebas paramétricas sin comprobar previamente si se cumplen los requisitos necesarios. Esto puede hacerse por ignorancia o para obtener la significación estadística, ya que las pruebas paramétricas son menos exigentes en este sentido. Para entendernos, la p será más pequeña que si empleamos la prueba equivalente no paramétrica.

También, con cierta frecuencia, se obvian otros requisitos para poder aplicar determinada prueba de contraste. Como ejemplo, para realizar una prueba de la t de Student o un ANOVA es necesario comprobar la homocedasticidad (una palabra muy fea que quiere decir que las varianzas son iguales), comprobación que se pasa por alto en muchos trabajos. Lo mismo ocurre con los modelos de regresión que, con frecuencia, no se acompañan del preceptivo diagnóstico del modelo que permite justificar su uso.

Otro asunto en el que puede haber trampa es el de las comparaciones múltiples. Por ejemplo, cuando el ANOVA da significativo nos dice que hay al menos dos medias que son diferentes, pero no cuáles, así que nos ponemos a compararlas dos a dos. El problema es que cuando hacemos comparaciones repetidas aumenta la probabilidad de error de tipo I, o sea, la probabilidad de encontrar diferencias significativas solo por azar. Esto puede permitir encontrar, aunque solo sea por casualidad, una p < 0,05, lo que viste mucho el estudio (sobre todo si has gastado mucho tiempo y/o dinero en hacerlo). En estos casos los autores deben emplear alguna de las correcciones disponibles (como la de Bonferroni, una de las más sencillas) para que el alfa global se mantenga en 0,05. El precio a pagar es sencillo: la p tiene que ser mucho más pequeña para ser significativa. Cuando veamos comparaciones múltiples sin corrección solo tendrá dos explicaciones: la ignorancia del que haya hecho el análisis o el intento de encontrar una significación que, probablemente, no soportaría la disminución del valor de p que conllevaría la corrección.

Otra víctima frecuente del mal uso de la estadística es el coeficiente de correlación de Pearson, que se utiliza para casi todo. La correlación, como tal, nos dice si dos variables están relacionadas, pero no nos dice nada sobre la causalidad de una variable para la producción de la otra. Otro mal uso es utilizar el coeficiente de correlación para comparar los resultados obtenidos por dos observadores, cuando probablemente lo que deba utilizarse en este caso es el coeficiente de correlación intraclase (para variables continuas) o el índice kappa (para cualitativas dicotómicas). Por último, también es incorrecto comparar dos métodos de medición (por ejemplo, glucemia capilar y venosa) mediante correlación o regresión lineal. Para estos casos lo correcto sería usar la regresión de Passing y Bablok.

Otra situación en la que una mente paranoica como la mía sospecharía es aquella en la que el método estadístico empleado no lo conocen ni los más listos del lugar. Siempre que haya una forma más conocida (y muchas veces más sencilla) de hacer el análisis, deberemos preguntarnos por qué han usado un método tan raro. En estos casos exigiremos a los autores que justifiquen su elección y que aporten una cita donde podamos revisar el método. En estadística hay que tratar de elegir la técnica correcta para cada ocasión y no aquella que nos proporcione el resultado más apetecible.

En cualquiera de los test de contraste anteriores, los autores suelen emplear un nivel de significación para p < 0,05, lo habitual, pero el contraste puede hacerse con una o con dos colas. Cuando hacemos un ensayo para probar un nuevo fármaco, lo que esperamos es que funcione mejor que el placebo o el fármaco con el que lo estemos comparando. Sin embargo, pueden ocurrir otras dos situaciones que no podemos desdeñar: que funcione igual o, incluso, que funcione peor. Un contraste bilateral (con dos colas) no asume la dirección del efecto, ya que calcula la probabilidad de obtener una diferencia igual o mayor que la observada, en las dos direcciones. Si el investigador está muy seguro de la dirección del efecto puede hacer un contraste unilateral (con una cola), midiendo la probabilidad del resultado en la dirección considerada. El problema es cuando lo hace por otra razón: la p del contraste bilateral es el doble de grande que la del unilateral, por lo que será más fácil conseguir significación estadística con el contraste unilateral. Lo que no es correcto es que este último sea el motivo para hacer un contraste unilateral. Lo correcto, salvo que haya razones bien justificadas, es hacer un contraste bilateral.

Para ir terminando esta entrada tan tramposa, diremos unas palabras sobre el uso de las medidas adecuadas para presentar los resultados. Hay muchas formas de maquillar la verdad sin llegar a mentir y, aunque en el fondo todas dicen lo mismo, la apariencia puede ser muy diferente según cómo lo digamos. El ejemplo más típico es el de usar medidas de riesgo relativas en lugar de medidas absolutas de impacto. Siempre que veamos un ensayo clínico, debemos exigir que nos presenten la reducción absoluta del riesgo y el número necesario a tratar (NNT). La reducción relativa del riesgo es un número mayor que la absoluta, por lo que parecerá que el impacto es mayor. Dado que las medidas absolutas son más fáciles de calcular y se obtienen de los mismos datos que la relativas, deberemos desconfiar si los autores no nos las ofrecen: quizás el efecto no sea tan importante como nos pretenden hacer ver.

Otro ejemplo es el uso de la odds ratio frente a los riesgos relativos (cuando pueden calcularse ambos). La odds ratio tiende a magnificar la asociación entre las variables, así que su uso no justificado también puede hacernos sospechar. Si podéis, calcular el riesgo relativo y comparad las dos medidas.

De igual manera, sospecharemos de los estudios de pruebas diagnósticas que no nos proporcionan los cocientes de probabilidad y se limiten a sensibilidad, especificidad y valores predictivos. Los valores predictivos pueden ser altos si la prevalencia de la enfermedad en la población del estudio es alta, pero no sería aplicables a poblaciones con menos proporción de enfermos. Esto se soslaya con el uso de los cocientes de probabilidad. Siempre deberemos preguntarnos el motivo que puedan tener los autores para obviar el dato parámetro más válido para calibrar la potencia de la prueba diagnóstica.

Y, por último, mucho cuidado con los gráficos: aquí las posibilidades de maquillar los resultados solo están limitadas por la imaginación. Hay que fijarse en las unidades empleadas y tratar de extraer la información del gráfico más allá de lo que pueda parecer que representa a primera vista.

Y aquí dejamos el tema por hoy. Nos ha faltado hablar en detalle sobre otra de las entidades más incomprendidas y manipuladas, que no es otra que nuestra p. A p se le atribuyen muchos significados, generalmente de forma errónea, como la probabilidad de que la hipótesis nula sea cierta, probabilidad que tiene su método específico para poder hacer una estimación. Pero esa es otra historia…

Pareja con pareja

Todos conoceréis el caso de alguien que, tras realizar un estudio y recoger varios millones de variables, se ha dirigido al estadístico de su centro de trabajo y, demostrando de forma fehaciente su claridad de ideas respecto a su trabajo, le ha dicho: por favor (hay que ser educados), crúzalo todo con todo, a ver qué sale.

Llegados a este punto te pueden ocurrir varias cosas. Si el estadístico es un desalmado sin escrúpulos te dirigirá una media sonrisa y te dirá que vuelvas al cabo de unos días. Entonces te dará varios centenares de hojas con gráficos, tablas y números que no sabrás por dónde coger. Otra cosa que te puede ocurrir es que te mande a paseo, cansado como estará de que le hagan peticiones semejantes.

Pero puedes tener suerte y encontrar un estadístico competente y paciente que, de forma abnegada, te explicará que la cosa no debe funcionar así. Lo lógico es que tú, antes de recoger ningún dato, hayas elaborado una memoria del proyecto en la que esté previsto, entre otras cosas, qué hay que analizar y qué variables hay que cruzar entre sí. Incluso, te puede sugerir que, si el análisis no es muy complicado, intentes hacerlo tú mismo.

Esto último te puede parecer el desvarío de una mente trastornada por las matemáticas pero, si lo piensas un momento, no es tan mala idea. Si nosotros hacemos el análisis, al menos el preliminar, de nuestros resultados, nos puede ayudar a entender mejor el estudio. Además, ¿quién mejor que nosotros mismos puede saber lo que queremos?

Con los paquetes estadísticos actuales, la estadística bivariante más sencilla puede estar a nuestro alcance. Únicamente tenemos que tener buen cuidado en saber elegir el test de contraste de hipótesis adecuado, para lo cual habremos de tener en cuenta tres aspectos: el tipo de variables que queremos comparar, si los datos son apareados o independientes y si tenemos que utilizar test paramétricos o no paramétricos. Veamos estos tres aspectos.

En cuanto al tipo de variables, existen múltiples denominaciones según la clasificación o el paquete estadístico que utilicemos pero, simplificando, diremos que hay tres tipos de variables. En primer lugar, están las continuas o de escala. Como su nombre indica, recogen el valor de una variable continua como puede ser el peso, la talla, la glucemia, etc. En segundo lugar, están las variables nominales, que constan de dos o más categorías que son mutuamente excluyentes. Por ejemplo, la variable color de pelo puede tener las categorías “moreno”, “rubio” y “pelirrojo”. Cuando estas variables tienen dos categorías, las llamamos dicotómicas (sí/no, vivo/muerto, etc.). Por último, cuando las categorías están ordenadas por rango, hablamos de variables ordinales: “no fuma”, “fuma poco”, “fuma moderadamente”, “fuma mucho”. Aunque a veces puedan usar números, estos indican la posición de las categorías dentro de la serie, sin implicar, por ejemplo, que la distancia de la categoría 1 a la 2 sea la misma que la de la 2 a la 3. Por ejemplo, podemos clasificar el reflujo vesicoureteral en grados I, II, III y IV (tener un grado IV es más que un II, pero no significa que se tenga el doble de reflujo).

Saber qué tipo de variable tenemos entre manos es sencillo. Si tenemos duda, podemos seguir el siguiente razonamiento basado en la respuesta a dos preguntas:

  1. ¿Tiene la variable valores teóricos infinitos? Aquí hay que abstraerse un poco y fijarse en los de “valores teóricos”. Por ejemplo, si recogemos el peso de nuestros participantes, los valores teóricos serán infinitos aunque, en la práctica, esto estará limitado por la precisión de nuestra báscula. Si la respuesta es sí estaremos antes una variable continua o de escala. Si es no, pasamos a la siguiente pregunta.
  2. ¿Los valores están ordenados en algún tipo de rango? Si la respuesta es sí, nos encontraremos ante una variable ordinal. Si la respuesta es no, tendremos una variable nominal.

El segundo aspecto es el de las medidas apareadas o independientes. Dos medidas están apareadas cuando se mide una variable en dos ocasiones tras haber aplicado algún cambio, habitualmente en el mismo sujeto. Por ejemplo: presión arterial antes y después de un test de esfuerzo, peso antes y después de una intervención nutricional, etc. Por su parte, las medidas independientes son aquellas que no tienen relación entre sí (son variables diferentes): peso, talla, género, edad, etc.

Por último, hemos mencionado lo de poder utilizar test paramétricos o no paramétricos. No vamos a entrar ahora en detalle, pero para poder utilizar un test paramétrico la variable debe cumplir una serie de características, como seguir una distribución normal, tener un determinado tamaño muestral, etc. Además, hay técnicas que son más exigentes que otras a la hora de tener que cumplir estas condiciones. Ante la duda, es preferible utilizar técnicas no paramétricas sin necesidad (el único problema es que es más difícil conseguir significación estadística, pero el contraste es igual de válido) que usar una prueba paramétrica cuando no se cumplan los requisitos necesarios.

Una vez que ya hemos dado respuesta a estos tres aspectos, solo nos queda hacer las parejas de variables que vamos a comparar y elegir el test estadístico apropiado. Lo podéis ver resumido en la tabla adjunta.En las filas está representado el tipo de variable independiente, que es aquella cuyo valor no depende de otra variable (suele estar en el eje x de las representaciones gráficas) y que suele ser la que modificamos en el estudio para ver el efecto sobre otra variable (la dependiente). En las columnas, por su parte, tenemos la variable dependiente, que es aquella cuyo valor se modifica con los cambios de la variable independiente. De todas formas, no os lieis: el programa estadístico hará el contraste de hipótesis sin tener en cuenta cuál es la dependiente y cuál la independiente, solo tendrá en cuenta los tipos de variables.

La tabla se explica sola, así que no le vamos a dar muchas vueltas. Por ejemplo, si hemos medido la presión arterial (variable de escala) y queremos saber si hay diferencias entre hombres y mujeres (género, variable nominal dicotómica), el test adecuado será el de la t de Student para muestras independientes. Si quisiéramos ver si hay diferencia en la presión antes y después de un tratamiento, utilizaríamos el mismo test de la t de Student pero para muestras apareadas.

Otro ejemplo: si queremos saber si hay diferencias significativas en el color de pelo (nominal politómica: “rubio”, “moreno” y “pelirrojo) y si el participante es del norte o sur de Europa (nominal dicotómica), podríamos emplear un test de la Ji-cuadrado.

Y aquí lo vamos a dejar por hoy. No hemos hablado nada de las peculiaridades de cada test que debemos tener en cuenta, sino que solo hemos mencionado el test en sí. Por ejemplo, la ji-cuadrado tiene que cumplir unos mínimos en cada casilla de la tabla de contingencia, en el caso de la t de Student debemos considerar si las varianzas son iguales (homocedasticidad) o no, etc. Pero esa es otra historia…

El poder de la propiedad transitiva

Cuando a Georg Cantor le dio por aquello de desarrollar la teoría de conjuntos no podía hacerse una idea de todo lo que vendría detrás, seguramente de la mano de matemáticos tan aplicados como él. Se me ocurre el caso curioso de las relaciones binarias, que los más mayores recordaréis de cuando en el colegio se aprendían cosas.

Pues resulta que algún genio matemático empieza a pensar y describe una serie de propiedades. La primera es la propiedad reflexiva. Esta quiere decir que, si un número x es igual a x, pues eso, que es x. Por si alguien no lo ha entendido, pondremos un ejemplo anatómico: mi mano derecha es mi mano derecha. Creo que el genio que inventó la propiedad reflexiva necesitó una larga recuperación en algún balneario después de tamaño esfuerzo mental.

Fue en este balneario donde decidió hacer algo más intenso, así que describió la propiedad simétrica, bastante más compleja: sin un número x es igual a y, entonces y es igual a x. Volviendo a la anatomía, si mis brazos y mis piernas son mis extremidades, tendréis que estar de acuerdo en que mis extremidades son mis brazos y mis piernas. Esto del álgebra es un fascinante.

Menos mal que, al final, para salvar un poco el expediente, nuestro genio anónimo se inventó la propiedad transitiva, que dice más o menos así: si un número x se relaciona con y, e y se relaciona con z, habrá transitividad si x se relaciona con z. Otra vez a la anatomía: si mi pierna es mía y mi pie es de mi pierna, mi pie también es mío. Después vinieron más propiedades derivadas de estas tres, pero aquí lo vamos a dejar, porque hoy vamos a utilizar el poder de la propiedad transitiva para saber cuál de dos cosas que en realidad no hemos llegado a comparar es la mejor de las dos. Pensad, por ejemplo, en una turba enloquecida que entra corriendo en un centro comercial el primer día de rebajas. Lo miran todo antes de decidir qué comprar, pero no hace falta comparar todos los productos dos a dos para saber cuál nos gusta más.

En medicina pasa algo parecido. Lo habitual es que haya varias opciones para tratar una misma enfermedad (aunque los que ya llevamos uno años en el negocio sabemos que cuantas más existen, más probable que ninguna sirva para nada). Los ensayos clínicos, y los metanálisis de ensayos clínicos, solo comparan dos a dos y puede ocurrir que nadie haya comparado los dos que nosotros tenemos a nuestra disposición o que queramos saber cuál es, en teoría, el mejor de todos los disponibles.

Pues bien, para eso se ha inventado un diseño metodológico llamado metanálisis en red (MAR), también llamado metanálisis con comparaciones múltiples o metanálisis con comparaciones mixtas. Y en este último término, comparaciones mixtas, está el quid de la cuestión, porque resulta que hay varios tipos de comparaciones. Veámoslas.

Vamos a suponer que tenemos tres posibles tratamientos que, tras una honda reflexión, he decidido llamar A, B y C. La situación más sencilla es comparar dos de ellos, A y B, por ejemplo, con un ensayo clínico convencional. Estaríamos haciendo una comparación directa entre las dos intervenciones. Pero puede ocurrir que no tengamos ningún ensayo que compare directamente A y B, pero sí dos ensayos diferentes que comparen las intervenciones con otra misma intervención, C (podéis verlo en la figura adjunta). En este caso podemos recurrir al poder de la propiedad transitiva y hacer una comparación indirecta entre A y B en función de su eficacia relativa frente a C. Por ejemplo, si A reduce la mortalidad un 100% frente a C y B la reduce un 50% frente a C, podremos decir que B reduce un 50% frente a A. Claro que, para poder hacer esto, tiene que cumplirse lo de la transitividad, cosa que no podamos dar por supuesta. Por ejemplo, si a mí me gusta el cerdo y al cerdo le gusta rebozarse por el barro, eso no quiere decir que a mí me guste rebozarme por el barro. La transitividad no se cumple en este supuesto (creo).

Pues bien, un MAR no es más que una serie de comparaciones directas, indirectas y mixtas que permiten comparar los efectos relativos de varias intervenciones. Lo habitual es representar las múltiples comparaciones con un diagrama en forma de red en el que podemos ver las comparaciones directas, indirectas y mixtas. Cada nodo de la red, que puede variar en tamaño en función de su peso específico, es uno de los estudios primarios de la revisión, mientras que las líneas que unen los nodos representan las comparaciones. La red completa representará todas las comparaciones de tratamientos identificadas a partir de los estudios primarios de la revisión que incorpora nuestro MAR.

Al igual que ocurre con los otros tipos de metanálisis aparejados a una revisión sistemática, la validez del MAR dependerá de la validez de los estudios primarios, de la heterogeneidad entre los mismos y de los posibles sesgos de información existentes, factores que condicionarán la calidad de las comparaciones directas.

Además, las comparaciones indirectas se consideran de carácter observacional y requieren, como ya hemos comentado, que el investigador emita el dictamen de transitividad de las intervenciones basándose en sus conocimientos sobre las mismas, sobre la enfermedad y de los diseños de los estudios primarios.

Otro aspecto específico del MAR es el de la coherencia o consistencia, que hace referencia al nivel de acuerdo entre la evidencia procedente de comparaciones directas e indirectas. Este nivel de acuerdo, que puede medirse con métodos estadísticos específicos, debe ser alto para que la medida resumen de resultado tenga validez. Los resultados de las comparaciones deben tener la misma dirección, no pueden ser divergentes. Cuando esto no se cumpla, probablemente la causa esté en la mala calidad metodológica de los estudios primarios, en su heterogeneidad o en la presencia de sesgos.

Como en otros metanálisis, el resultado del MAR se expresa con una medida resumen de resultado que puede ser una odds ratio, una diferencia de medias, un riesgo relativo, etc. Esta estimación puntual se acompaña de un intervalo que nos da información sobre la precisión de esta estimación. El análisis estadístico del MAR puede emplear métodos frecuentistas (el que solemos ver en los ensayos clínicos habituales) o métodos bayesianos. Estos últimos se basan en la asignación de una probabilidad del efecto del tratamiento previa al análisis de los datos para después asignar una probabilidad a posteriori tras el análisis. Para lo que nos interesa aquí, los métodos frecuentistas valorarán la precisión de la estimación puntual mediante los conocidos intervalos de confianza (habitualmente al 95%), mientras que los bayesianos proporcionarán sus intervalos de credibilidad (también al 95%), de significado similar.

Con todos estos datos obtendremos una relación ordenada de los tratamientos comparados, con el primero encabezando la lista. Pero no os confiéis demasiado, hay que mirar estos rangos con cuidado por varias razones. Primera, el mejor tratamiento en una situación puede no serlo en otra diferente. Segunda, hay que tener en cuenta otros factores como coste, disponibilidad, conocimiento del clínico, etc. Tercero, estas listas ordenadas no tienen en cuenta la magnitud de las diferencias entre los diferentes elementos. Y cuarta, el azar puede jugarnos malas pasadas y colocar en buena posición tratamiento que, en realidad, no sean tan buenos como pueda parecer.

Una vez vistas, muy por encima, las peculiaridades del MAR, ¿qué podemos decir de su lectura crítica? Al igual que disponemos de una lista de verificación para la revisión sistemática con metanálisis habitual, la declaración PRISMA, existe una declaración específica para el MAR, la PRISMA-NMA. Esta lista incluye, como ítems específicos, aspectos como la descripción de la geometría de la red de tratamientos, la consideración de los supuestos de transitividad y consistencia y la descripción de los métodos utilizados para analizar la estructura de la red y la idoneidad de las comparaciones, por si alguna puede tener un grado de evidencia menor. Todo esto se verá facilitado si los autores proporcionan el gráfico con la red de estudios y nos explican brevemente sus características.

De todas formas, ya sabéis que a mí me gusta más acudir a las parrillas de lectura crítica de la red CASPe. Aunque no hay una específica, os aconsejo que uséis la de la revisión sistemática con metanálisis habitual y, después, hagáis unas consideraciones sobre los aspectos específicos del MAR.

Para no alargar mucho esta entrada, vamos a saltarnos toda la parte que comparten los MAR con cualquier otra revisión sistemática e ir directamente a los aspectos específicos. Podéis consultar la entrada correspondiente donde repasábamos la lectura crítica de la revisión sistemática. Como siempre, vamos a seguir nuestros tres pilares de la sabiduría: validez, importancia y aplicabilidad.

En cuanto a la VALIDEZ, nos haremos tres preguntas específicas.

  1. ¿Responde la revisión a una pregunta clínica bien definida y que justifique la realización de un MAR? Esta pregunta tiene los clásicos componentes de la pregunta PICO, aunque la intervención y la comparación englobarán las múltiples comparaciones de la red.
  2. ¿Se realizó una búsqueda exhaustiva de los estudios relevantes? Este aspecto es importante para evitar el sesgo de publicación y asegurar la inclusión de toda la información importante disponible. Su ausencia puede afectar la consistencia de las comparaciones.
  3. Debe haber una especificación clara de la población diana, los tratamientos evaluados y las medidas de resultado empleadas. Todos estos aspectos pueden condicionar la validez de las comparaciones indirectas. Si queremos inferir la relación entre los efectos de A y B comparando sus efectos individuales respecto a C, es esencial que A y B se traten de forma similar en su comparación con C, que las comparaciones A-C y B-C se hagan con pacientes similares, que se usen las mismas medidas de resultado y que el riesgo de sesgo de los estudios sea bajo. Esto último puede valorarse con las herramientas habituales, como la de la Cochrane.

Para acabar este apartado, comprobaremos que los resultados son analizados y presentados de forma adecuada, qué método estadístico se ha empleado (frecuentista o bayesiano), si se proporcionan los intervalos de confianza o de credibilidad, el análisis de la red, etc.

Aunque no vamos a entrar en ello, diremos que existen múltiples tipos de red (estrella, bucle, línea…). Para que las comparaciones tengan más validez, las indirectas deben estar apoyadas por comparaciones directas. Esto podemos verlo en el esquema de la red por la presencia de triángulos similares al del gráfico que mostraba al comienzo de la entrada (u otras formas geométricas cerradas). A igualdad de los otros factores que pueden influir y que ya hemos comentado, cuantos más triángulos veamos, más validez tendrán las comparaciones.

Como último aspecto, evaluaremos si los autores han empleado los métodos adecuados para valorar la heterogeneidad y la posible existencia de inconsistencia: análisis de sensibilidad, metarregresión, etc.

Pasamos al apartado de IMPORTANCIA, en el que valoramos cuáles son los resultados del metanálisis. Aquí tendremos en cuenta cinco aspectos específicos:

  1. ¿Cuál es el resultado? Como en cualquier otro metanálisis, valoraremos el resultado y su importancia desde el punto de vista clínico.

Habrá que valorar cómo se ha podido influir el resultado por el riesgo de sesgo de los estudios incluidos: a mayor riesgo de sesgo, más podrá apartarse nuestra estimación de la verdad.

  1. ¿Son precisos los resultados? En este sentido, debemos valorar la amplitud de los intervalos de confianza o de credibilidad, teniendo en cuenta como se afectarían las conclusiones del estudio en cada extremo del intervalo.
  2. ¿Hay consistencia de los resultados entre los diferentes estudios? Puede haber variabilidad por puro azar o por heterogeneidad entre los estudios. Podremos valorarla observando la forma de los forest plots y ayudándonos de los métodos estadísticos habituales, como la I2.
  3. ¿Son fiables las comparaciones indirectas? Volvemos nuevamente al concepto de transitividad, que habrá que tener en cuenta junto con los otros factores que hemos comentado previamente y que pueden aumentar el riesgo de sesgo: poblaciones homogéneas, variables de resultado y comparadores comunes, etc.
  4. ¿Hay consistencia entre comparaciones directas e indirectas? Habrá que comprobar que existen formas geométricas cerradas dentro de la red (nuestros triángulos), además de descartar causas de inconsistencia, que son las mismas que ya hemos comentado como causantes de heterogeneidad e intransitividad.

Finalmente, acabaremos nuestra lectura crítica haciendo algunas consideraciones especiales respecto a la APLICABILIDAD de los resultados.

Además de tener en cuenta, como es habitual, si se han considerado todos los efectos y variables importantes para el paciente y si los pacientes son similares a los de nuestro entorno, nos haremos alguna pregunta relacionada específicamente con el empleo del MAR, como si la red ha considerado todas las posibilidades de tratamiento o si los distintos subgrupos de comparación que se hayan podido establecer tienen credibilidad desde el punto de vista clínico.

Y aquí lo vamos a dejar por hoy. Una fiera difícil de domar, este MAR. Y eso que no hemos hablado nada de su metodología estadística, bastante compleja pero que los paquetes informáticos desarrollan sin inmutarse. Además, podríamos haber hablado largo sobre los tipos de redes y las comparaciones que se pueden desprender de cada una de ellas. Pero esa es otra historia…

Un genio maltratado

El genio al que me estoy refiriendo en el título de esta entrada no es otro que Alan Mathison Turing, considerado uno de los padres de la ciencia de la computación y un precursor de la informática moderna.

Para los matemáticos, Turing es más conocido por su implicación en la solución del problema de decisión propuesto previamente por Gottfried Wilhelm Leibniz y David Hilbert, que buscaba poder definir un método que pudiese aplicarse a cualquier sentencia matemática para saber si esa sentencia era cierta o no (para el que le interese, se pudo demostrar que tal método no existe).

Pero la fama actual de Turing entre el gran público le viene gracias al cine y a sus trabajos en estadística durante la II Guerra Mundial. Y es que a Turing le dio por explotar la magia bayesiana para profundizar en el concepto de cómo la evidencia que vamos recogiendo durante una investigación puede apoyar la hipótesis de trabajo de partida o no hacerlo, favoreciendo entonces el desarrollo de una nueva hipótesis alternativa. Esto le permitió descifrar el código de la máquina Enigma, que era la que utilizaban los marinos de guerra alemanes para cifrar sus mensajes, y que es la historia que se ha llevado al cine. Esta línea de trabajo condujo al desarrollo de conceptos como el de peso de la evidencia y de los conceptos de verosimilitud, con los que se podían confrontar hipótesis nulas y alternativas, que se aplicaron en biomedicina e hicieron posible el desarrollo de nuevas formas de valorar pruebas diagnósticas, tal como las que vamos a tratar hoy.

Y es que toda esta historia sobre Alan Turing no es más que un reconocimiento a una de las personas cuya contribución hizo posible que después se desarrollara el diseño metodológico del que vamos a hablar hoy, que no es otro que el metanálisis de pruebas diagnósticas.

Ya sabemos que un metanálisis es un método de síntesis cuantitativa que se utiliza en las revisiones sistemáticas para integrar los resultados de los estudios primarios en una medida resumen de resultado. Lo más habitual es encontrarse con revisiones sistemáticas sobre tratamiento, para las cuales está bastante bien definida la metodología de realización y la elección de la medida resumen de resultado. Menos habituales, aunque cada día más, son las revisiones sobre pruebas diagnósticas, que han sido posibles tras el desarrollo y caracterización de los parámetros que miden la potencia diagnóstica de una prueba.

El proceso de realización de una revisión sistemática de diagnóstico sigue esencialmente las mismas pautas que el de una revisión de tratamiento, aunque hay algunas diferencias específicas que trataremos de aclarar. Nos centraremos en primer lugar en la elección de la medida de resultado y trataremos de tener en cuenta el resto de las peculiaridades cuando demos algunas recomendaciones para realizar la lectura crítica de estos trabajos.

Al elegir la medida de resultado nos encontramos con la primera gran diferencia con los metanálisis de tratamiento. En el metanálisis de pruebas diagnósticas (MAD) la forma más frecuente de valorar la prueba es combinar la sensibilidad y la especificidad como valores resumen. Sin embargo, estos indicadores presentan un problema y es que los puntos de corte para considerar los resultados de la prueba como positivos o negativos suelen variar entre los distintos estudios primarios de la revisión. Además, en algunos casos la positividad puede depender de la objetividad del evaluador (pensemos en los resultados de pruebas de imagen). Todo esto, además de ser una fuente de heterogeneidad entre los estudios primarios, constituye el origen de un sesgo típico del MAD denominado efecto umbral, en el que nos detendremos un poco más adelante.

Por este motivo a muchos autores no les gusta emplear sensibilidad y especificidad como medidas resumen y recurren a los cocientes de verosimilitud o cocientes de probabilidad, positivo y negativo. Estos cocientes tienen dos ventajas. La primera, son más robustos frente a la presencia de efecto umbral. La segunda, como ya sabemos, permiten calcular la probabilidad postprueba, ya sea usando la regla de Bayes (odd preprueba x cociente de probabilidad = odds postprueba) o un nomograma de Fagan (podéis repasar estos conceptos en la entrada correspondiente).

Por último, una tercera posibilidad es recurrir a otro de los inventos que se derivan del trabajo de Turing: la odds ratio diagnóstica (ORD).

La ORD se define como la razón de la odds de que el enfermo dé positivo con una prueba con respecto a la odds de dar positivo estando sano. Esta frase puede parecer un poco críptica, pero no lo es tanto. La odds de que el enfermo dé positivo frente a que dé negativo no es más que la proporción entre verdaderos positivos (VP) y falsos negativos (FN): VP/FN. Por otra parte, la odds de que el sano dé positivo frente a que dé negativo es el cociente entre falsos positivos (FP) y verdaderos negativos (VN): FP/VN. Y visto esto, solo nos queda definir la razón entre las dos odds, tal como veis en la figura adjunta. La ORD puede también expresarse en función de los valores predictivos y de los cocientes de probabilidad, según las expresiones que podéis ver en la misma figura. Por último, decir que también es posible calcular su intervalo de confianza, según la fórmula que da fin a la figura.

Como toda odds ratio, los valores posibles de la ORD van de cero a infinito. El valor nulo es el uno, que significa que la prueba no tiene capacidad discriminatoria entre sanos y enfermos. Un valor mayor de uno indica capacidad discriminatoria, que será mayor cuanto mayor sea el valor. Por último, valores entre cero y uno nos indicarán que la prueba no solo no discrimina bien entre enfermos y sanos, sino que los clasifica de forma errónea y nos da más valores negativos entre los enfermos que entre los sanos.

La ORD es un medidor global fácil de interpretar y que no depende de la prevalencia de la enfermedad, aunque hay que decir que sí puede variar entre grupos de enfermos con distinta gravedad. Además, es también una medida muy robusta frente al efecto umbral y resulta muy útil para calcular las curvas ROC resumen que en seguida comentaremos.

El segundo aspecto peculiar del MAD que vamos a tratar es el efecto umbral. Siempre debemos valorar su presencia cuando nos encontremos ante un MAD. Lo primero será observar la heterogeneidad clínica entre los estudios primarios, que puede ser evidente sin necesidad de hacer muchas consideraciones. Existe también una forma matemática sencilla, que es calcular el coeficiente de correlación de Spearman entre sensibilidad y especificidad. Si existe efecto umbral existirá una correlación inversa entre ambas, tanto más fuerte cuanto mayor sea el efecto umbral.

Por último, un método gráfico es valorar la dispersión de la representación de sensibilidad y especificidad de los estudios primarios sobre la curva ROC resumen del metanálisis. Una dispersión nos permite sospechar el efecto umbral, pero también puede producirse por heterogeneidad de los estudios y por otros sesgos como el de selección o el de verificación.

El tercer elemento específico del MAD que vamos a comentar es el de la curva ROC resumen (ROCr), que es una estimación de la curva ROC común ajustada según los resultados de los estudios primarios de la revisión. Existen varias formas de calcularla, algunas bastante complicadas desde el punto de vista matemático, pero lo más utilizado son los modelos de regresión que emplean la ORD como estimador, ya que, como hemos dicho, es muy robusta frente a la heterogeneidad y al efecto umbral. Pero no os asustéis, la mayoría de los paquetes estadísticos calculan y representan las ROCr sin apenas esfuerzo.

La lectura de la ROCr es similar a la de cualquier curva ROC. Los dos parámetros que más se emplean son el área bajo la curva ROC (ABC) y el índice Q. El ABC de una curva perfecta será igual a 1. Valores por encima de 0,5 indicarán la capacidad discriminatoria de la curva diagnóstica, que será mayor cuanto más se aproxime a 1. Un valor de 0,5 nos dice que nos da igual hacer la prueba que elegir el resultado lanzando una moneda al aire. Finalmente, valores por debajo de 0,5 nos indican que la prueba no contribuye para nada al diagnóstico que pretende realizar.

Por su parte, el índice Q corresponde al punto en el que se igualan sensibilidad y especificidad. De manera similar al ABC, un valor superior a 0,5 indicará la eficacia global de la prueba diagnóstica, que será mayor cuánto más se aproxime a 1 el valor del índice Q. Además, pueden calcularse también los intervalos de confianza tanto del ABC como del índice Q, con lo que se podrá valorar la precisión de la estimación de la medida resumen del MAD.

Una vez vistos (muy por encima) los aspectos específicos del MAD, vamos a dar unas recomendaciones para realizar la lectura crítica de este tipo de trabajos. La red CASPe no proporciona una herramienta específica para el MAD, pero podemos seguir las líneas de la revisión sistemática de estudios de tratamiento teniendo en cuenta los aspectos diferenciales del MAD. Como siempre, seguiremos nuestros tres pilares básicos: validez, importancia y aplicabilidad.

Empecemos con las preguntas que valoran la VALIDEZ del estudio.

La primera pregunta de eliminación hace referencia a si se ha planteado claramente el tema de la revisión. Al igual que cualquier revisión sistemática, la de pruebas diagnósticas debe tratar de responder a una pregunta concreta que sea relevante desde el punto de vista clínico, y que habitualmente se plantea siguiendo el esquema PICO de una pregunta clínica estructurada. La segunda pregunta nos hace reflexionar si el tipo de estudios que se han incluido en la revisión son los adecuados. El diseño ideal es el de una cohorte a la que se aplica de manera ciega e independiente tanto la prueba diagnóstica que queremos valorar como el patrón de referencia. Otros estudios basados en diseños tipo caso-control son menos válidos para la evaluación de pruebas diagnósticas, por lo que disminuirán la validez de los resultados.

Si la respuesta a las dos preguntas anteriores es afirmativa, pasaremos a considerar los criterios secundarios. ¿Se han incluido los estudios importantes que tienen que ver con el tema? Debemos comprobar que se ha realizado una búsqueda global y no sesgada de la literatura. La metodología de la búsqueda es similar a la de las revisiones sistemáticas sobre tratamiento, aunque debemos tener algunas precauciones. Por ejemplo, los estudios sobre diagnóstico suelen estar indexados de forma diversa en las bases de datos, por lo que el uso de los filtros habituales de otros tipos de revisiones puede hacer que perdamos trabajos relevantes. Tendremos que comprobar cuidadosamente la estrategia de búsqueda, que debe ser proporcionada por los autores de la revisión.

Además, debemos comprobar que los autores han descartado la posibilidad de un sesgo de publicación. Esto plantea un problema especial en los MAD, ya que el estudio del sesgo de publicación en estos estudios no está bien desarrollado y los métodos habituales como el funnel plot o el test de Egger no son muy fiables. Lo más prudente será suponer siempre que puede existir un sesgo de publicación.

Es muy importante que se haya hecho lo suficiente para valorar la calidad de los estudios, buscando la existencia de posibles sesgos. Para esto los autores pueden servirse de herramientas específicas, tales como la proporcionada por la declaración QUADAS-2.

Para finalizar el apartado de validez interna o metodológica, debemos preguntarnos si era razonable combinar los resultados de los estudios primarios. Es fundamental, para poder sacar conclusiones de datos combinados, que los trabajos sean homogéneos y que las diferencias entre ellos sean debidas únicamente al azar. Tendremos que valorar las posibles fuentes de heterogeneidad y si puede existir un efecto umbral, que los autores han debido tener en cuenta.

Resumiendo, los aspectos fundamentales que tendremos que analizar para valorar la validez de un MAD serán: 1) que los objetivos estén bien definidos; 2) que la búsqueda bibliográfica haya sido exhaustiva; y 3) que se haya comprobado también la validez interna o metodológica de los estudios incluidos. Además, revisaremos los aspectos metodológicos referentes a la técnica del metanálisis: conveniencia de combinar los estudios para realizar una síntesis cuantitativa, evaluación adecuada de la heterogeneidad de los estudios primarios y del posible efecto umbral y utilización de un modelo matemático adecuado para combinar los resultados de los estudios primarios (ROCr, ORD, etc.).

En cuanto a la IMPORTANCIA de los resultados debemos considerar cuál es el resultado global de la revisión y si la interpretación se ha hecho de forma juiciosa. Valoraremos más aquellos MAD que proporcionen medidas más robustas frente a los posibles sesgos, como los cocientes de probabilidades y la ORD. Además, hay que valorar la precisión de los resultados, para lo que recurriremos a nuestros queridos intervalos de confianza, que nos darán una idea de la precisión de la estimación de la verdadera magnitud del efecto en la población.

Concluiremos la lectura crítica del MAD valorando la APLICABILIDAD de los resultados a nuestro medio. Habrá que preguntarse si podemos aplicar los resultados a nuestros pacientes y cómo van a influir en la atención que les prestemos. Tendremos que fijarnos si los estudios primarios de la revisión describen a los participantes y si se parecen a nuestros pacientes. Además, habrá que ver si se han considerado todos los resultados relevantes para la toma de decisiones en el problema en estudio y, como siempre, habrá que valorar la relación beneficios-costes-riesgos. El que la conclusión de la revisión nos parezca válida no quiere decir que tengamos que aplicarla de forma obligada.

Pues con todo lo dicho vamos a ir terminando por hoy. El título de esta entrada hace referencia al maltrato sufrido por un genio. Ya sabemos a qué genio nos referíamos: Alan Turing. Aclararemos lo del maltrato. A pesar de ser una de las mentes más brillantes del siglo XX, como lo atestiguan sus trabajos sobre estadística, computación, criptografía, cibernética, etc., y de haber salvado a su país del bloqueo de la Armada alemana durante la guerra, en 1952 fue juzgado por su homosexualidad y condenado por indecencia grave y perversión sexual. Como es fácil comprender, su carrera terminó tras el juicio y Alan Turing falleció en 1954, aparentemente tras comerse un trozo de una manzana envenenada con cianuro, lo que se etiquetó como un suicidio, aunque hay teorías que hablan más bien de asesinato. Dicen que de aquí viene la manzana mordida de una conocida marca de ordenadores, aunque hay otros que dicen que la manzana representa sin más un juego de palabras entre bite (mordida, en inglés) y byte (término informático).

No sé cuál de las dos teorías será cierta, pero yo prefiero acordarme de Turing cada vez que veo la manzanita. Un humilde tributo a un gran hombre.

Y ahora ya sí que acabamos. Hemos visto muy por encima las peculiaridades de los metanálisis de pruebas diagnósticas y cómo valorarlos. Podría decirse mucho más de toda la matemática asociada a sus aspectos específicos como la presentación de variables, el estudio del sesgo de publicación, del efecto umbral, etc. Pero esa es otra historia…

Gallifantes

La mezcla irreal de diferentes partes de animales ha sido una manía de los llamados seres humanos desde tiempos inmemoriales. El caso más emblemático es el de Quimera (que da nombre a toda la familia de mezclas de animales diferentes). Este ser mitológico, hija de Tifón y de la víbora Echidna, tenía cabeza de león, cuerpo de cabra y cola de dragón, lo que le permitía respirar llamas y acojonar a todo el que pasaba por su camino. Claro que no le sirvió de nada cuando Belloforontes, montado sobre Pegaso (otro bicho raro, un caballo con alas) se empeñó en atravesarla con su lanza de plomo. Ya veis, en su fuerza estuvo su perdición: el fuego derritió la punta de la lanza dentro de esta rara criatura, lo que produjo su muerte.

Además de Quimera hay muchos más, fruto de la imaginación humana. Por nombrar algunos, podemos recordar a los unicornios (estos tuvieron peor suerte que Pegaso, en lugar de alas tenían cuernos, uno cada animal), los basiliscos (una especie de gallo serpiente de bastante mal carácter), los grifos (cuerpo de león y lo demás de águila) y todos aquellos en los que parte de la mezcla es humana, como las mantícoras (cabeza de hombre y cuerpo de león), los centauros, el Minotauro, Medusa (con sus serpientes en lugar de cabellos), las sirenas…

De todas formas, de entre todos los seres de este zoo imaginario, yo me quedo con el gallifante. Este era una mezcla de gallo y elefante que se utilizaba en la tele para premiar el ingenio de los niños que asistían a un popular concurso. Los milenials no tendréis ni idea de lo que estoy hablando, pero seguro que los que crecisteis en los 80 sí sabéis a qué me refiero.

Y todo esto me ha venido a la cabeza cuando estaba reflexionando sobre la cantidad de quimeras que también existen entre los posibles tipos de diseños de estudios científicos, especialmente entre los estudios observacionales. Vamos a conocer un poco tres de estos gallifantes de la epidemiología: los estudios de casos y controles anidados en una cohorte y los estudios de cohorte y caso, para terminar con otro espécimen particular, los estudios cruzados o de casos y autocontroles.

Dentro de estos estudios observacionales, todos conocemos los clásicos estudios de cohortes y los de casos y controles, los más utilizados.

En un estudio de cohortes, un grupo o cohorte es sometido a una exposición y se le sigue a lo largo del tiempo para comparar la frecuencia de aparición del efecto en comparación con una cohorte no expuesta, que actúa como control. Estos estudios suelen ser de direccionalidad anterógrada, por lo que permiten medir la incidencia de la enfermedad y calcular el riesgo relativo entre los dos grupos. Por su parte, en un estudio de casos y controles se parte de dos grupos de población, uno de los cuales presenta el efecto o enfermedad en estudio y se compara su exposición a un factor determinado respecto al grupo que no tiene la enfermedad y que actúa como control. Al ser de direccionalidad retrógrada y seleccionar directamente los casos de enfermedad, no es posible calcular directamente la densidad de incidencia y, por tanto, los riesgos relativos entre los dos grupos, por lo que la medida de asociación típica de los estudios de casos y controles es la odds ratio.

El estudio de cohortes es el más sólido de los dos desde el punto de vista metodológico. El problema es que suelen requerir largos periodos de seguimiento y grandes cohortes, sobre todo cuando la frecuencia de la enfermedad estudiada es baja, lo que lleva a la necesidad de manejar todas las covariables de toda esta gran cohorte, lo que aumenta los costes del estudio.

Pues bien, para estos casos en los que ni los casos y controles ni las cohortes se ajustan bien a las necesidades del investigador, los epidemiólogos han inventado una serie de diseños que están a caballo entre los dos y pueden mitigar sus defectos. Estos diseños híbridos son los estudios de casos y controles anidados en una cohorte y los estudios de cohorte y caso a los que ya nos hemos referido.

En otro orden de cosas, en los estudios observacionales clásicos el punto clave está en la selección de los controles, que tienen que ser representativos del nivel de exposición al factor de riesgo evaluado en la población de la que proceden los casos. Una selección adecuada de los controles se hace todavía más difícil cuando el efecto es de producción brusca. Por ejemplo, si queremos saber si una comida copiosa aumenta el riesgo de infarto tendríamos una gran dificultad para recoger controles representativos de la población, ya que los factores de riesgo pueden actuar instantes antes del evento.

Para evitar estas dificultades se aplicó el principio de “yo me guiso, yo me lo como” y se diseñó el tercer tipo de quimera que hemos mencionado, en el que cada participante actúa, a la vez, como su propio control. Son los estudios cruzados, también llamados de casos y autocontroles.

Vamos a ver estos bichos raros, empezando con los estudios de casos y controles anidados.

Supongamos que hemos hecho un estudio en el que hemos utilizado una cohorte con muchos participantes. Pues bien, podemos reutilizarla en un estudio de casos y controles anidados. Tomamos la cohorte y la seguimos a lo largo del tiempo, seleccionando como casos aquellos sujetos que van desarrollando la enfermedad y asignándoles como controles sujetos de la misma cohorte que todavía no la han presentado (aunque pueden hacerlo más tarde). Así, casos y controles provienen de la misma cohorte. Es conveniente emparejarlos teniendo en cuenta variables confusoras y dependientes del tiempo como, por ejemplo, los años que llevan incluidos en la cohorte. De esta forma, un mismo sujeto puede actuar como control en varias ocasiones y terminar como caso en otra, lo que habrá que tener en cuenta a la hora del análisis estadístico de los estudios. Como esto parece un poco confuso, os muestro un esquema de este tipo de estudios en la primera figura adjunta.

Como vamos viendo cómo surgen los casos, vamos haciendo un muestreo por densidad de incidencia, lo que nos va a permitir estimar riesgos relativos. Esta es una diferencia importante con los estudios de casos y controles convencionales, en los que suele calcularse una odds ratio, que solo puede asimilarse al riesgo relativo cuando la frecuencia del efecto es muy baja.

Otra diferencia es que toda la información sobre la cohorte se recoge al inicio del estudio, por lo que hay menos riesgo de que se produzcan los sesgos de información clásicos de los estudios de casos y controles, de naturaleza habitualmente retrospectiva.

El otro tipo de diseño observacional híbrido que vamos a tratar es el de los estudios de caso y cohorte. Aquí también partimos de una gran cohorte inicial, de la que seleccionamos una subcohorte más manejable que se utilizará como grupo de comparación. Así, vamos viendo qué individuos de la cohorte inicial desarrollan la enfermedad y los comparamos con la subcohorte (con independencia de que pertenezcan o no a la subcohorte). Podéis ver el esquema de un estudio de caso y cohorte en la segunda figura que os muestro.

Al igual que en el ejemplo anterior, al elegir los casos a lo largo del tiempo podemos estimar la densidad de incidencia en casos y no casos, calculando a partir de ellas el riesgo relativo. Como podemos imaginar, este diseño es más económico que los estudios convencionales porque disminuye mucho el volumen de información de los sujetos sanos que hay que manejar, sin perder eficiencia a la hora de estudiar enfermedades raras. El problema que surge es que la subcohorte tiene una sobrerrepresentación de casos, por lo que el análisis de los resultados no puede hacerse como en las cohortes tradicionales, sino que tiene su metodología propia, bastante más complicada.

Para resumir un poco lo dicho hasta ahora, diremos que el estudio de casos y controles anidado se parece más al de casos y controles clásico, mientras que el de cohorte y caso se parece más al estudio de cohortes convencional. La diferencia fundamental entre los dos es que en el estudio anidado el muestreo de los controles se hace por densidad de incidencia y mediante emparejamiento, por lo que hay que esperar a que se hayan producido todos los casos para seleccionar toda la población de referencia. Esto no es así en el de caso cohorte, mucho más sencillo, en el que la población de referencia se selecciona al comienzo del estudio.

Para acabar con estos estudios híbridos, diremos algunas cosas sobre los estudios cruzados. Estos se centran en el momento en que se produce el evento y tratan de ver si se ha producido algo inusual que lo haya favorecido, comparando las exposiciones de momentos inmediatos al evento con otros anteriores que sirven de control. Por tanto, comparamos momentos casos con momentos controles, actuando cada individuo como su propio control.

Para que el estudio tenga validez desde el punto de vista metodológico, los autores tienen que describir con claridad una serie de periodos de tiempo característicos. El primero es el periodo de inducción, que es el tiempo de retraso que se produce desde el inicio de la exposición hasta la producción del efecto.

El segundo es el periodo de efecto, que es el intervalo durante el cual la exposición puede desencadenar el efecto. Por último, el periodo de riesgo sería la suma de los dos periodos previos, desde que se produce la exposición hasta el inicio del evento.

El periodo de inducción suele ser muy breve la mayor parte de las veces, así que periodo de riesgo y efecto suelen ser equivalentes. En la figura adjunta os muestro la relación entre los tres periodos para que la entendáis mejor.

Es fundamental que estos tres periodos se especifiquen con claridad, ya que una mala estimación del periodo de efecto, tanto por exceso como por defecto, produce una dilución del efecto de la exposición y dificulta su detección.

Algunos de vosotros me diréis que estos estudios son similares a otros estudios con autocontroles, como el de casos y controles emparejados. La diferencia es que en este último se eligen uno o varios controles similares por cada caso, mientras que en el autocontrolado cada uno es su propio control. También se parecen un poco a los ensayos clínicos cruzados, en el que todos los participantes son sometidos a la intervención y al control, pero éstos son estudios experimentales en los que el investigador interviene en la producción de la exposición, mientras que los autocontrolados son estudios observacionales.

En lo que sí se parecen a los casos y controles emparejados es en el análisis estadístico, solo que aquí se analizan momentos caso y momentos control. De esta forma, lo habitual es utilizar modelos de regresión logística condicional, siendo la medida de asociación más habitual la odds ratio.

Como veis, los estudios híbridos son toda una nueva familia que amenaza con ir creciendo en número y complejidad. Hasta donde yo sé, no existen listas de verificación para realizar la lectura crítica de estos tipos de diseños, así que tendremos que aplicar de forma juiciosa los principios que aplicamos al analizar los estudios observacionales clásicos, teniendo en cuenta, además, las particularidades de cada tipo de estudio.

Para ello, seguiremos nuestros tres pilares: validez, importancia y aplicabilidad.

En el apartado de VALIDEZ valoraremos el rigor metodológico con el que está hecho el estudio. Comprobaremos que hay una definición clara de la población de estudio, de la exposición y del efecto. Si utilizamos una cohorte de referencia, esta deberá ser representativa de la población y deberá seguirse de forma completa. Por su parte, los casos serán representativos de la población de casos de la que proceden y los controles de una población con un nivel de exposición representativo de la población de casos.

La medición de la exposición y del efecto deberá hacerse de manera ciega, siendo independiente la medición del efecto del conocimiento del nivel de exposición. Además, analizaremos si se ha prestado atención a la relación temporal de los acontecimientos entre exposición y efecto y si hubo relación entre el nivel de exposición y el grado de efecto. Finalmente, el análisis estadístico deberá ser el correcto, teniendo en cuenta el control de los posibles factores de confusión. Esta parte puede ser complicada por la complejidad de los estudios estadísticos que suelen precisar este tipo de diseños.

Además, como ya hemos comentado, si estamos ante un estudio cruzado habrá que asegurarse de que ha habido una correcta definición de los tres periodos, en especial del periodo de efecto, cuya imprecisión puede afectar en mayor grado la conclusión del trabajo.

A continuación, pasaremos a valorar la IMPORTANCIA de los resultados, así como su precisión, medida por sus intervalos de confianza. Buscaremos las medidas de impacto calculadas por los autores del trabajo y, en caso de que no las proporcionen, trataremos de calcularlas nosotros mismos. Por último, compararemos los resultados con otros previamente existentes en la literatura para ver si son concordantes con el conocimiento existente y qué aportan de nuevo.

Acabaremos la lectura crítica valorando la APLICABILIDAD de los resultados. Pensaremos si los participantes se pueden asimilar a nuestros pacientes y si las conclusiones son aplicables a nuestro medio.

Y aquí vamos a ir terminando esta entrada. Hemos visto toda una nueva gama de estudios híbridos que combinan las ventajas de dos estudios observacionales para adaptarse mejor a situaciones en las que los estudios clásicos son más difíciles de aplicar. El inconveniente de estos estudios, como ya hemos comentado, es que el análisis es un poco más complicado que el de los estudios convencionales, ya que no es suficiente con el análisis crudo de los resultados, sino que hay que ajustar por la posibilidad de que un participante pueda actuar como control y caso (en los estudios anidados) y por la sobrerrepresentación de los casos en la subcohorte (en los de caso y cohorte).

Acabo ya comentando que todo lo que hemos dicho sobre los estudios cruzados se refiere a los denominados estudios cruzados unidireccionales, en los que existe una relación temporal muy puntual entre exposición y efecto. Para los casos en que la exposición es más mantenida pueden emplearse otros tipos de estudios cruzados llamados bidireccionales, en los que se seleccionan periodos de control anteriores y posteriores al efecto. Pero esa es otra historia…

Hay otros mundos, pero están en este

Y hay otras vidas, pero están en ti. Ya lo dijo Paul Éluard, ese surrealista del siglo pasado que tuvo la mala ocurrencia de visitar Cadaqués acompañado de su esposa, Elena Ivanovna Diakonova, más conocida como Gala. Ahí estuvo poco espabilado, pero la frase sí que dio para muchas más cosas.

Por ejemplo, se ha usado por muchos escritores amantes de lo desconocido, los mitos y el misterio. Yo personalmente conocí la frase cuando era un joven adolescente porque venía escrita como prefacio en una serie de libros de ciencia ficción. Incluso, en tiempos más recientes, se relaciona con ese otro mundo incorpóreo que es el ciberespacio, donde cada vez pasamos una parte mayor de nuestro tiempo.

Pero, para contribuir a que Éluard descanse tranquilo en su tumba de Père-Lachaise, os diré que a mí me gusta más su idea original sobre nuestros dos mundos entre los que podemos repartir nuestro limitado tiempo vital: el mundo real, donde hacemos la mayor parte de las cosas, y el mundo de la imaginación, nuestro espacio íntimo, donde soñamos nuestras realidades más imposibles.

Pensaréis que hoy estoy muy metafísico, pero esta es la reflexión que me ha venido a la cabeza al comenzar a escribir sobre el tema que vamos a tratar en esta entrada. Y es que en el ámbito de la Medicina también hay dos mundos.

Estamos muy acostumbrados a los números y los resultados objetivos de nuestra investigación cuantitativa. Como ejemplo tenemos nuestras reverenciadas revisiones sistemáticas, que recogen las evidencias científicas disponibles sobre una determinada tecnología sanitaria para valorar su eficacia, su seguridad, su impacto económico, etc. Si queremos saber si ver mucha tele es un factor de riesgo para padecer esa terrible enfermedad que es la fildulastrosis, lo mejor será hacer una revisión sistemática de ensayos clínicos (en el supuesto de que los haya). Así, podremos calcular multitud de parámetros que, con un número, nos darán una idea cabal del impacto de tan malsano hábito.

Pero si lo que queremos saber es cómo afecta la fildulastrosis a la persona que la padece, cuánta infelicidad le produce, cómo altera su vida familiar y social, la cosa se complica un poco con este tipo de metodología de la investigación. Y esto es importante porque cada vez se valoran más los aspectos sociales y culturales relacionados con el contexto real de las personas. Por suerte, hay otros mundos y están en este. Me estoy refiriendo al mundo de la investigación cualitativa. Hoy nos vamos a asomar (un poco) a este mundo.

La investigación cualitativa es un método que estudia la realidad en su contexto natural, tal y como se produce, con el objeto de interpretar los fenómenos de acuerdo con los significados que tienen para las personas implicadas. Y para esto se sirve de todo tipo de fuentes y materiales que nos ayuden a describir la rutina y el significado de las situaciones problemáticas para la vida de las personas: entrevistas, historias de vida, imágenes, sonidos… Aunque todo esto no tiene nada que ver con el mundo cuadriculado de la investigación cuantitativa, ambos métodos no son incompatibles e, incluso, pueden ser complementarios. Simplemente, los métodos cualitativos aportan información alternativa, distinta y complementaria a la de los métodos cuantitativos, que resulta útil para evaluar las perspectivas de las personas implicadas en el problema que estemos estudiando. La investigación cuantitativa es una forma de abordar el problema más deductiva, mientras que la cualitativa utiliza un abordaje inductivo.

Como es lógico, los métodos que emplea la investigación cualitativa son diferentes a los cuantitativos. Además, son numerosos, por lo que no vamos a describirlos en profundidad. Sí diremos que los métodos específicos más utilizados son la meta-síntesis, la fenomenología, la meta-etnografía, el meta-estudio, la meta-interpretación, la teoría fundamentada, el método biográfico y la revisión agregativa, entre otros.

El más utilizado de estos métodos es la meta-síntesis, que comienza con una pregunta de investigación y una búsqueda de la bibliografía, de forma similar a lo que conocemos de las revisiones sistemáticas. Sin embargo, hay un par de diferencias importantes. En investigación cuantitativa la pregunta de investigación ha de estar claramente definida, mientras que en la cualitativa esta pregunta es, por definición, flexible y se suele ir modificando y refinando según avanza la recogida de datos. El otro aspecto tiene que ver con la búsqueda bibliográfica, ya que en investigación cualitativa no están tan claramente definido las bases de datos que deben utilizarse ni existen los filtros y metodologías de que disponen los documentalistas para hacer las revisiones de la investigación cuantitativa.

Las técnicas para la recogida de datos son también diferentes a las que estamos más acostumbrados. Una de ellas es la observación, que permite al investigador obtener información del fenómeno tal como este se produce. El paradigma de la observación en investigación cualitativa es la observación participante, en la que el observador interacciona de forma social con los sujetos del medio en el que se produce el fenómeno de estudio. Por ejemplo, si queremos valorar las vivencias de los viajeros de un vuelo comercial, nada mejor que comprar un billete y hacernos pasar por un viajero más, recogiendo toda la información sobre comodidad, puntualidad, trato del personal de vuelo, calidad de los aperitivos, etc.

Otra técnica muy utilizada es la entrevista, en la que una persona solicita a otra persona o grupo de personas información sobre un tema concreto. Cuando se hace a grupos se denomina, como no podía ser de otra forma, entrevista grupal. En este caso el guion está bastante cerrado y el papel del entrevistador es bastante prominente, a diferencia de los grupos focales de discusión, en los que todo puede ser más abierto, a criterio del dinamizador del grupo. De todas formas, cuando interesa saber la opinión de mucha gente podemos recurrir a la técnica del cuestionario, que sondea la opinión de grupos numerosos de forma que cada componente del grupo invierte un tiempo mínimo en completarlo, al contrario de los grupos focales, en los que todos permanecen durante todo el tiempo de la entrevista.

La estructura de un trabajo de investigación cualitativa suele incluir cinco pasos fundamentales, que pueden influirse según los métodos y técnicas que se empleen:

  1. Definición del problema. Como ya hemos comentado al hablar de la pregunta de investigación, la definición del problema tiene cierto grado de provisionalidad y puede cambiar a lo largo del trabajo, ya que uno de los objetivos puede ser el averiguar precisamente si la definición del problema está bien hecha.
  2. Diseño del trabajo. También debe ser flexible. El problema de esta fase es que hay veces que el diseño propuesto no es el que vemos en el trabajo publicado. Hay todavía cierta indefinición de muchos aspectos metodológicos, sobre todo si lo comparamos con la metodología de la investigación cuantitativa.
  3. Recogida de datos. Se emplean las técnicas que hemos comentado: entrevista, observación, lectura de textos, etc.
  4. Análisis de los datos. Este aspecto difiere también del análisis cuantitativo. Aquí interesará desentrañar las estructuras de significación de los datos recogidos para determinar su alcance e implicaciones sociales. Aunque se van ideando métodos para expresar de forma numérica, lo habitual es que aquí no veamos muchas cifras y, desde luego, nada que ver con los métodos cuantitativos.
  5. Informe y validación de la información. El objetivo es generar interpretaciones conceptuales de los hechos para sacar un sentido del significado que tienen para las personas implicadas. Una vez más, y al contrario de la investigación cuantitativa, el objetivo no es proyectar los resultados de posibles manipulaciones del entorno, sino interpretar hechos que ya están a mano.

Llegados a este punto, ¿qué podemos decir sobre la lectura crítica de los trabajos de investigación cualitativa? Pues, para que os hagáis una idea, os diré que hay gran variedad en las opiniones sobre este tema, desde los que piensan que no tiene sentido evaluar la calidad de un estudio cualitativo hasta los que tratan de diseñar instrumentos de evaluación que proporcionen resultados numéricos similares a los de los estudios cuantitativos. Así que, amigos míos, no existe un consenso uniforme sobre si se deben evaluar, en primer lugar, ni sobre cómo, en segundo. Además, hay quien piensa que incluso los estudios que puedan considerarse de baja calidad deben ser tenidos en cuanta porque, a fin de cuentas, ¿quién es capaz de definir con seguridad lo que es un buen estudio de investigación cualitativa?

En general, cuando hagamos lectura crítica de un trabajo de investigación cualitativa tendremos que valorar una serie de aspectos como su integridad, complejidad, creatividad, validez de los datos, calidad de la narración descriptiva, la interpretación de los resultados y el alcance de sus conclusiones. Nosotros vamos a seguir aquí nuestra costumbre de recurrir al programa de lectura crítica CASPe, que nos proporciona una plantilla con 10 preguntas para realizar la lectura crítica de un estudio cualitativo. Estas preguntas se estructuran en tres pilares: rigor, credibilidad y relevancia.

Las preguntas de rigor hacen referencia a la idoneidad de los métodos empleados para contestar a la pregunta clínica. Como suele ser habitual, las primeras preguntas son de eliminación. Si la respuesta no es afirmativa habremos resuelto la polémica ya que, al menos con este estudio, no merecerá la pena seguir con nuestra valoración. ¿Se definieron de forma clara los objetivos de la investigación? Hay que valorar que la pregunta quede bien especificada, así como el objetivo de la investigación y la justificación de su necesidad. ¿Es congruente la metodología cualitativa? Tendremos que decidir si los métodos empleados por los autores son los adecuados para obtener los datos que nos permitan alcanzar el objetivo de la investigación. Por fin, ¿el método de investigación es adecuado para alcanzar los objetivos? El investigador tiene que decir de forma explícita el método que emplea (meta-síntesis, teoría fundamentada…). Además, el método especificado se tiene que corresponder con el utilizado, lo que puede no cumplirse en alguna ocasión.

Si hemos respondido afirmativamente a estas tres cuestiones, merecerá la pena continuar y pasaremos a las preguntas de detalle. ¿La estrategia de selección de participantes es congruente con la pregunta de investigación y el método utilizado? Debe justificarse porqué los participantes seleccionados eran los más idóneos, así como explicar quién los convocó, dónde, etc. ¿Las técnicas de recogida de datos utilizados son congruentes con la pregunta de investigación y el método utilizado? Tendrá que estar especificada y justificada la técnica de recogida de datos (por ejemplo, grupos de discusión) y el formato de registro. Si a lo largo del estudio se modifica la estrategia de recogida, habrá que justificar el motivo para ello.

¿Se ha reflexionado sobre la relación entre el investigador y el objeto de investigación (reflexividad)? Habrá que considerar si la implicación del investigador en el proceso ha podido sesgar los datos obtenidos y si esto se ha tenido en cuenta al diseñar la recogida de datos, la selección de los participantes y el ámbito del estudio. Para acabar con la valoración del rigor del trabajo, nos preguntaremos si se han tenido en cuenta los aspectos éticos. Habrá que tener en cuenta aspectos comunes con la investigación cuantitativa, tales como el consentimiento informado, aprobación por comité ético o la confidencialidad de los datos, además de aspectos específicos sobre el efecto del estudio sobre los participantes antes y después de su realización.

El siguiente bloque de dos preguntas tiene que ver sobre la credibilidad del trabajo, que se relaciona con la capacidad de los resultados de representar el fenómeno desde el punto de vista subjetivo de los participantes. La primera pregunta nos hace pensar si el análisis de los datos fue suficientemente riguroso. Debe describirse todo el proceso de análisis, las categorías que hayan podido surgir de los datos recogidos, si se ha valorado la subjetividad del investigador y cómo se han manejado los datos que pudiesen ser contradictorios entre sí. En el caso de que se presenten fragmentos de testimonios de participantes para elaborar los resultados, deberá especificarse claramente la referencia de su procedencia. La segunda pregunta tiene que ver sobre si la exposición de los resultados se hizo de forma clara. Deben exponerse de forma detallada y comprensible, mostrando su relación con la pregunta de investigación. Revisaremos en este punto las estrategias adoptadas para asegurar la credibilidad de los resultados, así como si los autores han reflexionado sobre las limitaciones del estudio.

Acabaremos la valoración crítica respondiendo a la única pregunta del bloque que tiene que ver con la relevancia del estudio, que no es más que su utilidad o aplicabilidad a nuestra práctica clínica. ¿Son aplicables los resultados de la investigación? Habrá que valorar como contribuyen los resultados a nuestra práctica, qué aportan al conocimiento existente y en qué contextos pueden ser aplicables.

Y aquí lo vamos a ir dejando por hoy. Ya habéis visto que nos hemos asomado a un mundo bastante diferente al que estamos más habituados, en el que hay que cambiar un poco la mentalidad de cómo plantear y estudiar los problemas. Antes de despedirme, advertiros, como en entradas anteriores, que no busquéis qué es la fildulastrosis, porque no vais a encontrar esta enfermedad por ninguna parte. En realidad, la fildulastrosis es un invento mío en homenaje a un personaje muy ilustre, tristemente fallecido: Forges. Antonio Fraguas (de la traducción al inglés de su apellido viene su nombre de guerra) fue, en mi humilde opinión, el mejor humorista gráfico desde que yo tengo conciencia. Durante muchos años el día comenzaba viendo el chiste de Forges, así que desde hace un tiempo hay mañanas que uno no sabe cómo empezar la jornada. Forges tenía muchos términos propios y a mí me gustó mucho su fildulastro de la percutoria, que tenía el defecto de escalporniarse de tanto en tanto. De ahí viene mi fildulastrosis, así que desde aquí le doy las gracias y le rindo este pequeño homenaje.

Y ahora sí que nos vamos. No hemos hablado mucho de los otros métodos de la investigación cualitativa como la teoría fundamentada, la meta-etnogarfía, etc. Los interesados tenéis bibliografía donde lo explican mejor de lo que podría hacerlo yo. Y, como no, al igual que en la investigación cuantitativa, también existen formas de combinar estudios de investigación cualitativa. Pero esa es otra historia…

Poderoso caballero

Sí, ya lo dijo el ilustre Francisco de Quevedo y Villegas, poderoso caballero es Don Dinero. Una gran verdad porque, ¿quién, de puro enamorado, no se humilla ante el amarillo oro? Y más en una sociedad mercantilista y materialista como la nuestra.

Pero el problema no es que nosotros seamos materialistas y solo pensemos en el dinero. El problema es que nadie cree tener todo el dinero que necesita. Incluso a los más ricos les gustaría tener mucho más dinero. Y muchas veces es verdad, no tenemos dinero suficiente para cubrir todas nuestras necesidades como nos gustaría.

Y eso no solo ocurre a nivel de individuos, también a nivel de grupos sociales. Cualquier país tiene una cantidad de dinero limitada, motivo por el cual no puede gastarse todo lo que quisiera y tiene que elegir en qué gasta su dinero. Pensemos, por ejemplo, en nuestro entorno sanitario, en el que las nuevas tecnologías sanitarias (nuevos tratamientos, nuevas técnicas diagnósticas, etc.) son cada vez mejores… y más caras (a veces, hasta límites que se acercan a la obscenidad). Si estamos gastando en el límite de nuestras posibilidades y queremos aplicar un nuevo tratamiento, solo podemos hacer dos cosas: o aumentamos nuestra riqueza (¿de dónde sacamos el dinero?) o dejamos de gastarlo en otra cosa. Habría una tercera que se usa con frecuencia, aunque no sea lo más correcto: gastar lo que no tenemos y pasar la deuda al que venga después.

Sí amigos, eso de que la salud no tiene precio no se sostiene desde el punto de vista económico. Los recursos siempre son limitados y todos debemos ser conscientes del denominado coste de oportunidad de un producto: el precio que cuesta tendremos que dejar de gastarlo en otra cosa.

Por eso es tan importante valorar adecuadamente cualquier nueva tecnología sanitaria antes de decidir su implementación en el sistema sanitario, motivo por el que se han desarrollado los llamados estudios de evaluación económica, cuyo objetivo es identificar qué acciones deben priorizarse para maximizar los beneficios producidos en un entorno con recursos limitados. Estos estudios son una herramienta para ayudar en la toma de decisión, pero no para sustituirla, ya que deben tenerse en cuenta, además, otros elementos como la justicia, la equidad o el acceso libre a la elección.

Los estudios de evaluación económica (EE) engloban toda una serie de metodología y terminología específica que suele ser poco conocida por los que no nos dedicamos a la evaluación de tecnologías sanitarias. Vamos a repasar someramente sus características para, finalmente, dar unas recomendaciones sobre cómo hacer una lectura crítica de este tipo de estudios.

Lo primero sería explicar cuáles son las dos características que definen un EE. Estas son la medida de los costes y de los beneficios de las intervenciones (la primera) y la elección o comparación entre dos o más alternativas (la segunda). Estas dos características son imprescindibles para poder decir que nos encontramos ante un EE, que podemos definir como el análisis comparativo de diferentes intervenciones sanitarias en términos de costes y beneficios. En la metodología del desarrollo de un EE habrá que tener en cuenta una serie de aspectos que enumeramos a continuación y que podéis ver resumidos en la tabla adjunta.

Objetivo de estudio. Será determinar si el uso de una nueva tecnología está justificado en función de los beneficios que produce. Para esto se formulará una pregunta de investigación con estructura similar a la de otros tipos de estudios epidemiológicos.

– Perspectivas del análisis. Es el punto de vista del destinatario del análisis, que recogerá los costes y beneficios que se deben tener en cuenta desde el posicionamiento que se elija. La perspectiva más global es la de la Sociedad, aunque puede adoptarse también la del financiador, la de organismos concretos (por ejemplo, hospitales) o la de los pacientes y familias. Lo más habitual es adoptar la perspectiva del financiador, a veces acompañada de la social. Si es así, ambas deben estar bien diferenciadas.

– Horizonte temporal del análisis. Es el periodo de tiempo durante el cual se evalúan los principales efectos económicos y sanitarios de la intervención.

– Elección del comparador. Es el punto crucial para poder determinar la eficacia incremental de la nueva tecnología y del que dependerá en buena medida la importancia del estudio para los decisores. En la práctica, el comparador más usado es la alternativa que se utiliza habitualmente, aunque en ocasiones puede compararse con la opción de no tratamiento, que deberá justificarse.

– Identificación de los costes. Los costes suelen considerarse teniendo en cuenta la cantidad total del recurso que se consume y el valor monetario de la unidad de recursos (ya sabéis, como decían las simpáticas azafatas de un antiguo concurso de la tele: 25 respuestas, a 5 pesetas cada una, 125 pesetas). Los costes se clasifican en directos e indirectos y en sanitarios y no sanitarios. Los directos son los relacionados claramente con la enfermedad (hospitalización, pruebas de laboratorio, lavandería y cocina, etc.), mientras que los indirectos hacen referencia a la productividad o su pérdida (funcionalidad laboral, mortalidad). Por otro lado, los costes sanitarios son los relacionados con la intervención (medicamentos, pruebas diagnósticas, etc.), mientras que los no sanitarios son los que tienen que pagar el paciente u otras entidades o los que se relacionan con la productividad.

¿Qué costes se incluirán en una EE? Pues dependerá de la intervención que se analice y, especialmente, de la perspectiva y el horizonte temporal del análisis.

– Cuantificación de los costes. Habrá que determinar la cantidad de recursos empleada, ya sea de forma individual o agregada, dependiendo de la información de que se disponga.

– Valoración de los costes. Se les asignará un precio unitario, especificando la fuente y el método empleado para asignar este precio. Cuando el estudio abarque periodos de tiempo largo habrá que tener en cuenta que las cosas no cuestan lo mismo a lo largo de los años. Si yo os digo que conocí una época en la que salías de noche con mil pesetas (el equivalente a unos 6 euros de ahora) y volvías a casa con dinero pensaréis que es otro de mis frecuentes desvaríos, pero os juro que es verdad.

Para tener esto en cuenta se utiliza un factor de ponderación o tasa de descuento, que suele estar entre el 3% y el 6%. Para el que tenga curiosidad, la fórmula general es VA = VF/(1+t)n, donde VA es valor actual, VF valor futuro, n es el número de años y t la tasa de descuento.

– Identificación, medida y valoración de los resultados. Los beneficios obtenidos pueden clasificarse en sanitarios y no sanitarios. Los sanitarios son consecuencias clínicas de la intervención, medidas generalmente desde un punto de vista de interés para el paciente (mejoría de cifras de presión arterial, muertes evitadas, etc.). Por su parte, los no sanitarios se dividen según produzcan mejoras en la productividad o en la calidad de vida.

Las primeras son fáciles de comprender: la productividad puede mejorar porque se vaya antes a trabajar (ingreso más corto, convalecencia más breve) o porque se trabaje mejor por mejorar las condiciones de salud el trabajador. Las segundas se relacionan con el concepto de calidad de vida relacionado con la salud, que refleja el impacto de la enfermedad y su tratamiento sobre el paciente.

La calidad de vida relacionada con la salud puede estimarse utilizando una serie de cuestionarios sobre las preferencias de los pacientes, resumiéndose en un único valor de puntuación que, unida a la cantidad de vida, nos proporcionará el año de vida ajustado por calidad (AVAC), también conocido como QALY, por sus siglas en inglés.

Para valora la calidad de vida nos referimos a las utilidades de los estados de salud, que se expresan con un valor numérico entre 0 y 1, en el que 0 representa la utilidad del estado de muerte y 1 la de la salud perfecta. En este sentido, un año de vida vivido en perfecta salud equivale a un AVAC (1 año de vida x 1 utilidad = 1 AVAC). Así, para determinar el valor en AVACs multiplicaremos el valor asociado a un estado de salud por los años vividos en ese estado. Por ejemplo, medio año en perfecta salud (0,5 años x 1 utilidad) equivaldría a un año con algunos achaques (1 año x 0,5 utilidad).

– Tipo de análisis económico. Podemos elegir entre cuatro tipos de análisis económico.

El primero, el análisis de minimización de costes. Este se usa cuando no hay diferencia de efecto entre las dos opciones comparadas, con lo que nos bastará con comparar los costes para elegir la más barata. El segundo, el análisis de coste-efectividad. Este se usa cuando las intervenciones son similares y determina la relación entre costes y consecuencias de las intervenciones en unidades habitualmente utilizadas en clínica (disminución de días de ingreso, por ejemplo). El tercero, el análisis de coste-utilidad. Es similar al de coste-efectividad, pero ajustando la efectividad por la calidad de vida, por lo que su medida de resultado es el AVAC. Por último, el cuarto método es el análisis de coste-beneficio. En este tipo todo se mide en unidades monetarias, que solemos comprender bastante bien, aunque puede ser un poco complicado explicar con ellas las ganancias en salud.

– Análisis de los resultados. El análisis dependerá del tipo de análisis económico empleado. En el caso de estudios de coste-efectividad es típico calcular dos medidas, el coste-efectividad medio (dividiendo el coste entre su beneficio) y el coste-efectividad incremental (coste extra por unidad de beneficio adicional que se consigue con una opción respecto a la otra). Este último parámetro es importante, ya que constituye un límite de eficiencia de la intervención, que elegiremos o no en función de cuánto estemos dispuestos a pagar por una unidad adicional de efectividad.

– Análisis de sensibilidad. Al igual que ocurre con otro tipo de diseños, los EE no se libran de la incertidumbre, generalmente debida a falta de fiabilidad de los datos disponibles. Por eso es conveniente evaluar el grado de incertidumbre mediante un análisis de sensibilidad para comprobar el grado de estabilidad de los resultados y cómo pueden modificarse si varían las variables principales. Un ejemplo puede ser la variación de la tasa de descuento elegida.

Existen cinco tipos de análisis de sensibilidad: univariante (las variables del estudio se modifican una a una), multivariante (se modifican dos o más), de extremos (nos ponemos en los escenarios más optimista y más pesimista para la intervención), umbral (identifica si existe un valor crítico por encima o por debajo del cual se invierte la elección hacia una u otra de las intervenciones comparadas) y probabilístico (asumiendo una determinada distribución de probabilidad para la incertidumbre de los parámetros utilizados).

– Conclusión. Este es el último apartado del desarrollo de un EE. Las conclusiones deben tener en cuenta dos aspectos: la validez interna (análisis correcto para los pacientes incluidos en el estudio) y la validez externa (posibilidad de extrapolar las conclusiones a otros grupos de pacientes similares).

Como ya dijimos al principio de esta entrada, los EE tienen mucha jerga y aspectos metodológicos propios, lo que nos dificulta realizar una lectura crítica y una correcta comprensión de su contenido. Pero que nadie se desanime, podemos hacerlo recurriendo a nuestros tres pilares básicos habituales: validez, importancia y aplicabilidad.

Existen múltiples guías que explican de manera sistemática cómo valorar un EE. Quizás la primera fue la de los NICE británicos (National Institute for Clinical Excellence), pero posteriormente han surgidas otras como la del PBAC australiano (Pharmaceutical Benefits Advisory Comitee) y la de la CADTH canadiense (Canadian Agency for Drugs and Technologies in Health). En España no podíamos ser menos y la Unidad de Evaluación de Tecnologías Sanitarias Laín Entralgo elaboró también un instrumento para determinar la calidad de los EE. Esta guía establece recomendaciones para 17 dominios que se asemejan bastante a lo que hemos dicho hasta ahora, completándose con una lista de verificación para facilitar la valoración de la calidad de los EE.

De todas formas, como ya sabréis mis sufridores habituales, yo prefiero utilizar una lista de verificación más sencilla que está disponible en Internet de manera gratuita, que no es otra que la herramienta que proporciona el grupo CASPe y que os podéis descargar de su web. Vamos a seguir estas 11 preguntas CASPe, aunque sin perder de vista las recomendaciones de la guía española que hemos mencionado.

Como siempre, comenzaremos con la VALIDEZ, tratando de responder primero a dos preguntas de eliminación. Si la respuesta es negativa podremos dejar el estudio de lado y dedicarnos a otra tarea más productiva.

¿Está bien definida la pregunta u objetivo de la evaluación? La pregunta de investigación debe estar clara y definir la población diana del estudio. Habrá, además, tres aspectos fundamentales que deben quedar claros en el objetivo: las opciones comparadas, la perspectiva del análisis y el horizonte temporal. ¿Existe una descripción suficiente de todas las alternativas posibles y sus consecuencias? Las actuaciones a seguir deben estar perfectamente definidas en todas las opciones comparadas, incluyendo quién, donde y a quién se aplica cada acción. Lo habitual será comparar la nueva tecnología, como mínimo, con la de uso habitual, siempre justificando la elección de la tecnología de comparación, especialmente si esta es la de no tratamiento (en el caso de intervenciones farmacológicas).

Si hemos podido contestar afirmativamente estas dos preguntas, pasaremos a las cuatro de detalle. ¿Existen pruebas de la efectividad, de la intervención o del programa evaluado? Miraremos si hay ensayos, revisiones u otros estudios previos que prueben la eficacia de las intervenciones. Pensemos en un estudio de minimización de costes, en el cual queremos saber cuál de las dos opciones, ambas efectivas, es más barata. Lógicamente, tendremos que disponer de pruebas previas de esta efectividad. ¿Los efectos de la intervención (o intervenciones) se identifican, se miden y se valoran o consideran adecuadamente? Estos efectos pueden medirse con unidades simples, muchas veces derivadas de la práctica clínica, con unidades monetarias y con unidades de cálculo más elaborado, como los AVAC que hemos mencionado. ¿Los costes en que se incurre por la intervención (intervenciones) se identifican, se miden y se valoran adecuadamente? Los recursos empleados deben estar bien identificados y medidos en las unidades adecuadas. Debe especificarse, como ya comentamos, el método y la fuente empleados para asignar el valor a los recursos empleados. Por último, ¿se aplican tasas de descuento a los costes de la intervención/es? ¿y a los efectos? Como ya sabemos, esto es fundamental cuando el horizonte temporal del estudio es prolongado. En España se recomienda utilizar una tasa de descuento del 3% para los recursos básicos. Al hacer análisis de sensibilidad esta tasa se ensayará entre el 0% y el 5%, lo que permitirá la comparación con otros estudios.

Una vez valorada la validez interna de nuestro EE, pasaremos a contestar las preguntas referentes a la IMPORTANCIA de los resultados. La primera, ¿cuáles son los resultados de la evaluación? Repasaremos las unidades que se han utilizado (AVACs, costes monetarios, etc.) y si se han realizados los análisis de beneficios incrementales, en los casos apropiados. La segunda pregunta de este apartado se refiere a si se ha realizado un análisis adecuado de sensibilidad para saber cómo variarían los resultados con los cambios de los costes o de la efectividad. Además, es recomendable que los autores justifiquen las modificaciones realizadas respecto al caso base, la elección de las variables que se modifican y el método empleado en el análisis de sensibilidad. Nuestra guía española recomienda realizar, siempre que sea posible, un análisis de sensibilidad probabilístico, detallando todas las pruebas estadísticas realizadas y los intervalos de confianza de los resultados.

Para terminar, valoraremos la APLICABILIDAD o validez externa de nuestro estudio respondiendo a las tres últimas preguntas. ¿Sería el programa igualmente efectivo en tu medio? Habrá que considerar si la población diana, la perspectiva, la disponibilidad de tecnologías, etc., son aplicables a nuestro contexto clínico. Finalmente, deberemos reflexionar sobre si los costes serían trasladables a nuestro medio y si valdría la pena aplicarlos a nuestro medio. Esto puede depender de diferencias sociales, políticas, económicas, de población, etc. entre nuestro entorno y aquel en el que se ha realizado el estudio.

Y con esto vamos a ir terminando esta entrada de hoy. Aunque os eche humo la cabeza después de todo lo que hemos dicho, podéis creerme si os digo que no hemos hecho más que arañar la superficie de este proceloso mundo de los estudios de valuación económica. No hemos hablado nada, por ejemplo, de los métodos estadísticos que pueden emplearse en los estudios de sensibilidad, que pueden llegar a ser complicados, ni tampoco de los estudios realizados mediante modelización, que emplean técnicas solo al alcance de mentes privilegiadas, como las cadenas de Markov, los modelos estocásticos o los modelos de simulación de eventos discretos, por mencionar algunos. Tampoco hemos hablado nada del tipo de estudios en los que se basan las evaluaciones económicas. Estos pueden ser estudios experimentales u observacionales, pero tienen una serie de peculiaridades que los diferencian de los otros estudios de diseño similar, pero con función diferente. Es el caso de los ensayos clínicos que incorporan una evaluación económica (los que hablan inglés los llaman piggy-back clinical trials), que suelen tener un diseño más pragmático que los ensayos convencionales. Pero esa es otra historia…

King Kong contra Godzilla

¡Vaya lío que forman estos dos elementos cuando los dejan sueltos y se juntan! En esta historia, casi tan vieja como yo (por favor, no corráis a mirar en qué año se hizo la película) el pobre King Kong, que debió viajar más que Tarzán, sale de su Isla Calavera para defender un pueblo de un malvado pulpo gigante y se bebe una pócima que lo deja profundamente dormido. Esto lo aprovechan unos señores japoneses para llevarle a su país. Yo, que he estado en Japón, puedo imaginar el efecto que le hizo al pobre mono cuando se despertó, así que no tuvo más remedio que escaparse, con la mala fortuna de encontrarse a Godzilla, que también se había escapado de un iceberg donde previamente le habían congelado. Y ahí que se lían, piedras para acá, rayos atómicos para allá, hasta que la cosa se descontrola y finalmente King Kong se va a atacar Tokio, no me acuerdo exactamente por qué motivo. Os juro que no me he tomado ningún alucinógeno, la película es así y no voy a revelar más por no estropearos el final en el increíble caso de que queráis verla después de lo que os cuento. Lo que no sé es que se habrían tomado los guionistas antes de planear esta historia.

A estas alturas estaréis pensando de qué puede ir la entrada de hoy que esté relacionada con esta historia. Pues la verdad es que no tiene nada que ver con lo que vamos a hablar, pero no se me ocurría mejor forma de empezar. Bueno, en realidad quizás sí, porque hoy vamos a hablar de una familia de monstruos dentro de los estudios epidemiológicos: los estudios ecológicos. Es curioso que cuando uno lee algo sobre los estudios ecológicos siempre empieza diciendo que son sencillos. Pues a mí no me lo parecen. La verdad es que tienen mucha miga y vamos a intentar contarlos de forma sencilla. Agradezco de paso a mi amigo Eduardo (a quien dedico esta entrada) el esfuerzo que hizo por describirlos de forma inteligible. Gracias a él pude entenderlos. Bueno… un poco.

Los estudios ecológicos son estudios observacionales que tienen la peculiaridad de que la población de estudio no son sujetos individuales, sino sujetos agrupados (en conglomerados), por lo que el nivel de inferencia de sus estimaciones es también agregado. Suelen ser baratos y rápidos de realizar (supongo que de ahí vendrá lo de su sencillez), ya que suelen utilizar datos de fuentes secundarias ya disponibles, y son de gran utilidad cuando no es posible medir la exposición a nivel individual o cuando la medida de efecto solo se puede medir a nivel poblacional (como los resultados de una campaña vacunal, por ejemplo).

El problema viene cuando queremos hacer inferencia a nivel individual a partir de sus resultados, ya que están sujetos a una serie de sesgos que luego comentaremos. Además, como suelen ser con mayor frecuencia estudios descriptivos de temporalidad histórica, puede ser difícil determinar la gradación temporal entre la exposición y el efecto estudiado.

Vamos a ver las características específicas en relación a tres aspectos de su metodología: tipos de variables y análisis, tipos de estudios y sesgos.

Las variables ecológicas se clasifican en variables agregadas y ambientales (también llamadas globales). Las agregadas muestran un resumen de observaciones individuales. Suelen ser medias o proporciones, como la edad media en la que se ve la primera película de King Kong o la tasa de frikis por cada 1000 asistentes a las salas de cine, por citar dos ejemplos absurdos.

Por su parte, las medidas ambientales son características de un lugar determinado. Estas pueden tener un paralelismo a nivel individual (por ejemplo, los niveles de polución ambiental, relacionados con la mierda que traga cada uno) o ser atributos de grupos sin equivalencia a nivel individual (como la calidad del agua, por decir alguna).

En cuanto al análisis, puede hacerse a nivel agregado, usando datos de grupos de participantes, o a nivel individual, pero mejor sin mezclar los dos tipos. Es más, si se recogen datos de los dos tipos lo más conveniente será transformarlos en un solo nivel, siendo lo más sencillo agregar los datos individuales, aunque también se puede hacer al revés e, incluso, hacer un análisis en los dos niveles con técnicas estadísticas de multinivel jerarquizado, solo al alcance de unas pocas mentes privilegiadas.

Como es lógico, el nivel de inferencia que queramos aplicar dependerá de cuál sea nuestro objetivo. Si queremos estudiar los efectos de un factor de riesgo a nivel individual, la inferencia será individual. Un ejemplo sería estudiar relacionar el número de horas que se ve la televisión con la incidencia de cáncer de cerebro. Por otra parte, y siguiendo un ejemplo muy pediátrico, si queremos conocer la efectividad de una vacuna las inferencias se harán de forma agregada a partir de los datos de cobertura vacunal en la población. Y para acabar de rizar el rizo, podemos medir un factor de exposición de las dos formas, individual y agrupada. Por ejemplo, densidad de restaurantes mexicanos en una población y frecuencia de uso de antiácidos. En este caso haríamos una inferencia contextual.

En cuanto al tipo de estudios ecológicos, los podemos clasificar según el método de exposición y el método de agrupación.

Según el método de exposición la cosa es relativamente sencilla y podemos encontrarnos dos tipos de estudios. Si no medimos la variable de exposición, o lo hacemos parcialmente, hablamos de estudios exploratorios. En el caso contrario, nos encontraremos ante un estudio analítico.

Según el método de agrupación, podemos considerar tres tipos: múltiples (cuando se seleccionan varias zonas), de tendencia temporal (existe medición a lo largo del tiempo) y mixtos (combinación de los dos).

La complejidad empieza cuando se combinan las dos dimensiones (exposición y agrupación), ya que entonces nos podemos encontrar ante una serie de diseños más complejos. Así, los estudios de grupos múltiples pueden ser exploratorios (no se mide el factor de exposición, pero sí el efecto) o analíticos (el más frecuente, aquí medimos ambas cosas). Los estudios de tendencia temporal, para no ser menos, pueden también ser exploratorios y analíticos, de forma similar a los anteriores, pero a lo largo del tiempo. Por último, habrá estudios mixtos que comparen las tendencias temporales de varias áreas geográficas. Sencillo, ¿verdad?

Pues esto no es nada comparado con la complejidad de las técnicas estadísticas empleadas en estos estudios. Hasta hace poco los análisis eran muy sencillos y se basaban en medidas de asociación o de correlación lineal, pero en los últimos tiempos hemos asistido al desarrollo de numerosas técnicas basadas en modelos de regresión y cosas más exóticas como los modelos multiplicativos log-lineales o la regresión de Poisson. El mérito de todos estos estudios es que, a partir de las medidas agrupadas, nos permiten conocer cuántos sujetos expuestos o no expuestos presentan el efecto, permitiendo así el cálculo de tasas, fracciones atribuibles, etc. No temáis, no vamos a entrar en detalle, pero hay bibliografía para aquellos que quieran calentarse la cabeza.

Para terminar con los aspectos metodológicos de los estudios ecológicos, vamos a enumerar algunos de sus sesgos más característicos, favorecidos por el hecho de utilizar unidades de análisis agregadas.

El más famoso de todos es el sesgo ecológico, conocido también como falacia ecológica. Este se produce cuando la medida agrupada no mide el efecto biológico a nivel individual, de tal forma que la inferencia individual realizada es errónea. Este sesgo se hizo famoso con el estudio del New England que concluía que había una relación entre el consumo de chocolate y los premios Nobel pero el problema es que, fuera de la gracia de este ejemplo, la falacia ecológica es la principal limitación de este tipo de estudios.

El otro sesgo que tiene algunas peculiaridades en este tipo de estudios es el sesgo de confusión. En los estudios que tratan con unidades individuales se produce confusión cuando la variable de exposición se relaciona con el efecto y con la exposición, sin formar parte de la relación causal entre ambos. Este ménage à trois es un poco más complejo en los estudios ecológicos. El factor de riesgo puede comportarse de forma similar a nivel ecológico, pero no a nivel individual y al revés, es posible que factores de confusión a nivel individual no produzcan confusión a nivel de agregado. En cualquier caso, al igual que en el resto de los estudios, hay que tratar de controlar los factores de confusión, para lo cual hay dos abordajes fundamentales.

El primero, meter las posibles variables de confusión en el modelo matemático como covariables y realizar un análisis multivariante, con lo que nos va a ser más complicado estudiar el efecto. El segundo, ajustar o estandarizar las tasas de producción del efecto por las variables de confusión y realizar el modelo de regresión con las tasas ajustadas. Para poder hacer esto es imprescindible que todas las variables introducidas en el modelo se ajusten también a la misma variable de confusión y que se conozcan las covarianzas de las variables, lo cual no ocurre siempre. En cualquier caso, y no es por desanimar, muchas veces no podemos estar seguros de que se hayan controlado de forma adecuada los factores de confusión, ni siquiera empleando las técnicas más recientes y sofisticadas de análisis multinivel, ya que el origen puede estar en características no conocidas de la distribución de los datos entre los grupos.

Otros aspectos truculentos de los estudios ecológicos son el sesgo de ambigüedad temporal (ya lo hemos comentado, muchas veces es difícil asegurar que la exposición preceda al efecto) y la colinealidad (dificultad para asegurar los efectos de dos o más exposiciones que pueden ocurrir de forma simultánea). Además, aunque no son específicos de los estudios ecológicos, son muy susceptibles de presentar sesgos de información.

Ya veis que tenía razón al principio cuando os decía que los estudios ecológicos me parecen muchas cosas, pero de sencillos nada. De todas formas, es conveniente entender en qué se basa su metodología porque, con el desarrollo de las nuevas técnicas de análisis, han ganado en potencia y prestigio y es más que posible que nos encontremos con ellos cada vez con mayor frecuencia.

Pero no desesperéis, lo importante para nosotros, consumidores de bibliografía médica, es entender cómo funcionan para poder hacer una lectura crítica de los trabajos cuando nos encontremos antes ellos. Aunque, hasta donde yo sé, no existen listas de verificación tan estructurada como las que tiene CASPe para otros diseños, la lectura crítica la haremos siguiendo el esquema general habitual según nuestros tres pilares: validez, importancia y aplicabilidad.

El estudio de la VALIDEZ lo haremos de forma similar al de otros tipos de estudios observacionales transversales. Lo primero será comprobar que existe una definición clara de la población y de la exposición o efecto en estudio. Tendrán que estar claramente especificadas las unidades de análisis y su nivel de agregación, así como los métodos de medición del efecto y de la exposición, esta última, como ya sabemos, solo en los estudios analíticos.

La muestra del estudio deberá ser representativa, para lo cual tendremos que revisar los procedimientos de selección, los criterios de inclusión y exclusión y el tamaño. Estos datos tendrán también influencia en la validez externa de los resultados.

Como en cualquier estudio observacional, la medición de exposición y efecto debería hacerse de forma ciega e independiente, utilizando para ello instrumentos válidos. Los autores deberán presentar los datos de forma completa, teniendo en cuenta si hay valores perdidos o fuera de rango. Por último, debe haber un análisis correcto de los resultados, con un control de los sesgos típicos de estos estudios: ecológico, de información, de confusión, de ambigüedad temporal y colinealidad.

En el apartado de IMPORTANCIA podremos empezar por una valoración cuantitativa, resumiendo el resultado más importante y repasando la magnitud del efecto. Debemos buscar o calcular nosotros mismo, si es posible, las medidas de impacto más apropiadas: diferencias de tasas de incidencia, fracción atribuible en expuestos, etc. Si los autores no ofrecen estos datos, pero sí proporcionan el modelo de regresión, es posible calcular las medidas de impacto a partir de los coeficientes de multiplicación de las variables independientes del modelo. No os voy a poner aquí la lista de fórmulas por no hacer esta entrada todavía más antipática, pero que sepáis que existen por si un día las necesitáis.

A continuación realizaremos una valoración cualitativa de los resultados, tratando de valorar el interés clínico de la medida de resultado principal, el interés del tamaño del efecto  y el impacto que puede tener para el paciente, el sistema o la Sociedad.

Finalizaremos este apartado con una valoración comparativa (buscando estudios similares y comparando la medida principal de resultado y otras medidas alternativas) y una valoración de la relación entre beneficios, riesgos y costes, como haríamos con cualquier otro tipo de estudio.

Finalmente, consideraremos la APLICABILIDAD de los resultados en la práctica clínica, teniendo en cuenta aspectos como los efectos adversos, el coste económico, etc. Ya sabemos que el hecho de que el estudio esté bien realizado no quiere decir que tengamos que aplicarlo obligadamente en nuestro entorno.

Y aquí vamos a dejarlo por hoy. Cuando leáis o hagáis un estudio ecológico, tened cuidado de no caer en la tentación de sacar conclusiones de causalidad. Al margen de las trampas que os pueda tender la falacia ecológica, los estudios ecológicos son observacionales, así que pueden servir para generar hipótesis de causalidad, pero no para confirmarlas.

Y ahora sí que nos vamos. No os dije quién ganó la pelea entre King Kong y Godzilla para no hacer de spoiler, pero seguro que los más atentos ya lo habréis imaginado. Al fin y al cabo, y para su desgracia, solo uno de los dos viajó después a Nuera York. Pero esa es otra historia…

La bola de cristal

¡Cómo me gustaría poder predecir el futuro! Y no solo para ganar millones en la lotería, que es lo primero que a uno se le ocurre. Hay cosas más importantes en la vida que el dinero (o eso dicen algunos), decisiones que tomamos basadas en suposiciones que acaban por no cumplirse y que nos complican la vida hasta límites insospechados. Todos habremos pensado alguna vez aquello de “si se viviera dos veces…” No me cabe duda, si me encontrase con el genio de la lámpara uno del tres deseos que le pediría sería una bola de cristal para ver el futuro.

Y también nos vendría bien en nuestro trabajo como médicos. En nuestro día a día nos vemos obligados a tomar decisiones sobre el diagnóstico o el pronóstico de nuestros pacientes y lo hacemos siempre sobre el pantanoso terreno de la incertidumbre, asumiendo siempre el riesgo de cometer algún error. Nosotros, sobre todo cuando vamos siendo más experimentados, estimamos de forma consciente o inconsciente la verosimilitud de nuestras suposiciones, lo que nos ayuda en la toma de decisiones diagnósticas o terapéuticas. Sin embargo, qué bueno sería también poder disponer de una bola de cristal para saber con más exactitud el devenir del curso del paciente.

El problema, como ocurre con otros inventos que serían de gran utilidad em medicina (como la máquina del tiempo), es que nadie ha conseguido todavía fabricar una bola de cristal que funcione de verdad. Pero no nos vengamos abajo. No podremos saber con seguridad qué va a ocurrir, pero sí que podemos estimar la probabilidad de que ocurra determinado resultado.

Para ello, podemos utilizar todas aquellas variables relacionadas con el paciente que tengan una validez diagnóstica o pronóstica conocidas e integrarlas para realizar el cálculo de probabilidades. Pues bien, hacer semejante cosa sería lo mismo que diseñar y aplicar lo que se conoce como una regla de predicción clínica (RPC).

Así, si nos ponemos un poco formales, podremos definir una RPC como una herramienta compuesta por un conjunto de variables de la historia clínica, exploración física y pruebas complementarias básicas, que nos proporciona una estimación de la probabilidad de un evento, nos sugiere un diagnóstico o nos predice una respuesta concreta a un tratamiento.

La lectura crítica de un trabajo sobre una RPC comparte aspectos similares con los de los trabajos sobre pruebas diagnósticas y tiene, además, aspectos específicos relacionados con la metodología de su diseño y aplicación. Por este motivo, vamos a ver someramente los aspectos metodológicos de las RPC antes de entrar en su valoración crítica.

En el proceso de desarrollo de una RPC, lo primero que hay que hacer es definirla. Los cuatro elementos clave son la población de estudio, las variables que vamos a considerar como potencialmente predictivas, el patrón de referencia (el gold standard de los que sabéis inglés) que clasifica si el evento que queremos predecir se produce o no y el criterio de valoración del resultado.

Hay que tener en cuenta que las variables que elijamos deben ser clínicamente relevantes, se deben poder recoger de manera precisa y, como es lógico, deben estar disponibles en el momento que queramos aplicar la RPC para la toma de decisiones. Es conveniente no caer en la tentación de meter variables a diestro y siniestro ya que, aparte de complicar la aplicación de la RPC, puede disminuir su validez. En general, se recomienda que por cada variable que se introduce en el modelo deberían haberse producido, al menos, 10 eventos de los que queremos predecir (el diseño se hace en una determinada muestra cuyos componentes presentan las variables pero solo un número determinado acabaron presentando el evento a predecir).

También me gustaría resaltar la importancia del patrón de referencia. Tiene que haber una prueba diagnóstica o un conjunto de criterios bien definidos que nos permitan definir de manera clara el evento que queremos predecir con la RPC.

Por último, es conveniente que los que recojan las variables durante esta fase de definición desconozcan los resultados del patrón de referencia, y viceversa. La ausencia de cegamiento disminuye la validez de la GPC.

La siguiente fase es la fase de derivación o de diseño, propiamente dicha. Aquí es donde se aplican los métodos estadísticos que permitirán incluir las variables con capacidad predictiva y excluir las que no nos vayan a aportar nada. No vamos a entrar en la estadística, solo decir que los métodos empleados con más frecuencia son los basados en la regresión logística, aunque pueden usarse análisis discriminantes, de supervivencia e, incluso, otros mucho más exóticos basados en riesgos discriminantes o redes neurales, al alcance solo de unos pocos virtuosos.

En los modelos de regresión logística, el evento será la variable dependiente dicotómica (ocurre o no ocurre) y las otras variables serán las predictivas o independientes. Así, cada coeficiente que multiplique cada variable predictiva será el antilogaritmo natural de la odds ratio ajustada. Por si alguien no lo ha entendido, la odds ratio ajustada para cada variable predictiva se calculará elevando el número “e” al valor del coeficiente de esa variable en el modelo de regresión.

Lo habitual es que a partir del peso de cada variable se le asigne una determinada puntuación en una escala, de forma que la suma total de puntos de todas las variables predictivas permitirá clasificar al paciente en un rango concreto de predicción de producción del evento. Existen también otros métodos más complejos empleando las ecuaciones de regresión, pero al final siempre se obtiene lo mismo: una estimación individualizada de la probabilidad del evento en un paciente concreto.

Con este proceso se produce la categorización de los pacientes en grupos homogéneos de probabilidad, pero aún nos falta saber si esta categorización se ajusta a la realidad o, lo que es lo mismo, cuál es la capacidad de discriminación de la RPC.

La validez global o capacidad de discriminación de la RPC se hará contrastando sus resultados con los del patrón de referencia, empleando para ello técnicas similares a las utilizadas para valorar la capacidad de las pruebas diagnósticas: sensibilidad, especificidad, valores predictivos y cocientes de probabilidad. Además, en los casos en los que la RPC proporcione una estimación cuantitativa, podremos recurrir al uso de las curvas ROC, ya que el área bajo la curva representará la validez global de la RPC.

El último paso de la fase de diseño será la calibración de la RPC, que no es más que comprobar su buen comportamiento en todo el intervalo de resultados posibles.

Algunos autores de RPC se quedan aquí, pero olvidan dos pasos fundamentales de la elaboración: la validación y el cálculo del impacto clínico de la regla.

La validación consiste en probar la RPC en muestras diferentes a la utilizada para su diseño. Nos podemos llevar una sorpresa y comprobar que una regla que funciona bien en una determinada muestra no lo hace en otra. Por eso hay que probarla, no solo en pacientes similares (validación limitada), sino también en entornos clínicos diferentes (validación amplia), lo que incrementará la validez externa de la RPC.

La última fase es la de comprobar su rendimiento clínico. Aquí es donde muchas RPC se van a pique después de haber pasado por todas las fases anteriores (quizás sea por eso que muchas veces se evita esta última comprobación). Para valorar el impacto clínico tendremos que aplicar la RPC en nuestros pacientes y ver cómo cambian medidas de resultados clínicos como supervivencia, complicaciones, costes, etc. La forma ideal para analizar el impacto clínico de una RPC es hacer un ensayo clínico con dos grupos de pacientes manejados con y sin la regla.

Para aquellos abnegados que todavía sigan leyendo, ahora que conocemos qué es y cómo se diseña una RPC, vamos a ver cómo se hace la lectura crítica de estos trabajos. Y para ello, como es habitual, vamos a recurrir a nuestros tres pilares: validez, importancia y aplicabilidad. Para no olvidarnos de nada, seguiremos las preguntas que se enumeran en la parrilla para estudios de RPC de la herramienta CASPe.

En cuanto a la VALIDEZ, comenzaremos primero con unas preguntas de eliminación. Si la respuesta es negativa puede que haya llegado la hora de esperar hasta que alguien, al fin, invente una bola de cristal que funcione.

¿La regla responde a una pregunta bien definida? Deben estar claramente definidos la población, el evento a predecir, las variables predictivas y el criterio de valoración de los resultados. Si no se hace así o estos componentes no se ajustan a nuestro escenario clínico, la regla no nos servirá. Las variables predictivas deben ser clínicamente importantes, fiables y estar bien definidas por adelantado.

¿La población a estudio de la que se derivó la regla, incluyó un espectro adecuado de pacientes? Hay que comprobar que el método de selección de los pacientes es el adecuado y que la muestra es representativa. Además, debe incluir pacientes de todo el espectro de la enfermedad. Como ocurría con las pruebas diagnósticas, los eventos pueden ser más fáciles de predecir en determinados grupos, por lo que debe haber representantes de todos ellos. Por último, hay que ver si la muestra se validó en un grupo diferente de pacientes. Como ya hemos comentado, no basta con que la regla funcione en el grupo de pacientes en el que se ha derivado, sino que hay que probarla en otros grupos que sean similares o distintos a aquellos con los que se generó.

Si la respuesta a estas tres preguntas ha sido afirmativa, podemos pasar a las tres preguntas de matiz. ¿Hubo una evaluación ciega del desenlace y de las variables predictoras? Ya lo hemos comentado, es importante que la persona que recoge las variables predictivas no conozca el resultado del patrón de referencia, y viceversa. La recogida de la información debe ser prospectiva e independiente. Lo siguiente que debemos preguntarnos es si se midieron las variables predictoras y el desenlace en todos los pacientes.  Si el desenlace o las variables no se miden en todos los pacientes puede comprometerse la validez de la RPC. En cualquier caso, los autores deberán explicar las exclusiones, si es que las hay. Por último, ¿se describen los métodos de derivación y validación de la regla? Ya sabemos que es fundamental que los resultados de la regla sean validados en una población diferente de la utilizada para el diseño.

Si las respuestas a las preguntas anteriores nos indican que el estudio es válido, pasaremos a responder las preguntas sobre la IMPORTANCIA de los resultados. La primera es si se puede calcular el rendimiento de la RPC. Los resultados deben presentarse con su sensibilidad, especificidad, cocientes de probabilidades, curvas ROC, etc., en función del resultado proporcionado por la regla (escalas de puntuación, fórmulas de regresión, etc.). Todos estos indicadores nos servirán para calcular las probabilidades de ocurrencia del evento en entornos con prevalencias diferentes. Esto es similar a lo que hacíamos con los estudios de pruebas diagnósticas, así que os invito a que repaséis lo escrito sobre el tema para no repetirnos demasiado. La segunda pregunta es ¿cuál es la precisión de los resultados? Aquí tampoco nos vamos a extender más: recordad nuestros venerados intervalos de confianza, que serán los que nos informarán de la precisión de los resultados de la regla.

Para finalizar, pasaremos a considerar la APLICABILIDAD de los resultados a nuestro medio, para lo cual trataremos de contestar a tres preguntas. ¿Serán satisfactorios en el ámbito del escenario la reproducibilidad de la RPC y su interpretación? Habrá que pensar en las similitudes y diferencias entre el ámbito en el que se desarrolla la RPC y nuestro entorno clínico. En este sentido, será de ayuda el hecho de que la regla haya sido validada en varias muestras de pacientes de entornos diferentes, lo que aumentará su validez externa. ¿Es aceptable la prueba en este caso? Pensaremos si la regla es fácil de aplicar en nuestro medio y si tiene sentido hacerlo desde el punto de vista clínico en nuestro entorno. Finalmente, ¿modificarán los resultados la conducta clínica, los resultados en salud o los costes? Si, desde nuestro punto de vista, los resultados de la RPC no van a cambiar nada, la regla será inútil y una pérdida de tiempo. Aquí será importante nuestra opinión, pero también deberemos buscar si existen estudios que valoren el impacto de la regla sobre costes o sobre resultados en salud.

Y hasta aquí todo lo que quería deciros sobre lectura crítica de estudios sobre RPC. De todas formas, antes de terminar me gustaría hablaros un poco sobre una lista de verificación que, como no, existe también para la valoración de este tipo de estudios: la lista de verificación CHARMS (CHecklist for critical Appraisal and data extraction for systematic Reviews of prediction Modelling Studies). No me diréis que el nombre, aunque un poco rebuscado, no es encantador.

Esta lista está pensada para valorar los estudios primarios de una revisión sistemática sobre RPC. Trata de responder a unas preguntas de diseño general y a la valoración de 11 dominios para extraer la información suficiente para realizar la valoración crítica. Las dos grandes partes que se valoran son el riesgo de sesgo de los estudios y la aplicabilidad de los mismos. El riesgo de sesgo se refiere a los defectos del diseño o validación que pueden dar lugar a que el modelo sea poco discriminativo, excesivamente optimista, etc. La aplicabilidad, por su parte, hace referencia al grado en que los estudios primarios son concordantes con la pregunta que motiva la revisión sistemática, por lo que nos informa de si se puede aplicar la regla a la población diana. Esta lista está bien y ayuda a valorar y comprender los aspectos metodológicos de este tipo de estudios pero, en mi humilde opinión, es más sencillo realizar una valoración crítica sistemática ayudándonos de la herramienta CASPe.

Y aquí, por fin, lo dejamos por hoy. No hemos hablado nada, para no alargarnos demasiado, de qué hacer con el resultado de la regla. Lo fundamental, ya lo sabemos, es que podemos calcular la probabilidad de producirse el evento en pacientes individuales de entornos con prevalencias diferentes. Pero esa es otra historia…

Poco ruido y muchas nueces

Sí, ya sé que el refrán dice justo lo contrario. Pero es que ese es precisamente el problema que tenemos con tanta nueva tecnología de la información. Hoy día cualquiera puede escribir y hacer público lo que se le pase por la cabeza, llegando a un montón de gente, aunque lo que diga sea una chorrada (y no, yo no me doy por aludido, ¡a mí no me lee ni mi cuñado!). Lo malo es que gran parte de lo que se escribe no vale un bit, por no referirnos a ningún tipo de excretas. Hay mucho ruido y pocas nueces, cuando a todos nos gustaría que ocurriese lo contrario.

Lo mismo pasa en medicina cuando necesitamos información para tomar alguna de nuestras decisiones clínicas. Vayamos a la fuente que vayamos, el volumen de información no solo nos desbordará, sino que encima la mayoría no nos servirá para nada. Además, incluso si encontramos un trabajo bien hecho es posible que no sea suficiente para contestar completamente a nuestra pregunta. Por eso nos gustan tanto las revisiones de la literatura que algunas almas generosas publican en las revistas médicas. Nos ahorran el trabajo de revisar un montón de artículos y nos resumen las conclusiones. Estupendo, ¿no? Pues a veces sí y a veces no. Como cuando leemos cualquier tipo de trabajo de literatura médica, siempre debemos hacer una lectura crítica de lo que tenemos delante y no confiar únicamente en el buen saber hacer de sus autores.

Las revisiones, de las que ya sabemos que hay dos tipos, tienen también sus limitaciones, que debemos saber valorar. La forma más sencilla de revisión, nuestra preferida cuando somos más jóvenes e ignorantes, es la que se conoce como revisión narrativa o de autor. Este tipo de revisiones las suele hacer, generalmente, un experto en el tema, que revisa la literatura y analiza lo que encuentra como lo cree conveniente (para eso es experto) y que hace un resumen de síntesis cualitativa con sus conclusiones de experto. Este tipo de revisiones son buenas para hacernos una idea general sobre un tema, pero no suelen servir para responder a preguntas concretas. Además, como no se especifica cómo se hace la búsqueda de la información, no podemos reproducirla ni comprobar que incluya todo lo importante que haya escrito sobre el tema. En estas podremos hacer poca lectura crítica, ya que no hay una sistematización precisa de cómo hay que elaborar estos resúmenes, así que tendremos que confiar en aspectos poco confiables como el prestigio del autor o el impacto de la revista donde se publica.

Según van aumentando nuestros conocimientos sobre los aspectos generales de los temas, nuestro interés va derivando hacia otro tipo de revisiones que nos proporcionan información más específica sobre aspectos que escapan a nuestro cada vez más amplio saber. Este otro tipo de revisión es la llamada revisión sistemática (RS), que se centra en una pregunta concreta, sigue una metodología de búsqueda y selección de la información claramente especificada y realiza un análisis riguroso y crítico de los resultados encontrados. Incluso, si los estudios primarios son lo suficientemente homogéneos, la RS va más allá de la síntesis cualitativa, realizando también un análisis de síntesis cuantitativa, que tiene el bonito nombre de metanálisis. Con estas revisiones sí que podemos hacer una lectura crítica siguiendo una metodología ordenada y preestablecida, de forma similar a como hacemos con otros tipos de estudios.

El prototipo de RS es la realizada por la Colaboración Cochrane, que ha elaborado una metodología específica que podéis consultar en los manuales disponibles en su página web. Pero, si queréis mi consejo, no os fieis ni de la Cochrane y haced una lectura crítica cuidadosa incluso si la revisión la han hecho ellos, no dándola por buena simplemente por su origen. Como dice uno de mis maestros en estas lides (seguro que sonríe si lee estas líneas), hay vida más allá de la Cochrane. Y, además, mucha y buena, añadiría yo.

Aunque las RS y los metanálisis imponen un poco al principio, no os preocupéis, se pueden valorar críticamente de una forma sencilla teniendo en cuenta los principales aspectos de su metodología. Y para hacerlo, nada mejor que revisar sistemáticamente nuestros tres pilares: validez, importancia y aplicabilidad.

En cuanto a la VALIDEZ, trataremos de determinar si la revisión nos da unos resultados no sesgados y que respondan correctamente a la pregunta planteada. Como siempre, buscaremos unos criterios primarios de validez. Si estos no se cumplen pensaremos si es ya la hora de pasear al perro: probablemente aprovechemos mejor el tiempo.

¿Se ha planteado claramente el tema de la revisión? Toda RS debe tratar de responder a una pregunta concreta que sea relevante desde el punto de vista clínico, y que habitualmente se plantea siguiendo el esquema PICO de una pregunta clínica estructurada. Es preferible que la revisión trate de responder solo a una pregunta, ya que si pretende responder a varias se corre el riesgo de que no responda adecuadamente a ninguna de ellas. Esta pregunta determinará, además, el tipo de estudios que debe incluir la revisión, por lo que debemos valorar si se ha incluido el tipo adecuado. Aunque lo más habitual es encontrar RS  de ensayos clínicos, pueden hacerse de otros tipos de estudios observacionales, de pruebas diagnósticas, etc. Los autores de la revisión deben especificar los criterios de inclusión y exclusión de los trabajos, además de considerar sus aspectos referentes al ámbito de realización, grupos de estudio, resultados, etc. Diferencias entre los trabajos incluidos en cuanto a los (P)pacientes, la (I)intervención o los (O)resultados hacen que dos RS que se plantean la misma preguntan puedan llegar a conclusiones diferentes.

Si la respuesta a las dos preguntas anteriores es afirmativa, pasaremos a considerar los criterios secundarios y dejaremos el paseo del perro para más tarde. ¿Se han incluido los estudios importantes que tienen que ver con el tema? Debemos comprobar que se ha realizado una búsqueda global y no sesgada de la literatura. Lo frecuente es hacer la búsqueda electrónica incluyendo las bases de datos más importantes (generalmente PubMed, Embase y la Cochrane Library), pero esta debe completarse con una estrategia de búsqueda en otros medios para buscar otros trabajos (referencias de los artículos encontrados, contacto con investigadores conocidos, industria farmacéutica, registros nacionales e internacionales, etc), incluyendo la denominada literatura gris (tesis, informes, etc), ya que puede haber trabajos importantes no publicados. Y que nadie se extrañe de esto último: está demostrado que los trabajos que obtienen conclusiones negativas tienen más riesgo de no publicarse, por lo que no aparecen en las RS. Debemos comprobar que los autores han descartado la posibilidad de este sesgo de publicación. En general, todo este proceso de selección se suele plasmar en un diagrama de flujo que muestra el devenir de todos los trabajos valorados en la RS.

Es muy importante que se haya hecho lo suficiente para valorar la calidad de los estudios, buscando la existencia de posibles sesgos. Para esto los autores pueden servirse de una herramienta diseñada ad hoc o, más habitualmente, recurrir a una que ya esté reconocida y validada, como la herramienta de detección de sesgo de la Colaboración Cochrane, en el caso de revisiones de ensayos clínicos. Esta herramienta valora cinco criterios de los estudios primarios para determinar su riesgo de sesgo: secuencia de aleatorización adecuada (previene el sesgo de selección), enmascaramiento adecuado (previene los sesgos de realización y detección, ambos sesgos de información), ocultamiento de la asignación (previene el sesgo de selección), las pérdidas durante el seguimiento (previene el sesgo de desgaste) y la información de datos selectiva (previene el sesgo de información). Los estudios se clasifican como de alto, bajo o indeterminado riesgo de sesgo según los aspectos más importantes de la metodología del diseño (ensayos clínicos en este caso).

Además, esto debe hacerse de forma independiente por dos autores y, de forma ideal, sin conocer los autores del trabajo o la revista de publicación de los estudios primarios de la revisión. Por último, debe quedar registrado el grado de concordancia entre los dos revisores y qué hacían si no se ponían de acuerdo (lo más habitual suele ser recurrir a un tercero, que seguramente será el jefe de los dos).

Para finalizar el apartado de validez interna o metodológica, en el caso de que se hayan combinado los resultados de los estudios para sacar conclusiones comunes con un metanálisis, debemos preguntarnos si era razonable combinar los resultados de los estudios primarios. Es fundamental, para poder sacar conclusiones de datos combinados, que los trabajos sean homogéneos y que las diferencias entre ellos sean debidas únicamente al azar. Aunque cierta variabilidad de los estudios aumenta la validez externa de las conclusiones, no podremos unificar los datos para el análisis si la variabilidad es grande. Hay numerosos métodos para valorar la homogeneidad en los que no vamos a entrar ahora, pero sí que vamos a insistir en la necesidad de que los autores de la revisión lo hayan estudiado de forma adecuada.

Resumiendo, los aspectos fundamentales que tendremos que analizar para valorar la validez de una RS serán: 1) que los objetivos de la revisión estén bien definidos en términos de población, intervención y medición del resultado; 2) que la búsqueda bibliográfica haya sido exhaustiva; 3) que hayan sido adecuados los criterios de inclusión y exclusión de estudios primarios en la revisión; y 4) que se haya comprobado también la validez interna o metodológica de los estudios incluidos. Además, si la RS incluye un metanálisis, revisaremos los aspectos metodológicos que ya vimos en una entrada anterior: conveniencia de combinar los estudios para realizar una síntesis cuantitativa, evaluación adecuada de la heterogeneidad de los estudios primarios y utilización de un modelo matemático adecuado para combinar los resultados de los estudios primarios (ya sabéis, aquello de los modelos de efecto fijo y de efectos aleatorios).

En cuanto a la IMPORTANCIA de los resultados debemos considerar cuál es el resultado global de la revisión y si la interpretación se ha hecho de forma juiciosa. La RS debe proporcionar una estimación global del efecto de la intervención en base a una media ponderada de los artículos de calidad incluidos. Lo más frecuente es que se expresen medidas relativas como el riesgo relativo o la odds ratio, aunque lo ideal es que se complementen con medidas absolutas como la reducción absoluta del riesgo o el número necesario a tratar (NNT). Además, hay que valorar la precisión de los resultados, para lo que recurriremos a nuestros queridos intervalos de confianza, que nos darán una idea de la precisión de la estimación de la verdadera magnitud del efecto en la población. Como veis, la forma de valorar la importancia de los resultados es prácticamente la misma que la de valorar la importancia de los resultados de los estudios primarios. En este caso ponemos ejemplos de ensayos clínicos, que es el tipo de estudio que veremos más frecuentemente, pero recordad que puede haber otros tipos de estudios que pueden expresar mejor la importancia de sus resultados con otros parámetros. Eso sí, los intervalos de confianza siempre nos ayudarán a valorar la precisión de los resultados.

Los resultados de los metanálisis se suelen representar de una manera estandarizada, recurriendo habitualmente al llamado diagrama de efectos, mucho más famoso por su nombre en inglés: forest plot. Se dibuja un gráfico con una línea vertical de efecto nulo (en el uno para riesgo relativo y odds ratio y en el cero para diferencias de medias) y se representa cada estudio como una marca (su resultado) en medio de un segmento (su intervalo de confianza). Los estudios con resultados con significación estadística son los que no cruzan la línea vertical. Generalmente, los estudios más potentes tienen intervalos más estrechos y contribuyen más al resultado global, que se expresa como un diamante cuyos extremos laterales representan su intervalo de confianza. Solo los diamantes que no crucen la línea vertical tendrán significación estadística. Además, cuanto más estrechos, más precisión. Y, por último, cuánto más se alejen de la línea de efecto nulo, más clara será la diferencia entre los tratamientos o las exposiciones comparadas.

Si queréis una explicación más detallada sobre los elementos que componen un forest plot, podéis acudir a la entrada anterior en la que lo explicábamos o a los manuales en línea de la Colaboración Cochrane.

Concluiremos la lectura crítica de la RS valorando la APLICABILIDAD de los resultados a nuestro medio. Habrá que preguntarse si podemos aplicar los resultados a nuestros pacientes y cómo van a influir en la atención que les prestamos. Tendremos que fijarnos si los estudios primarios de la revisión describen a los participantes y si se parecen a nuestros pacientes. Además, aunque ya hemos dicho que es preferible que la RS se oriente a una pregunta concreta, habrá que ver si se han considerado todos los resultados relevantes para la toma de decisiones en el problema en estudio, ya que a veces será conveniente que se considere alguna otra variable secundaria adicional. Y, como siempre, habrá que valorar la relación beneficios-costes-riesgos. El que la conclusión de la RS nos parezca válida no quiere decir que tengamos que aplicarla de forma obligada.

Si queréis valorar correctamente una RS sin olvidar ningún aspecto importante os recomiendo que uséis una lista de verificación como la PRISMA o alguna de las herramientas disponibles en Internet, como las parrillas que se pueden descargar de la página de CASPe, que son las que hemos utilizado para todo lo que hemos dicho hasta ahora.

La declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses) consta de 27 ítems, clasificados en 7 secciones que hacen referencia a los apartados de título, resumen, introducción, métodos, resultados, discusión y financiación:

  1. Título: debe identificarse como RS, metanálisis o ambos. Si se especifica, además, que trata sobre ensayos clínicos, se priorizará sobre otros tipos de revisiones.
  2. Resumen: debe ser un resumen estructurado que debe incluir antecedentes, objetivos, fuentes de datos, criterios de inclusión, limitaciones, conclusiones e implicaciones. Debe constar también el número de registro de la revisión.
  3. Introducción: incluye dos ítems, la justificación del trabajo (qué se sabe, controversias, etc) y los objetivos (qué pregunta trata de responder en términos PICO de la pregunta clínica estructurada).
  4. Métodos. Es la sección con mayor número de ítems (12):

– Protocolo y registro: indicar el número de registro y su disponibilidad.

– Criterios de elegibilidad: justificación de las características de los estudios y los criterios de búsqueda empleados.

– Fuentes de información: describir las fuentes utilizadas y la última fecha de búsqueda.

– Búsqueda: estrategia completa de búsqueda electrónica, para que pueda ser reproducible.

– Selección de estudios: especificar el proceso de selección y los criterios de inclusión y exclusión.

– Proceso de extracción de datos: describir los métodos empleados para la extracción de los datos de los estudios primarios.

– Lista de datos: definir las variables empleadas.

– Riesgo de sesgo en los estudios primarios: describir el método utilizado y cómo se ha empleado en la síntesis de los resultados.

– Medidas de resumen: especificar las principales medidas de resumen empleadas.

– Síntesis de resultados: describir los métodos empleados para combinar los resultados.

– Riesgo de sesgo entre los estudios: describir sesgos que puedan afectar la evidencia acumulativa, como el sesgo de publicación.

– Análisis adicionales: si se hacen métodos adicionales (sensibilidad, metarregresión, etc) especificar cuáles fueron preespecificados.

  1. Resultados. Incluye 7 ítems:

– Selección de estudios: se expresa mediante un diagrama de flujo que valora el número de registros en cada etapa (identificación, cribado, elegibilidad e inclusión).

– Características de los estudios: presentar las características de los estudios de los que se extrajeron datos y sus citas bibliográficas.

– Riesgo de sesgo en los estudios: comunicar los riesgos en cada estudio y cualquier evaluación que se haga sobre el sesgo en los resultados.

– Resultados de los estudios individuales: datos de estudio para cada estudio o grupo de intervención y estimación del efecto con su intervalo de confianza. Lo ideal es acompañarlo de un forest plot.

– Síntesis de los resultados: presentar los resultados de todos los MA realizados con los intervalos de confianza y las medidas de consistencia.

– Riesgo de sesgo entre los sujetos: presentar cualquier evaluación que se haga del riesgo de sesgo entre los estudios.

– Análisis adicionales: si se han realizado, facilitar los resultados de los mismos.

  1. Discusión. Trata 3 ítems:

– Resumen de la evidencia: resumir los hallazgos principales con la fuerza de la evidencia de cada resultado principal y la relevancia desde el punto de vista clínico o de los grupos de interés principales (proveedores de cuidados, usuarios, decisores de salud, etc).

– Limitaciones: discutir las limitaciones de los resultados, de los estudios y de la revisión.

– Conclusiones: interpretación general de los resultados en contexto con otras evidencias y sus implicaciones para la futura investigación.

  1. Financiación: describir las fuentes de financiación y el papel que tuvieron en la realización de la RS.

Como tercera opción a estas dos herramientas, podéis utilizar también el ya mencionado manual de la Cochrane (Cochrane Handbook for Systematic Reviews of Interventions), disponible en su página web y cuya finalidad es ayudar a los autores de las revisiones Cochrane a trabajar de forma explícita y sistemática.

Como veis, no hemos hablado prácticamente nada del metanálisis, con todas sus técnicas estadísticas para valorar homogeneidad y sus modelos de efectos fijos y aleatorios. Y es que el metanálisis es una fiera a la que hay que echar de comer aparte, por lo que ya le dedicamos en su momento dos entradas para él solo que podéis consultar cuando queráis. Pero esa es otra historia…