Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado porJunio 2013
image_pdf

Los parientes pobres

Esto de los parientes pobres me recuerda un antiguo chiste de colegio sobre un marqués que tiene un sobrino de clase baja y con el que tiene que compartir mesa con toda la aristocracia con la que se codea el marqués. Éste, muy preocupado, le insiste muchas veces que tiene que ser muy educado con sus invitados. Así que, en mitad de la cena, el sobrino se levanta y anuncia: señoras y señores, excúsenme pero tengo que ir a hacer mis necesidades fisiológicas. El chico se levanta y comienza a caminar hacia el cuarto de baño. Pero a mitad de camino se detiene bruscamente, se queda pensando, se vuelve y exclama: ¡bueno, a lo mejor también cago!.

Por fortuna, la familia no siempre te da problemas de este tipo, ni es frecuente que se mezclen las clases sociales y, desde luego, un marqués de la vida real tampoco invitaría a la misma mesa a un sobrino como este, aunque fuese de la familia.

Y hay familias muy bien avenidas, a pesar de que siempre alguno de sus miembros se lleve gran parte de la fama. Este es el caso de la familia de los intervalos. El más conocido por todos es nuestro intervalo de confianza, pero éste tiene dos primos mucho menos célebres pero que también contribuyen dignamente a la lucha contra la incertidumbre en la inferencia estadística: el intervalo de predicción y el intervalo de tolerancia.

Todos somos conscientes de la imposibilidad, la mayor parte de las veces, de acceder a toda la población cuando queremos conocer alguno de sus parámetros. Por este motivo se desarrollan técnicas de inferencia para tratar de estimar los valores inaccesibles de la población a partir de valores obtenidos de muestras de esa población.

El problema es que estas estimaciones tienen siempre una probabilidad de error. Y aquí es donde entra en juego nuestra familia de intervalos.

El primero es el intervalo de confianza que nos permite, una vez calculado el parámetro en la muestra, estimar entre qué límites se encuentra el valor real e inaccesible en la población, siempre con una probabilidad de error. Por convenio suele fijarse el nivel de confianza en el 95%, de tal forma que el intervalo se calcula según la siguiente expresión:

IC95% = parámetro ± 2 veces el error estándar del parámetro.

En el caso sencillo de cálculo del intervalo para la media  el error estándar es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra, pero con otros estadísticos esto puede complicarse un poco.

De todas formas, el intervalo de confianza siempre representará el margen que probablemente contiene el valor verdadero y desconocido en la población. La probabilidad de contención (la confianza) no se aplica al intervalo sino, en realidad, a la proporción de todos los intervalos que incluirían el parámetro real si repitiésemos la medida un número grande de veces.

Aunque los intervalos de confianza dan para hablar mucho rato, no nos vamos a entretener más por ahora. Para el que esté interesado, recomiendo un artículo de la Revista de Pediatría de Atención Primaria donde se trata todo esto con más detenimiento.

El segundo miembro de esta familia es el intervalo de predicción. El concepto de intervalo predictivo es muy similar al de intervalo de confianza. En este caso, una vez que hemos estimado el valor de la población a partir de una muestra, el intervalo predictivo nos dirá entre que límites estará una proporción de sujetos elegidos al azar de esa población, con un grado de probabilidad determinada.

Si la variable que estamos midiendo sigue una distribución normal (generalmente podemos aproximar a una normal si el tamaño de la muestra es grande), el valor del 95% de los sujetos estará entre la media ± dos veces la desviación típica. Bastante parecido al intervalo de confianza, pero con dos diferencias claras.

Primero, el predictivo utiliza la desviación estándar en lugar del error estándar del intervalo de confianza. Como la desviación típica es siempre mayor que el error estándar, los intervalos predictivos serán siempre más amplios que los de confianza para el mismo nivel de incertidumbre. Segundo, para calcular el intervalo de confianza tenemos que medir previamente el valor en una o varias muestras, mientras que el intervalo predictivo se calcula a priori, antes de extraer el sujeto o sujetos de la población.

El tercer primo en discordia es el intervalo de tolerancia. Este es muy similar al intervalo predictivo. Se elabora con una serie de datos de una o varias muestras y nos dice entre que límites se encontrarán las observaciones que hagamos en el futuro con el nivel de confianza o probabilidad que elijamos.

Al igual que el predictivo, el intervalo de tolerancia se hace después de hacer la estimación en la población. Su utilidad será conocer la proporción de todas las observaciones futuras que estarán dentro de unos márgenes determinados con una cierta probabilidad.

Como es lógico, todas estas muestras deben escogerse de la misma población, en las mismas condiciones y de forma aleatoria.

En teoría, el intervalo de tolerancia solo es válido si se calcula a partir de la media y desviación típicas reales de la población pero, como estos valores suelen ser desconocidos, se usan los promedios estimados, introduciendo así un grado de incertidumbre que será mayor cuanto menor sea el tamaño de la muestra.

Esta incertidumbre es la que controla el intervalo de tolerancia: nos dirá, con una confianza determinada, la proporción de la población que se encontrará dentro de unos límites dados. Para calcularlo se utiliza la siguiente expresión:

IT95% = parámetro ± k DS

Donde DS es la desviación estándar del parámetro y k es una función que tiene en consideración el tamaño de la muestra, el nivel de confianza y la proporción de la población que se mide. La matemática es compleja, así que no intentéis calcularlo sin ayuda de aplicaciones informáticas.

Para ir terminando, comentaros que, tanto el predictivo como el de tolerancia, pueden ser bilaterales o unilaterales. Los unilaterales nos dirán el valor mínimo o máximo que tendrán los valores de la población con el grado de confianza que especifiquemos.

Y esto es todo, amigos. No hemos dicho nada de otro intervalo predictivo mucho menos amigable, pero que tiene también gran utilidad. Y es que los intervalos predictivos tienen su papel en los modelos de regresión. Pero esa es otra historia…

Miénteme

Hoy me vais a permitir que me ponga un poco guarro. Guarro y asqueroso, en realidad. Y es que últimamente no paro de darle vueltas a una cosa que he observado un montón de veces. Seguro que algunos de vosotros también lo habéis visto.

¿Os habéis fijado la cantidad de conductores (y conductoras, no os creáis) que aprovechan los semáforos en rojo para sacarse los mocos?. Algunos, válgame Dios, hasta se los comen. ¡Qué asco!.

Sin embargo, yo he preguntado a la gente de mí alrededor y nadie reconoce hacerlo, con lo que me intriga por qué tengo tan mala suerte de encontrarme en los semáforos con los más guarros del barrio. Claro que igual lo que ocurre es que a la gente que le pregunto le da vergüenza confesar que también profesa tan malsano hábito.

La verdad es que conocer la verdad plantea un problema enorme. Imaginad que hacemos una encuesta. Me voy a tráfico, consigo un listado telefónico de conductores y empiezo a llamar a la gente para preguntarle: ¿se saca usted los mocos en los semáforos en rojo?.

Toda encuesta se puede ver falseada por cuatro fuentes de error. El primero es el sesgo de selección por elección errónea de los encuestados. Si llamo solo a los de los barrios finos, la mayoría me contestará que no (no porque no lo haga, sino porque le dará más reparo confesarlo). La segunda fuente de error es el “no contesta”: muchos me colgarían el teléfono sin contestar, dándome recuerdos para mi familia, ya de paso. La tercera es lo que se llama el sesgo de memoria. Esto quiere decir que el encuestado dice que no recuerda la respuesta a lo que le preguntemos. En nuestro ejemplo esto se aplicaría poco. Lo que sí nos encontraríamos con toda probabilidad es nuestra cuarta fuente de error: la mentira.

Esto lo saben bien los de Hacienda, muy acostumbrados a que la gente trate de engañarles. Si os llaman del fisco y os preguntan si alguna vez habéis defraudado, ¿qué contestaréis?.

¿Y podemos hacer algo para librarnos de la mentira?. Pues, salvo hacer las encuestas en persona y aplicar a los encuestados el suero de la verdad, no podemos librarnos de ella del todo, aunque sí podemos minimizarla mucho con un poco de ingenio.

Vamos a suponer que a mis encuestados telefónicos les planteo el siguiente juego: tiran un dado y si sale uno o dos me contestan que se sacan los mocos aunque sea mentira, pero si sale otro número, me tienen que decir la verdad. En cualquier caso, lo que nunca me dicen es lo que les ha salido en el dado.

De esta manera, el sujeto al que pregunto comprende que no puedo saber si su respuesta es verdad o mentira, con lo que estará menos dispuesto a mentir. Esta protección de la privacidad del encuestado hace que no podamos conocer cada respuesta individual pero, a cambio, sí podemos conocer el comportamiento agregado de la muestra de encuestados, aunque siempre con cierta incertidumbre. ¿Cómo lo hacemos?. Desarrollemos el ejemplo del dado.

Pensemos quien nos contestará “sí”. Por una parte, aquellos que saquen uno o dos con el dado. La probabilidad de esto es p (2/6 en nuestro caso). Si encuesto a n personas, sacarán uno o dos un total de n multiplicado por p personas (esto es la suma de éxitos en una serie aplicando la teoría de probabilidad binomial).

Por otra parte, contestarán “sí” el resto que, además de sacarse los mocos, saque de tres a seis con el dado. El número será n (el total de encuestados) multiplicado por la probabilidad del resultado del dado (1-p, 4/6 en nuestro ejemplo) y multiplicado por la probabilidad de padecer este vicio tan sucio (su prevalencia, Pr, que es lo que queremos conocer).

Así que si sumamos los “sí” obligados más los verdaderos obtenemos la siguiente fórmula, donde m son los que contestan que sí se sacan los mocos:

m = np + n(1-p)Pr

Con lo que podemos despejar Pr usando nuestros vastos conocimientos de álgebra:

Pr = [(m/n)-p] / 1-p

Supongamos que encuestamos a 100 individuos y contestan que sí 62. ¿Cuántos se comen los mocos de verdad?. Si sustituimos los valores en nuestra fórmula (m=62, n=100, p=2/6) obtenemos una cifra de 0,43. Quiere decir que al menos un 43% aprovecha los semáforos en rojo para hacer trabajos de minería. Y la cifra real será seguramente mayor, porque siempre habrá quien mienta a pesar de nuestra ingeniosa argucia.

Esta p es lo que se conoce como factor de ofuscación y podemos jugar con su valor  usando monedas, otras combinaciones de dados o lo que sea. Hay que tener cuidado al elegir su valor. Si es muy grande el sujeto se sentirá más confiado para responder sinceramente, pero la imprecisión en el cálculo será mayor. Por otro lado, cuanto más pequeña más miedo tendrá el encuestado de que se le vincule con la respuesta real, por lo que tenderá  a mentir como un bellaco. Como siempre, en el medio estará la virtud.

Los que no os hayáis ido a vomitar habéis podido ver como nos hemos servido del cálculo de la probabilidad binomial para abordar esta cuestión tan asquerosa. Por cierto, si os fijáis, esto que hemos hecho se parece mucho al cálculo de la prevalencia de una enfermedad en una población a partir de la sensibilidad y especificidad de una prueba diagnóstica. Pero esa es otra historia…

La asimetría del embudo

Aquiles. ¡Qué tío!. Sin duda, uno de los más famosos de todo el follón que armaron en Troya por culpa de Helena la guapa. Ya sabéis su historia. El tío era la leche porque su madre, que era nada menos que la ninfa Tetis, lo bañó en ambrosía y lo sumergió en la laguna Estigia para que fuese invulnerable. Pero cometió un error que una ninfa no debiera haberse permitido: lo agarró por el talón derecho, que no se mojó en la laguna. Así que de ahí le viene a Aquiles su punto débil. Héctor no se dio cuenta a tiempo pero Paris, bastante más espabilado, le metió un flechazo en el talón y lo mandó otra vez a la laguna, pero no al agua, sino al otro lado. Y sin barquero.

Este cuento es el origen de la expresión “talón de Aquiles”, que suele referirse al punto más débil o vulnerable de alguien o algo que, por lo demás, suele ser conocido por su fortaleza.

Por ejemplo, algo tan robusto y formidable como el metanálisis tiene su talón de Aquiles: el sesgo de publicación. Y eso se debe a que en el mundo de la ciencia no hay justicia social.

Todos los trabajos científicos deberían tener las mismas oportunidades de ser publicados y alcanzar la fama, pero la realidad no es en absoluto así y los trabajos pueden verse discriminados por cuatro razones: significación estadística, popularidad del tema del que tratan, el tener alguien que los apadrine y el idioma en que están escritos.

La realidad es que los trabajos con resultados estadísticamente significativos tienen más probabilidades de ser publicados que los no significativos. Además, incluso si son aceptados, los significativos se publican antes y, con más frecuencia, en revistas en inglés, con mayor prestigio y difusión. Esto hace que, a la larga, se citen en otros trabajos con más frecuencia. Y lo mismo ocurre con los trabajos con resultados “positivos” frente a los que tienen resultados “negativos”.

De igual manera, los trabajos sobre temas de interés público tienen más probabilidad de ser publicados con independencia de la importancia de sus resultados. Además, el padrino también influye: una casa comercial que financie un estudio de un producto suyo y le salga mal, encima no va a publicarlo para que todos sepamos que su producto no es útil. Y, por último, los trabajos en inglés tienen más difusión que los escritos en otros idiomas.

Todo esto puede verse empeorado por el hecho de que estos mismos factores pueden influir en los criterios de inclusión y exclusión de los estudios primarios del metanálisis, de tal forma que obtenemos una muestra de trabajos que puede no ser representativa del conocimiento global sobre el tema del que trate la revisión sistemática y el metanálisis.

Si tenemos un sesgo de publicación la aplicabilidad de los resultados se verá seriamente comprometida. Por esto decimos que el sesgo de publicación es el verdadero talón de Aquiles del metanálisis.

Si delimitamos correctamente los criterios de inclusión y exclusión de los estudios y hacemos una búsqueda global y sin restricciones de la literatura habremos hecho todo lo posible para minimizar el riesgo de sesgo, pero nunca podremos estar seguros de haberlo evitado. Por eso se han ideado técnicas y herramientas para su detección.

funnel_nosesgoLa más usada tiene el simpático nombre de gráfico en embudo, aunque es más conocido por su nombre en inglés: funnel plot. En él se representa la magnitud del efecto medido (eje X) frente a una medida de precisión (eje Y), que suele ser el tamaño muestral, pero que puede también ser el inverso de la varianza o el error estándar. Representamos cada estudio primario con un punto y observamos la nube de puntos.

En la forma más habitual, con el tamaño de la muestra en el eje Y, la precisión de los resultados será mayor en los estudios de muestra más grande, con lo que los puntos estarán más juntos en la parte alta del eje y se irán dispersando al acercarnos al origen del eje Y. De esta forma, se observa una nube de puntos en forma de embudo, con la parte ancha hacia abajo. Este gráfico debe ser simétrico y, en caso de que no sea así, debemos sospechar siempre un sesgo de publicación. En el segundo ejemplo que os pongo podéis ver como “faltan” los estudios que están hacia el lado de falta de efecto: esto puede significar que solo se publican los estudios con resultado positivo.

funnel_sesgoEste método es muy sencillo de utilizar pero, en ocasiones, podemos tener dudas acerca de la asimetría de nuestro embudo, sobre todo si el número de estudios es pequeño. Además, el embudo puede ser asimétrico por defectos de la calidad de los estudios o porque estemos tratando con intervenciones cuyo efecto varíe según el tamaño de la muestra de cada estudio.  Para estos casos se han ideado otros métodos más objetivos como la prueba de correlación de rangos de Begg y la prueba de regresión lineal de Egger.

La prueba de Begg estudia la presencia de asociación entre las estimaciones de los efectos y sus varianzas. Si existe correlación entre ellos, mal asunto. El problema de esta prueba es que tiene poca potencia estadística, por lo que es poco de fiar cuando el número de estudios primarios es pequeño.

eggerLa prueba de Egger, más específica que la de Begg, consiste en representar gráficamente la recta de regresión entre la precisión de los estudios (variable independiente) y el efecto estandarizado (variable dependiente). Esta regresión hay que ponderarla por el inverso de la varianza, así que no os recomiendo que la hagáis por vuestra cuenta, salvo que seáis estadísticos consumados. Cuando no hay sesgo de publicación la recta de regresión se origina en el cero del eje Y. Cuánto más se aleje del cero, mayor evidencia de sesgo de publicación.

Como siempre, existen programas informáticos que hacen estas pruebas con rapidez sin que tengamos que quemarnos el cerebro con sus cálculos.

¿Y si después de hacer el trabajo vemos que hay sesgo de publicación?. ¿Podemos hacer algo para ajustarlo?. Como siempre, podemos.trim_and_fill

La forma más sencilla es utilizar un método gráfico que se llama de ajuste y relleno (trim and fill para los amantes del inglés). Consiste en lo siguiente: a) dibujamos el funnel plot; b) quitamos los estudios pequeños para que el embudo sea simétrico; c) se determina el nuevo centro del gráfico; d) se vuelven a poner los estudios quitados y añadimos su reflejo al otro lado de la línea central; e) reestimamos es efecto.

Y para terminar deciros que, como suele ser habitual, hay un segundo método mucho más exacto pero también bastante más complejo, que consiste en un modelo de regresión basado en la prueba de Egger. Pero esa es otra historia…

Que los árboles no te impidan ver el bosque

Han pasado muchos años desde que una ardilla podía cruzar la Península Ibérica sin bajarse de un árbol. Tal era la frondosidad de nuestra tierra. Aunque no creáis, hay quien piensa que esto no es más que un mito. De todas formas, me pregunto si la ardilla en cuestión se daría cuenta de que estaba dentro de un gran bosque. Supongo que sí, aunque nunca se sabe: a veces los árboles no nos dejan ver el bosque o, más bien, todo el bosque.

En cualquier caso, una ardilla moderna no tendría esos problemas. No cabe duda de que hoy en día no podría cruzar la Península sin bajarse de un árbol pero, en cambio, sí podría cruzar el país entero sin bajarse de la cabeza de un tonto. Como leí el otro día en un blog, hay más tontos que botellines y, además, están estratégicamente colocados para que te encuentres todos los días, al menos, un par.

El metanálisis  es también una especie de bosque, donde sus estudios primarios serían los árboles. ¡Qué poético!. Pero en este caso los árboles no solo no impiden ver nada, sino que nos ayudan a ver el bosque, todo el bosque de manera global. Claro que, para eso, los resultados del metanálisis deben presentarse de la forma apropiada.

Hasta no hace mucho podíamos seguir los consejos de la declaración QUOROM, pero esta declaración se actualizó para convertirse en PRISMA, que dedica siete de sus 27 ítems a darnos consejos de cómo presentar los resultados de un metanálisis.

Primero debemos informar sobre el proceso de selección de estudios: cuántos hemos encontrado y evaluado, cuántos hemos seleccionado y cuántos rechazado, explicando además las razones para hacerlo. Para esto resulta muy útil el diagrama de flujo que debe incluir la revisión sistemática de la que procede el metanálisis si se acoge a la declaración PRISMA.

En segundo lugar deben especificarse las características de los estudios primarios, detallando qué datos sacamos de cada uno de ellos y sus correspondientes citas bibliográficas para facilitar que cualquier lector del trabajo pueda comprobar los datos si no se fía de nosotros. En este sentido va también el tercer apartado, que se refiere a la evaluación del riesgo de sesgos de los estudios y su validez interna.

Cuarto, debemos presentar los resultados de cada estudio individual con un dato resumen de cada grupo de intervención analizado junto con los estimadores calculados y sus intervalos de confianza. Estos datos nos servirán para confeccionar la información que PRISMA nos pide en su quinto punto referente a la presentación de resultados y no es otro que la síntesis de todos los estudios del metanálisis, sus intervalos de confianza, resultados del estudio de homogeneidad, etc.

Esto suele hacerse de forma gráfica con una herramienta popularmente conocida por su nombre en inglés: el forest plot. Este gráfico es una especie de bosque donde los árboles serían los estudios primarios del metanálisis y donde se resumen todos los resultados relevantes de la síntesis cuantitativa.

La Cochrane Collaboration recomienda estructurar el forest plot en cinco columnas bien diferenciadas. En la columna 1 se listan los estudios primarios o los grupos o subgrupos de pacientes incluidos en el metanálisis. Habitualmente se representan por un identificador compuesto por el nombre del primer autor y la fecha de publicación.

La columna 2 nos muestra los resultados de las medidas de efecto de cada estudio tal como las refieren sus respectivos autores.

La columna 3 es el forest plot propiamente dicho, la parte gráfica del asunto. En él se representan las medidas de efecto de cada estudio a ambos lados de la línea de efecto nulo, que ya sabemos que es el cero para diferencias de medias y el uno para odds ratios, riesgos relativos, hazard ratios, etc. Cada estudio se representa por un cuadrado cuya área suele ser proporcional a la contribución de cada uno al resultado global. Además, el cuadrado está dentro de un segmento que representa los extremos de su intervalo de confianza.

forest_esp

Estos intervalos de confianza nos informan sobre la precisión de los estudios y nos dicen cuáles son estadísticamente significativos: aquellos cuyo intervalo no cruza la línea de efecto nulo. De todas formas, no olvidéis que, aunque crucen la línea de efecto nulo y no sean estadísticamente significativos, los límites del intervalo pueden darnos mucha información sobre la importancia clínica de los resultados de cada estudio. Por último, en el fondo del gráfico encontraremos un diamante que representa el resultado global del metanálisis. Su posición respecto a la línea de efecto nulo nos informará sobre la significación estadística del resultado global, mientras que su anchura nos dará una idea de su precisión (su intervalo de confianza). Además, en la parte superior de esta columna encontraremos el tipo de medida de efecto, el modelo de análisis de datos que se ha utilizados (efectos fijos o efectos aleatorios) y el valor de significación de los intervalos de confianza (habitualmente 95%).

Suele completar este gráfico una cuarta columna con la estimación del peso de cada estudio en tantos por cien y una quinta columna con las estimaciones del efecto ponderado de cada uno. Y en algún rinconcillo de todo este bosque estará la medida de heterogeneidad que se ha utilizado, junto con su significación estadística en los casos en que sea pertinente.

Para finalizar la exposición de los resultados, PRISMA recomienda un sexto apartado con la evaluación que se haya hecho de los riesgos de sesgo del estudio y un séptimo con todos los análisis adicionales que haya sido necesario realizar: estratificación, análisis de sensibilidad, metarregresión, etc.

Como veis, nada es fácil en esto de los metanálisis. Por eso, la Cochrane recomienda seguir una serie de pasos para interpretar correctamente los resultados. A saber:

1. Verificar qué variable se compara y cómo. Suele verse en la parte superior del forest plot.

2. Localizar la medida de efecto utilizada. Esto es lógico y necesario para saber interpretar los resultados. No es lo mismo una hazard ratio que una diferencia de medias o lo que sea que se haya usado.

3. Localizar el diamante, su posición y su amplitud. Conviene también fijarse en el valor numérico del estimador global y en su intervalo de confianza.

4. Comprobar que se ha estudiado la heterogeneidad. Esto puede verse a ojo mirando si los segmentos que representan los estudios primarios están o no muy dispersos y si se solapan o no. En cualquier caso, siempre habrá un estadístico que valore el grado de heterogeneidad. Si vemos que existe heterogeneidad, lo siguiente será buscar qué explicación dan los autores sobre su existencia.

5. Sacar nuestras conclusiones. Nos fijaremos en qué lado de la línea de efecto nulo están el efecto global y su intervalo de confianza. Ya sabéis que, aunque sea significativo, el límite inferior del intervalo conviene que esté lo más lejos posible de la línea, por aquello de la importancia clínica, que no siempre coincide con la significación estadística. Por último, volved a mirar el estudio de homogeneidad. Si hay mucha heterogeneidad los resultados no serán tan fiables.

Y aquí terminamos con los resultados y el forest plot. En realidad, el forest plot no es exclusivo de los metanálisis y puede usarse siempre que queramos comparar estudios para dilucidar su significación estadística o clínica, o en casos como los estudios de equivalencia, en los que a la línea de efecto nulo se le unen las de los umbrales de equivalencia. Pero aún tiene una utilidad más. Una variante del forest plot sirve también para valorar si existe sesgo de publicación en la revisión sistemática, aunque en estos casos se le suele llamar gráfico en embudo. Pero esa es otra historia…