Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasEspecificidad
image_pdf

Una historia interminable

Hoy no vamos a hablar de dragones que te llevan de paseo si te pones en su chepa. Tampoco vamos a hablar de hombres con los pies en la cabeza ni de ninguna otra de las criaturas de la mente delirante de Michael Ende. Hoy vamos a hablar de otra historia que no tiene fin: el de los indicadores de pruebas diagnósticas.
Cuando uno cree que los conoce todos, levanta una piedra y encuentra otro más debajo de ella. ¿Y por qué hay tantos?, os preguntaréis. Pues la respuesta es muy sencilla. Aunque hay indicadores que nos interpretan muy bien cómo trata la prueba diagnóstica a los sanos y a los enfermos, todavía se busca un buen indicador, único, que nos dé una idea de la capacidad diagnóstica del test.

ORDExisten multitud de indicadores de pruebas diagnósticas que valoran la capacidad de la prueba diagnóstica para discriminar entre enfermos y sanos comparando los resultados con los de un estándar de referencia. Todos ellos se derivan de la comparación entre positivos y negativos en una tabla de contingencia, con lo que podemos construir los indicadores habituales que veis en la tabla adjunta: sensibilidad, especificidad, valores predictivos, cocientes de probabilidad, índice de exactitud e índice de Youden.
El problema es que la mayoría de ellos valoran parcialmente la capacidad de la prueba, por lo que necesitamos utilizarlos en parejas: sensibilidad y especificidad, por ejemplo. Solo los dos últimos que hemos enunciado funcionan como indicadores únicos. El índice de exactitud mide el porcentaje de pacientes correctamente diagnosticados, pero trata por igual a positivos y negativos, verdaderos o falsos. Por su parte, el índice de Youden suma los mal clasificados por la prueba diagnóstica.

En cualquier caso, no se recomienda utilizar ni el índice de exactitud ni el de Youden de forma aislada si queremos valorar una prueba diagnóstica. Además, este último es un término difícil de trasladar a un concepto clínico tangible al ser una transformación lineal de la sensibilidad y la especificidad.

Llegados a este punto se entiende lo que nos gustaría disponer de un indicador único, sencillo, cuya interpretación nos resultase familiar y que no dependiese de la prevalencia de la enfermedad. Sería, sin duda, un buen indicador de la capacidad de la prueba diagnóstica que nos evitaría tener que recurrir a una pareja de indicadores.

Y aquí es donde a alguna mente brillante se le ocurre utilizar un indicador tan conocido y familiar como la odds ratio para interpretar la capacidad de la prueba. Así, podemos definir la odds ratio diagnóstica (ORD) como la razón de la odds de que el enfermo dé positivo con respecto a la odds de dar positivo estando sano. Como esto parece un trabalenguas, vamos a comentar los dos componentes de la razón.

La odds de que el enfermo dé positivo frente a que dé negativo no es más que la proporción entre verdaderos positivos (VP) y falsos negativos (FN): VP/FN. Por otra parte la odds de que el sano dé positivo frente a que dé negativo es el cociente entre falsos positivos (FP) y verdaderos negativos (VN): FP/VN. Y visto esto, solo nos queda definir la razón entre las dos odds:

ORD = \frac{VP}{FN} / \frac{FP}{VN} = \frac{S}{1 - S} / \frac{1 - E}{E}

La ORD puede también expresarse en función de los valores predictivos y de los cocientes de probabilidad, según las expresiones siguientes:

ORD= \frac{VPP}{1 - VPP} / \frac{1 - VPN}{VPN}

ORD= \frac{CPP}{CPN}

Como toda odds ratio, los valores posibles de la ORD van de cero a infinito. El valor nulo es el uno, que significa que la prueba no tiene capacidad discriminatoria entre sanos y enfermos. Un valor mayor de uno indica capacidad discriminatoria, que será mayor cuanto mayor sea el valor. Por último, valores entre cero y uno nos indicarán que la prueba no solo no discrimina bien entre enfermos y sanos, sino que los clasifica de forma errónea y nos da más valores negativos entre los enfermos que entre los sanos.

La ORD es un medidor global fácil de interpretar y que no depende de la prevalencia de la enfermedad, aunque hay que decir que sí puede variar entre grupos de enfermos con distinta gravedad de su enfermedad.

Por último, añadir a sus ventajas que existe la posibilidad de construir su intervalo de confianza a partir de la tabla de contingencia usando esta pequeña fórmula que me vais a permitir:

Error\ est\acute{a}ndar (ln ORD)= \sqrt{\frac{1}{VP} + \frac{1}{VN} + \frac{1}{FP} + \frac{1}{FN}}

Sí, ya he visto el logaritmo, pero es que las odds son así: al ser asimétricas alrededor del valor nulo estos cálculos hay que hacerlos con logaritmos neperianos. Así, una vez que tenemos el error estándar podemos calcular el intervalo de esta manera:

IC\ 95\%= ln ORD \pm 1,96 EE(lnORD))

Solo nos quedaría, finalmente, aplicar los antilogaritmos a los límites del intervalo que obtenemos con la última fórmula (el antilogaritmo es elevar el número e a los límites obtenidos).

Y creo que con esto ya está bien por hoy. Podríamos seguir mucho más. La ORD tiene muchas más bondades. Por ejemplo, puede utilizarse con pruebas con resultados cuantitativos (no solo positivo o negativo), ya que existe una correlación entre la ORD y el área bajo la curva ROC de la prueba. Además, puede usarse en metanálisis y en modelos de regresión logística, lo que permite incluir variables para controlar la heterogeneidad de los estudios primarios. Pero esa es otra historia…

Otra vuelta de tuerca

¿Habéis leído la novela de Henry James?. Os la recomiendo. Todo un clásico del terror, con sus institutrices malas y muertas que se aparecen como fantasmas y las turbias relaciones personales de fondo. Pero yo hoy no voy a contaros ninguna novela de terror, sino que voy a dar otra vuelta de tuerca al tema de las pruebas diagnósticas, aunque a algunos incluso les da más miedo que una película de John Carpenter.

Ya sabemos que ninguna prueba diagnóstica es perfecta. Todas se equivocan en alguna ocasión, ya sea diagnosticando a un sano como enfermo (falso positivo, FP) o dando resultado negativo en alguien que tiene la enfermedad (falso negativo, FN). Por eso se han tenido que ir inventando parámetros que caractericen la prueba y nos den una idea de su desempeño en nuestra práctica clínica diaria.

Los más conocidos son sensibilidad (S) y especificidad (E). Sabemos que son características intrínsecas a la prueba y que nos informan de la capacidad de la prueba diagnóstica para clasificar correctamente a los enfermos (la S) y a los sanos (la E). El problema es que nosotros necesitamos saber la probabilidad de estar o no enfermo condicionada a haber obtenido un resultado positivo o negativo de la prueba. Estas probabilidades condicionadas por el resultado de la prueba es la que nos dan los valores predictivos positivo y negativo.

Con estos pares de valores podemos caracterizar el valor de la prueba, pero a todos nos gustaría más definir el valor de una prueba diagnóstica con un solo número. Podríamos usar los cocientes de probabilidades, tanto el positivo como el negativo, que nos dan una idea de cuánto más probable es padecer o no la enfermedad, pero sobre estos cocientes pesa una antigua maldición: son poco conocidos y peor entendidos por los clínicos.

Por este motivo se han intentado desarrollar otros indicadores para caracterizar la validez de las pruebas diagnósticas.  Uno de ellos sería la denominada exactitud o precisión de la prueba, que refleja la probabilidad de que la prueba haya hecho un diagnóstico correcto.

Para calcularlo construimos un cociente situando en el numerador todos los valores verdaderos posibles (positivos y negativos) y en el denominador todos los resultados posibles, según la siguiente fórmula:

Indice\ de\ exactitud = \frac{VP + VN}{VP + VN + FP + FN}

Este indicador nos da una idea de en qué proporción de casos la prueba diagnóstica no se equivoca, pero puede ser difícil trasladar su valor a un concepto clínico tangible.

Otro parámetro para medir la efectividad global de la prueba es el índice de Youden, que suma los mal clasificados por la prueba diagnóstica según la siguiente fórmula:

Índice de Youden = S + E -1

Como medida para el desempeño global de la prueba no está mal, pero no se aconseja utilizar como parámetro aislado para valorar una prueba diagnóstica.

Algunos autores dan un paso más allá e intentan desarrollar parámetros que funcionen de forma análoga al número necesario a tratar (NNT) de los estudios de tratamiento. Así, se han desarrollado dos parámetros.

El primero es el número necesario para diagnosticar (NND). Si el NNT es el inverso de los que mejoran con tratamiento menos los que mejoran con el control, hagamos un NND y pongamos en el denominador los enfermos con resultado positivo menos los sanos con resultado positivo.

Los enfermos positivos nos los da la S de la prueba y los sanos positivos el complementario de la E. Luego:

NND = 1 / S – (1-E)

Si simplificamos el denominador quitando el paréntesis, nos queda:

NND = 1 / S + E -1

Que, efectivamente, es el inverso del índice de Youden que vimos antes:

NND = 1 / Í. Youden

El segundo parámetro sería el número de pacientes para diagnosticar mal a uno (NNMD). Para calcularlo, en el denominador pondríamos el complementario del índice de exactitud que vimos al principio:

NNMD = 1 / 1 – Í. exactitud

Si sustituimos el valor del índice por su valor y simplificamos la ecuación, nos quedaría:

NNMD= \frac{1}{1-\frac{VP + VN}{VP + VN + FP + FN}}= \frac{1}{1-E-[Pr(S-E)]}

donde Pr es la prevalencia de la enfermedad (la probabilidad preprueba). Este parámetro nos da el número de pruebas diagnósticas  que tenemos que hacer para equivocarnos una vez, por lo que la prueba será mejor cuanto mayor sea este índice. Al igual que el anterior, ambos conceptos son mucho más aprehensibles para el clínico, aunque los dos tienen el mismo inconveniente: equiparan los FP y FN con el mismo nivel de importancia, lo que no siempre se ajusta al contexto clínico en el que aplicamos la prueba diagnóstica.

Y estos son los parámetros que yo conozco, aunque seguro que hay más y, si no, los inventarán pronto. No me gustaría terminar sin hacer una aclaración sobre el índice de Youden, al que apenas hemos dedicado tiempo. Este índice no solo es importante para valorar el desempeño global de una prueba diagnóstica. Es también una herramienta útil para decidir cuál es el mejor punto de corte en una curva ROC, ya que su valor máximo indica el punto de la curva que está más lejos de la diagonal. Pero esa es otra historia…

No siempre es mejor prevenir

Cualquier persona sensata como es debido nos dirá que siempre es mejor prevenir que curar. Yo lo he oído millones de veces. Incluso había un programa de televisión que se llamaba “Más vale prevenir”. Además, nadie en su sano juicio duda de los beneficios en salud que la Medicina Preventiva ha conseguido promoviendo la mejora de los estilos de vida, controlando las condiciones del ambiente o con los programas de vacunaciones. Pero, sin embargo, cuando hablamos de programas de cribado (los angloparlantes utilizan una palabra horrorosa: screening), yo os diría que no siempre está tan claro que sea mejor prevenir y que, en algunas ocasiones, es mejor no hacer nada por dos motivos. El primero, porque nuestros recursos son limitados y todo lo que gastemos en cribar saldrá de algún otro sitio que pasará a tener menos recursos. El segundo, porque aunque nos mueva la mejor de las voluntades, si intentamos prevenir de forma indiscriminada podemos producir más daño que beneficio.

            Habrá, pues, que pensar si está justificada cualquier estrategia de cribado antes de ponerla en práctica. La prueba diagnóstica con la que pensemos hacer el cribado tiene que ser sencilla, barata, fiable y con buena aceptabilidad por parte de la población. Es importante no olvidar que a los que vamos a hacer la prueba son individuos sanos a los que puede no apetecerles mucho que les vayamos incordiando. Además, es raro que para confirmar el diagnóstico baste con un solo resultado positivo, y las pruebas de confirmación seguro que son más caras y molestas, cuando no claramente invasoras (pensemos un cribado que haya que confirmar con una biopsia). Habrá que considerar la sensibilidad y especificidad de la prueba ya que, aunque a una prueba de cribado le perdonemos un cierto número de falsos positivos, si el diagnóstico de confirmación es muy caro o muy molesto, mejor que los falsos positivos sean pocos, o el cribado no nos saldrá rentable.

Por otra parte, para que merezca la pena hacer un cribado, la enfermedad que queramos prevenir tiene que tener una fase preclínica larga. Si esto no es así, tendremos pocas oportunidades para detectarla. El problema es, claro está, que las que más nos interesa detectar son las enfermedades más graves, y estas suelen tener las fases preclínicas sin síntomas más cortas.

Además, ¿a quién le hacemos el cribado?. A todo el mundo, me diréis. El problema es que esto es lo más caro, sobre todo teniendo en cuenta que los sanos no suelen ir al médico y vamos a tener que buscarles de forma activa si queremos cribarles (por su bien, eso sí). A los que están enfermos, pero poco todavía, me diréis entonces. Pues poco beneficio, ya que estos, cuando van al médico, están ya fuera del alcance de la prevención (ya están enfermos). Bueno, pues aprovechemos los que van al médico por otros motivos, propondréis alguno. Pues esto, que se llama cribado de oportunidad, es lo que se hace en muchas ocasiones por una cuestión práctica. Sale más barato, pero se pierden los beneficios teóricos del cribado universal. El hacer cribado a un número lo mayor posible tiene especial interés cuando lo que se detectan son factores de riesgo (por ejemplo, hipertensión), ya que, además de las ventajas del tratamiento precoz, tendremos oportunidad de hacer prevención primaria, mucho más económica y con mejores resultados en salud.

Así que, como vemos, hacer cribado puede tener múltiples ventajas que a todo el mundo le resultan evidentes. El problema es que rara vez nos paramos a pensar en el daño que podemos hacer con esta forma de prevención. ¿Cómo es posible que una detección temprana de una enfermedad o la oportunidad de hacer un tratamiento precoz puedan perjudicar a alguien?. Hagamos algunas reflexiones.

La prueba puede doler (un pinchazo) o ser engorrosa (meter las heces de tres días en un bote). Pero si esto os parece una chorrada, pensad en el que tiene un infarto realizando una prueba de esfuerzo, el que tiene un choque anafiláctico por un contraste o el japonés que se gana una perforación durante una colonoscopia. Eso ya es harina de otro costal. Además, la simple perspectiva del cribado puede generar ansiedad o estrés en una persona sana que no debería estar preocupada por ello.

Y que me decís si la prueba es positiva. Imaginaos que, para confirmar el diagnóstico hay que endoscopiar o hacer una biopsia corial, por no hablar de la ansiedad hasta que se descarte el diagnóstico con la prueba de confirmación. Y, aunque se confirme, el beneficio puede ser escaso: ¿qué beneficio tiene para el bienestar de una persona asintomática decirle que tiene una enfermedad, cuando igual no tiene tratamiento o no hay que comenzarlo todavía?. Pero es que, aunque haya tratamiento, éste también puede dañar. Como ejemplo muy al día están los efectos de una prostatectomía profiláctica por un carcinoma de bajo grado detectado con el cribado del PSA: se le puede dejar incontinente o impotente (o las dos cosas) por hacer una intervención que probablemente podría haberse retrasado años.

Pensad siempre que los beneficios potenciales de un cribado en población general sana pueden ser escasos precisamente por eso, porque se trata de personas sanas. Si existe el más mínimo daño que se pueda derivar de las estrategia de cribado o del tratamiento precoz deberemos considerar seriamente si merece la pena realizar el programa de cribado.

Entonces, ¿cuándo hacemos el cribado de una determinada enfermedad?. Lo primero, cuando la carga de enfermedad que produce la patología nos haga pensar que merece la pena. La carga de enfermedad depende de la prevalencia y de la gravedad. Si una enfermedad es muy frecuente pero muy benigna la carga de enfermedad será baja y probablemente no interese cribar. En el caso de que sea muy rara tampoco suele ser rentable cribar, excepto si la enfermedad es muy grave y tiene un tratamiento muy eficaz que previene sus complicaciones. Un ejemplo sería el cribado de hiperfenilalaninemia en recién nacidos.

Lo segundo, tenemos que disponer de una prueba adecuada con las características que hemos comentado, sobre todo que el número de falsos positivos no sea demasiado alto para no tener que andar confirmando el diagnóstico en demasiados sanos y hacer un negocio ruinoso.

Lo tercero, tiene que haber un tratamiento precoz que, además, tiene que ser más eficaz que el habitual al comenzar los síntomas. Además, tenemos que disponer de los recursos para realizar ese tratamiento.

Cuarto, tanto la prueba de cribado como el tratamiento que se derive del resultado positivo tienen que ser seguros. De lo contrario, podríamos hacer más daño que el que queremos evitar.

Y, quinto, debemos hacer un balance entre los costes y los potenciales beneficios del cribado. No hay que olvidar que, aunque la prueba no sea muy cara, se la vamos a hacer a un montón de gente, por lo que tendremos que gastarnos un montón de dinero, recurso más bien escaso en los tiempos que corren.

Para terminar, deciros que todo programa de cribado debe completarse con los estudios que comprueben su efectividad. Esto puede hacerse por métodos directos o indirectos según se compare la posibilidad de cribar o no cribar o se estudien las diferentes intervenciones de la estrategia de cribado por separado. Pero esa es otra historia…

Hay que saber lo que se pide

A diario encontramos artículos que nos muestran nuevas pruebas diagnósticas que parecen haber sido diseñadas para solucionar todos nuestros problemas. Pero no debemos caer en la tentación de hacer caso a todo lo que leamos sin recapacitar antes un poco en lo que hemos leído. Al fin y al cabo, si hiciésemos caso a todo lo que leemos estaríamos hinchados de beber Coca-Cola.

Ya sabemos que una prueba diagnóstica no nos va a decir si una persona está o no enferma. Su resultado únicamente nos permitirá aumentar o disminuir la probabilidad de que el individuo esté enfermo o no, de forma que nosotros nos atreveremos a confirmar o descartar el diagnóstico, pero siempre con cierto grado de incertidumbre. Cualquiera tiene cierto riesgo de padecer cualquier enfermedad, que no es más que la prevalencia de la enfermedad en la población general. Pero si, además de pertenecer a la población, uno tiene la desgracia de tener síntomas, esa probabilidad irá aumentando hasta alcanzar un primer umbral en el que se justifique realizar pruebas diagnósticas. La utilidad de la prueba diagnóstica estará en su capacidad para disminuir la probabilidad por debajo de este umbral (y descartar el diagnóstico) o, por el contrario, en aumentarla hasta el umbral en el que se justifique iniciar el tratamiento. Claro que a veces la prueba nos deja a medio camino y tenemos que hacer pruebas adicionales antes de confirmar el diagnóstico con la seguridad suficiente como para comenzar el tratamiento.

Los estudios de pruebas diagnósticas deben proporcionarnos información sobre la capacidad de una prueba para producir los mismos resultados cuando se realiza en condiciones similares (fiabilidad) y sobre la exactitud con la que las mediciones reflejan aquello que miden (validez). Pero, además, deben darnos datos sobre su capacidad discriminatoria (sensibilidad y especificidad), su rendimiento clínico (valor predictivo positivo y valor predictivo negativo) y sobre otros aspectos que nos permitan valorar si nos va a merecer la pena practicarla en nuestros pacientes. Y para comprobar si un estudio nos proporciona la información adecuada tenemos que hacer una lectura crítica basada en nuestros tres pilares: validez, importancia y aplicabilidad.

Comencemos por la VALIDEZ. Lo primero será hacernos unas preguntas básicas de eliminación o criterios primarios sobre el estudio. Si la respuesta  a estas preguntas es no, probablemente lo mejor que podamos hacer es usar el artículo para envolver el bocadillo de media mañana.

¿Se ha comparado la prueba diagnóstica de forma ciega e independiente con un patrón de referencia adecuado?. Hay que revisar que el resultado de la prueba de referencia no se interprete de forma diferente según el resultado de la prueba de estudio, ya que caeríamos en un sesgo de incorporación, que podría invalidar los resultados. Otro problema que puede surgir es que el patrón de referencia tenga muchos resultados poco concluyentes. Si cometemos el error de excluir estos casos dudosos incurriremos en un sesgo de exclusión de indeterminados que, además de sobrestimar la sensibilidad y la especificidad de la prueba, comprometería la validez externa del estudio, que solo sería aplicable a los pacientes con resultado no dudoso.

¿Los pacientes abarcan un espectro similar al que nos vamos a encontrar en nuestra práctica?. Deben estar claros los criterios de inclusión del estudio, en el que deben participar sanos y enfermos con distinta gravedad o evolución de la enfermedad. Como ya sabemos, la prevalencia influye en el rendimiento clínico de la prueba, con lo que si la validamos, por ejemplo, en un centro terciario (estadísticamente la probabilidad de estar enfermo será mayor) puede sobrestimarse su capacidad diagnóstica si va a utilizarse en un centro de Atención Primaria o en población general (en el que la proporción de enfermos será menor).

Llegados a este punto, si creemos que merece la pena seguir leyendo, pasaremos a los criterios secundarios, que son aquellos que aportan un valor añadido al diseño del estudio. Otra pregunta que debemos hacernos es: ¿influyeron los resultados de la prueba de estudio para decidir si se hacía la de referencia?. Hay que comprobar que no se haya producido un sesgo de secuencia o sesgo de verificación diagnóstica, mediante el cual excluimos a los que tienen la prueba negativa. Aunque esto es habitual en la práctica corriente (empezamos por pruebas sencillas y solo hacemos las caras o las invasoras en los casos positivos), el hacerlo en un estudio de pruebas diagnósticas compromete la validez de los resultados. Ambas pruebas deben hacerse de forma independiente y ciega, de forma que la subjetividad del observador no influya en los resultados (sesgo de revisión o sesgo de valoración ciega). Por último, ¿se describe el método con el detalle suficiente para permitir su reproducción?. Debe quedar claro qué se ha considerado normal y anormal y cuáles han sido los criterios para definir la normalidad y la forma de interpretar los resultados de la prueba.

Una vez analizada la validez interna del estudio pasaremos a considerar la IMPORTANCIA de los datos presentados. El objetivo de un estudio de diagnóstico es determinar la capacidad de una prueba para clasificar correctamente a los individuos según la presencia o ausencia de enfermedad. En realidad, y para ser más exactos, queremos saber cómo aumenta la probabilidad de estar enfermo tras el resultado de la prueba (probabilidad postprueba). Es, por tanto, esencial que el estudio nos informe acerca de la dirección y magnitud de este cambio (preprueba/postprueba), que sabemos depende de las características de la prueba y, en gran medida, de la prevalencia o probabilidad preprueba.

¿Nos presenta el trabajo las razones de verosimilitud o es posible calcularlas a partir de los datos?. Este dato es fundamental, ya que sin él no podemos calcular el impacto clínico de la prueba de estudio. Hay que tener especial precaución con las pruebas de resultado cuantitativo en las que es el investigador el que establece un punto de corte de normalidad. Cuando se utilizan curvas ROC es frecuente desplazar el punto de corte para favorecer la sensibilidad o la especificidad de la prueba, pero tenemos que valorar siempre cómo afecta esta medida a la validez externa del estudio, ya que puede limitar su aplicabilidad a un grupo determinado de pacientes.

¿Son fiables los resultados?. Habrá que determinar si los resultados son reproducibles y cómo pueden verse afectados por variaciones entre diferentes observadores o al repetir la prueba de forma sucesiva. Pero no solo hay que valorar la fiabilidad, sino también cuán precisos son los resultados. El estudio se hace sobre una muestra de pacientes, pero debe proporcionar una estimación de sus valores en la población, por lo que los resultados deben expresarse con sus correspondientes intervalos de confianza.

El tercer pilar de la lectura critica es el de la APLICABILIDAD o validez externa, que nos ayudará a determinar si los resultados son útiles para nuestros pacientes. En este sentido, debemos hacernos tres preguntas. ¿Disponemos de esta prueba y es factible realizarla en nuestros pacientes?. Si no disponemos de la prueba lo único que habremos conseguido leyendo el estudio es aumentar nuestros vastos conocimientos. Pero si disponemos de ella debemos preguntarnos si nuestros pacientes cumplirían los criterios de inclusión y exclusión del estudio y, en caso de que no los cumplan, pensar cómo pueden afectar estas diferencias la aplicabilidad de la prueba.

La segunda pregunta es si conocemos la probabilidad preprueba de nuestros pacientes. Si nuestra prevalencia es muy diferente de la del estudio se puede modificar la utilidad real de la prueba. Una solución puede ser hacer un análisis de sensibilidad valorando cómo se modificarían los resultados del estudio estudiando varios valores de probabilidad pre y postprueba que sean clínicamente razonables.

Por último, deberíamos hacernos la pregunta más importante: ¿la probabilidad postprueba puede hacer cambiar nuestra actitud terapéutica y servir de ayuda para el paciente?. Por ejemplo, si la probabilidad preprueba es muy baja, probablemente la probabilidad postprueba sea también muy baja y no alcanzará el umbral de justificación terapéutica, con lo que igual no merece la pena gastar dinero y esfuerzos con esa prueba. Por el contrario, si laprobabilidad preprueba es muy alta, en algunos casos merecerá la pena tratar sin hacer ninguna prueba, salvo que el tratamiento sea muy costoso o peligroso. Como siempre, en el medio estará la virtud y será en esas zonas intermedias donde más nos podamos beneficiar del uso de la prueba diagnóstica en cuestión. En cualquier caso, no nos olvidemos nunca de nuestro jefe (me refiero al paciente, no al otro): no hay que contentarse solo con estudiar la eficacia o el coste-efectividad, sino que debemos considerar también los riesgos, molestias y preferencias del paciente, así como las consecuencias que le puede acarrear la realización o no de la prueba diagnóstica.

Si me permitís un consejo, cuando estéis valorando un trabajo sobre pruebas diagnósticas os recomiendo el uso de las plantillas CASPe, que podéis descargaros de su página web. Os ayudarán a hacer la lectura critica de una manera sistemática y sencilla.

Para terminar, comentaros que todo lo dicho hasta ahora vale para los trabajos específicos de pruebas diagnósticas. Sin embargo, la valoración de pruebas diagnósticas puede formar parte de estudios observacionales como los de cohortes o los de casos y controles, que pueden tener alguna peculiaridad en la secuencia de realización y en los criterios de validación de la prueba de estudio y del patrón de referencia, pero esa es otra historia…

El dilema del vigilante

¿Os acordáis del problema de mi cuñado que no sabía que vigilante contratar?. Porque todavía no hemos respondido cuál de los dos vigilantes le aconsejamos que contrate, el que para a casi todo el mundo para mirarle el bolso y ofende a mucha gente que no roba nada, o el que no para a casi nadie pero tampoco falla con el que para, aunque se escapen muchos ladrones.

¿Y cuál creéis que es mejor de los dos?. La respuesta es muy sencilla: depende. Los que hayáis leído la entrada donde se planteaba este problema ya os habréis dado cuenta de que el primer vigilante (el que registra a muchos) es, sin ánimo de ofender, el sensible, mientras que el segundo es el específico. ¿Qué nos interesa más, que el vigilante sea sensible o específico?. Pues depende, por ejemplo, de donde tengamos el comercio. Si lo hemos abierto en un barrio de gente bien, no nos interesará mucho el primero, ya que, en realidad, poca gente robará y nos interesa más no ofender a los clientes para que no se vayan. Pero si ponemos la tienda en frente de la Cueva de Alí-Babá sí que nos traerá más cuenta contratarle para que nos detecte el mayor número posible de clientes que se llevan género robado. Pero también puede depender de lo que vendamos en la tienda. Si tenemos un “todo a un euro” (o un “todo a cien” para los nostálgicos) podemos contratar al vigilante específico, aunque se nos escape alguno (total, perderemos poco dinero). Pero si vendemos joyería fina no querremos que se escape ningún ladrón y contrataremos al sensible (preferiremos que alguien inocente se moleste por ser registrado a que se nos escape uno con un diamante de los gordos).

Pues esto mismo ocurre en medicina con la elección de las pruebas diagnósticas: tendremos que decidir en cada caso si nos interesa más una sensible o una específica, porque no siempre las pruebas disponibles tienen una alta sensibilidad (S) y especificidad (E).

En general, se prefiere una prueba sensible cuando los inconvenientes de obtener falsos positivos (FP) son menores que los de los falsos negativos (FN). Por ejemplo, supongamos que vamos a vacunar a un grupo de enfermos y sabemos que la vacuna es letal en los que tienen determinado error metabólico. Es claro que nos interesará que no se escape ningún enfermo sin diagnosticar (que no haya FN), aunque no pasa nada si a algún sano le etiquetamos de tener el error metabólico (un FP): será preferible no vacunar a un sano por pensar que tiene la metabolopatía (aunque no la tenga) que cargarnos a uno con la vacuna por pensar que no la tenía. Otro ejemplo menos dramático: en medio de una epidemia nos interesará una prueba muy sensible para poder aislar al mayor número posible de enfermos. El problema aquí es el de los desgraciados sanos positivos (FP) que meteríamos con los infectados, a los cuáles haríamos un flaco favor con la maniobra. Claro que bien podríamos hacer, a todos los positivos de la primera prueba, una segunda de confirmación que sea muy específica para evitar este calvario a los FP.

Por otra parte, se prefiere una prueba específica cuando es mejor tener FN que FP, como cuando queremos estar seguros de que un enfermo realmente lo está. Imaginemos que el resultado positivo de una prueba conlleva un tratamiento consistente en una operación quirúrgica: nos convendrá bastante estar seguros de que no vamos a operar a ningún sano.

Otro ejemplo es el de las enfermedades cuyo diagnóstico puede ser muy traumático para el paciente y que encima son prácticamente incurables o no tienen tratamiento. Aquí primaremos la especificidad para no darle un disgusto innecesario a ningún sano. Por el contrario, si la enfermedad es muy grave pero tiene tratamiento, probablemente prefiramos una prueba sensible.

Hasta aquí hemos hablado de pruebas con resultado dicotómico: positivo o negativo. Pero, ¿qué pasa cuándo el resultado es cuantitativo?. Imaginemos que medimos la glucemia en ayunas. Debemos decidir hasta qué valor de glucemia consideramos normal y por encima de cuál nos parecerá patológico. Y esta es una decisión crucial, porque S y E dependerán del punto de corte que elijamos.

Para ayudarnos a elegir disponemos de la curva de características operativas para el receptor, mundialmente conocida como curva ROC (receiver operating characteristic). Representamos en ordenadas (eje y) la S y en abscisas el complementario de la E (1-E) y trazamos una curva en la que cada punto de corte representa la probabilidad de que la prueba clasifique correctamente a una pareja sano-enfermo tomada al azar. La diagonal del gráfico representaría la “curva” si la prueba no tuviese capacidad ninguna de discriminar sanos de enfermos.

Como veis en el gráfico, la curva suele tener un segmento de gran pendiente donde aumenta rápidamente la S sin que apenas varíe la E: si nos desplazamos hacia arriba podemos aumentar la S sin que prácticamente nos aumenten los FP. Pero llega un momento en que llegamos a la parte plana. Si seguimos desplazándonos hacia la derecha llegará un punto a partir del cual la S ya no aumentará más, pero comenzarán a aumentar los FP. Si nos interesa una prueba sensible, nos quedaremos en la primera parte de la curva. Si queremos especificidad tendremos que irnos más hacia la derecha. Y, por último, si no tenemos predilección por ninguna de las dos (nos preocupa igual obtener FP que FN), el mejor punto de corte será el más próximo al ángulo superior izquierdo.

Un parámetro de interés es el área bajo la curva (ABC), que nos representa la probabilidad de que la prueba diagnóstica clasifique correctamente al paciente al que se le practique. Una prueba ideal con S y E del 100% tiene un área bajo la curva de 1: siempre acierta. En clínica, una prueba cuya curva ROC tenga un ABC > 0,9 se considera muy exacta, entre 0,7-0,9 de exactitud moderada y entre 0,5-0,7 de exactitud baja. El área bajo la diagonal es de 0,5, punto por debajo del cual la prueba carece de valor diagnóstico (bueno, en realidad, como dice mi amigo el sapientísimo Escepticémico, la prueba sin valor es la de la diagonal, ya que valores por debajo se corresponden con un error de clasificación de los sanos como enfermos, y viceversa. Leed su comentario a esta entrada, que él lo explica mucho mejor).

Curiosas las curvas ROC, ¿verdad?. Pues su utilidad no se limita a la valoración de la bondad de las pruebas diagnósticas con resultado cuantitativo. Las curvas ROC sirven también para determinar la bondad del ajuste de un modelo de regresión logística para predecir resultados dicotómicos, pero esa es otra historia…

No es oro todo lo que reluce

Tengo un cuñado que está muy preocupado con un dilema que le ha surgido. Resulta que va a montar un pequeño comercio y quiere contratar un vigilante para ponerlo en la puerta y que detecte a los que se llevan algo sin pagar. Y el problema es que tiene dos candidatos y no sabe por cuál decidirse. Uno de ellos para a casi todo el mundo, con lo que no se le escapa ningún chorizo. Eso sí, mucha gente honrada se ofende cuando se le pide que abra el bolso antes de salir y lo mismo la próxima vez se va a comprar a otro sitio. El otro es todo lo contrario: no para a casi nadie pero, eso sí, si para a uno, seguro que lleva algo robado. Este ofende a pocos honrados, pero se le escapan demasiados chorizos. Difícil decisión…

¿Y por qué me viene a mí mi cuñado con este cuento?. Pues porque sabe que yo me enfrento a diario con un dilema similar cada vez que tengo que elegir una prueba diagnóstica. Y es que todavía hay quien piensa que si tú pides una prueba y es positiva ya tienes hecho el diagnóstico y, al revés, que, si estás enfermo, para saberlo no hay más que hacerte la prueba. Y las cosas no son, ni muchos menos, tan sencillas, ni es oro todo lo que reluce, ni todo el oro tiene los mismos quilates.

Veámoslo con un ejemplo. Cuando queremos saber el valor de una prueba diagnóstica, habitualmente comparamos sus resultados con los de un patrón de referencia o patrón oro (el gold standard de los que saben inglés), que es una prueba que, idealmente, es siempre positiva en los enfermos y negativa en los sanos. dco_hospitalAhora supongamos que yo hago un estudio en mi consulta del hospital con una prueba diagnóstica nueva para detectar una determinada enfermedad y obtengo los resultados de la tabla adjunta (los enfermos son los que tienen la prueba de referencia positiva y los sanos, negativa).

Empecemos por lo fácil. Tenemos 1598 sujetos, 520 de ellos enfermos y 1078 sanos. La prueba nos da 446 positivos, 428 verdaderos (VP) y 18 falsos (FP). Además, nos da 1152 negativos, 1060 verdaderos (VN) y 92 falsos (FN). Lo primero que podemos determinar es la capacidad de la prueba para distinguir entre sanos y enfermos, lo que me da pie para introducir los dos primeros conceptos: sensibilidad (S) y especificidad (E). La S es la probabilidad de que la prueba clasifique correctamente a los enfermos o, dicho de otro modo, la probabilidad de que el enfermo sea positivo. Se calcula dividiendo los VP por el número de enfermos. En nuestro caso es de 0,82 (voy a emplear tantos por uno, pero si a alguien le gustan más los porcentajes ya sabe: a multiplicar por 100). Por otra parte, la E es la probabilidad de que se clasifique correctamente a los sanos o, dicho de otro modo, de que los sanos tengan un resultado negativo. Se calcula dividiendo los VN entre el número de sanos. En nuestro ejemplo 0,98.

Alguien podrá pensar que ya tenemos medido el valor de la nueva prueba, pero no hemos hecho nada más que empezar. Y esto es así porque S y E nos miden de alguna manera la capacidad de la prueba para discriminar sanos de enfermos, pero nosotros lo que en realidad necesitamos saber es la probabilidad de que un positivo sea enfermo y de que un negativo sea sano y, aunque puedan parecer conceptos similares, en realidad son bien diferentes.

La posibilidad de que un positivo sea enfermo se conoce como valor predictivo positivo (VPP) y se calcula dividiendo el número de enfermos con prueba positiva entre el número total de positivos. En nuestro caso es de 0,96. Esto sí quiere decir que un positivo tiene un 96% de probabilidad de estar enfermo. Por otra parte, la probabilidad de que un negativo sea sano se expresa mediante el valor predictivo negativo (VPN), que es el cociente de sanos con resultado negativo entre el número total de negativos. En nuestro ejemplo vale 0,92 (un negativo tiene una probabilidad del 92% de estar sano).

Y ahora es cuando las neuronas empiezan a recalentarse. Resulta que S y E son dos características intrínsecas de la prueba diagnóstica. Los resultados serán los mismos siempre que hagamos la prueba en unas condiciones similares, con independencia de a quién se la hagamos. Pero esto no es así con los valores predictivos, que varían según la prevalencia de la enfermedad en la población en la que hacemos la prueba. Esto quiere decir que la probabilidad de que un positivo esté enfermo depende de lo frecuente o rara que sea la enfermedad en su población. Sí, sí, habéis leído bien: la misma prueba positiva expresa diferente riesgo de estar enfermo, y, para los incrédulos, os pongo otro ejemplo.dco_cs Supongamos que esta misma prueba la hace un coleguilla mío en su consulta del Centro de Salud, donde la población es proporcionalmente más sana (esto es lógico, todavía no han pasado por el hospital). Si veis los resultados de la tabla, y os molestáis en calcular, veréis que obtiene una S de 0,82 y una E de 0,98, lo mismo que me salía a mí en mi consulta. Sin embargo, si calculáis los valores predictivos, veréis que el VPP es de 0,9 y el VPN de 0,95. Y esto es así porque las prevalencias de la enfermedad (enfermos/totales) son distintas en las dos poblaciones: 0,32 en mi consulta de hospital y 0,19 en la suya. O sea, que en los casos de prevalencia más alta un positivo ayuda más para confirmar la enfermedad y un negativo ayuda menos para descartarla. Y al revés, si la enfermedad es muy rara un negativo permitirá descartar la enfermedad con una seguridad razonable, pero un positivo nos ayudará mucho menos a la hora de confirmarla.

Vemos pues que, como pasa casi siempre en medicina, nos movemos en el poco firme terreno de las probabilidades, ya que todas (absolutamente todas) las pruebas diagnósticas son imperfectas y cometen errores a la hora de clasificar sanos y enfermos. Entonces, ¿cuándo merece la pena utilizar una prueba determinada?. Pues si pensamos que un determinado sujeto tiene ya una probabilidad de estar enfermo antes de hacerle la prueba (la prevalencia de la enfermedad en su población), solo nos interesará utilizar pruebas que aumenten esa probabilidad lo suficiente como para justificar el inicio del tratamiento pertinente (en otro caso tendríamos que hacer otra prueba hasta alcanzar el nivel umbral de probabilidad que justifique el tratamiento).

Y aquí es donde el tema se empieza a poner antipático. La razón de verosimilitud positiva (RVP) o cociente de probabilidad positivo nos indica cuánto más probable es tener un positivo en un enfermo que en un sano. La proporción de positivos en los enfermos es la S. La proporción de los positivos en sanos son los FP, que serían aquellos sanos que no dan negativo o, lo que es lo mismo, 1-E. Así, la RVP = S / (1-E). En nuestro caso (del hospital) vale 41 (el mismo aunque utilicemos porcentajes para S y E). Esto puede interpretarse como que es 41 veces más probable encontrar un resultado positivo en un enfermo que en un sano.

Puede calcularse también la RVN (la negativa), que expresa cuánto más probable es encontrar un negativo en un enfermo que en un sano. Los enfermos negativos son aquellos que no dan positivo (1-S) y los sanos negativos son los VN (la E de la prueba). Luego la RVN = (1-S)/E. En nuestro ejemplo 0,18.

Un cociente de probabilidad igual a 1 indica que el resultado de la prueba no modifica la probabilidad de estar enfermo. Si es mayor que 1 aumenta esta probabilidad y, si es menor, la disminuye. Este parámetro es el que usamos para determinar la potencia diagnóstica de la prueba. Valores  >10 (ó <0,1) indican que se trata de una prueba muy potente que apoya (o contradice) fuertemente el diagnóstico; de 5-10 (ó de 0,1-0,2) indican poca potencia de la prueba para apoyar (o descartar) el diagnóstico; de 2-5 (ó de 0,2-0,5) indican que la aportación de la prueba es dudosa; y, por último, de 1-2 (ó de 0,5-1) indican que la prueba no tiene utilidad diagnóstica.

La razón de verosimilitud (likelyhood ratio para los ingleses) no expresa una probabilidad directa, pero nos sirve para calcular las probabilidades de ser enfermo antes y después de dar positivo en la prueba diagnóstica. Podemos calcular la odds preprueba (OPre) como la prevalencia dividida por su complementario (cuánto más probable es que esté enfermo a que no lo esté). En nuestro caso valdría 0,47. Por otro lado, la odds posprueba (OPos) se calcula como el producto RVPxOPre. En nuestro caso, 19,27. Y por último, siguiendo el mecanismo inverso al usado para obtener la OPre a partir de la prevalencia, la probabilidad posprueba (PrPos) sería igual a OPos/(OPos+1). En nuestro ejemplo vale 0,95, lo que quiere decir que si nuestra prueba es positiva la probabilidad de estar enfermo pasa de 0,32 (la prevalencia o probabilidad preprueba) a 0,95 (probabilidad posprueba).

Si todavía queda alguien leyendo a estas alturas, le diré que no hace falta saberse todo este galimatías de fórmulas. Existen en Internet múltiples páginas con calculadoras para obtener todos estos parámetros a partir de la tabla 2×2 inicial con un esfuerzo miserable. Además, la probabilidad postprueba puede calcularse de forma sencilla utilizando el nomograma de Fagan. Lo que tenemos que saber es cómo valorar adecuadamente la información que nos proporciona una prueba diagnóstica para saber si debemos indicarla en razón de su potencia, costes, molestias para el paciente, etc.

Una última cuestión. Llevamos hablando todo el rato de pruebas positivas o negativas, pero cuando el resultado es cuantitativo debemos ser nosotros los que fijemos qué valor consideramos positivo y cuál negativo, con lo que variarán todos los parámetros que hemos visto en esta entrada, sobre todo la S y la E. ¿Y a cuál de las características de la prueba diagnóstica debemos dar prioridad?. Pues eso dependerá de las características de la prueba y del uso que pretendamos darle, pero esa es otra historia…