Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasÍndice de exactitud
image_pdf

Una historia interminable

Hoy no vamos a hablar de dragones que te llevan de paseo si te pones en su chepa. Tampoco vamos a hablar de hombres con los pies en la cabeza ni de ninguna otra de las criaturas de la mente delirante de Michael Ende. Hoy vamos a hablar de otra historia que no tiene fin: el de los indicadores de pruebas diagnósticas.
Cuando uno cree que los conoce todos, levanta una piedra y encuentra otro más debajo de ella. ¿Y por qué hay tantos?, os preguntaréis. Pues la respuesta es muy sencilla. Aunque hay indicadores que nos interpretan muy bien cómo trata la prueba diagnóstica a los sanos y a los enfermos, todavía se busca un buen indicador, único, que nos dé una idea de la capacidad diagnóstica del test.

ORDExisten multitud de indicadores de pruebas diagnósticas que valoran la capacidad de la prueba diagnóstica para discriminar entre enfermos y sanos comparando los resultados con los de un estándar de referencia. Todos ellos se derivan de la comparación entre positivos y negativos en una tabla de contingencia, con lo que podemos construir los indicadores habituales que veis en la tabla adjunta: sensibilidad, especificidad, valores predictivos, cocientes de probabilidad, índice de exactitud e índice de Youden.
El problema es que la mayoría de ellos valoran parcialmente la capacidad de la prueba, por lo que necesitamos utilizarlos en parejas: sensibilidad y especificidad, por ejemplo. Solo los dos últimos que hemos enunciado funcionan como indicadores únicos. El índice de exactitud mide el porcentaje de pacientes correctamente diagnosticados, pero trata por igual a positivos y negativos, verdaderos o falsos. Por su parte, el índice de Youden suma los mal clasificados por la prueba diagnóstica.

En cualquier caso, no se recomienda utilizar ni el índice de exactitud ni el de Youden de forma aislada si queremos valorar una prueba diagnóstica. Además, este último es un término difícil de trasladar a un concepto clínico tangible al ser una transformación lineal de la sensibilidad y la especificidad.

Llegados a este punto se entiende lo que nos gustaría disponer de un indicador único, sencillo, cuya interpretación nos resultase familiar y que no dependiese de la prevalencia de la enfermedad. Sería, sin duda, un buen indicador de la capacidad de la prueba diagnóstica que nos evitaría tener que recurrir a una pareja de indicadores.

Y aquí es donde a alguna mente brillante se le ocurre utilizar un indicador tan conocido y familiar como la odds ratio para interpretar la capacidad de la prueba. Así, podemos definir la odds ratio diagnóstica (ORD) como la razón de la odds de que el enfermo dé positivo con respecto a la odds de dar positivo estando sano. Como esto parece un trabalenguas, vamos a comentar los dos componentes de la razón.

La odds de que el enfermo dé positivo frente a que dé negativo no es más que la proporción entre verdaderos positivos (VP) y falsos negativos (FN): VP/FN. Por otra parte la odds de que el sano dé positivo frente a que dé negativo es el cociente entre falsos positivos (FP) y verdaderos negativos (VN): FP/VN. Y visto esto, solo nos queda definir la razón entre las dos odds:

ORD = \frac{VP}{FN} / \frac{FP}{VN} = \frac{S}{1 - S} / \frac{1 - E}{E}

La ORD puede también expresarse en función de los valores predictivos y de los cocientes de probabilidad, según las expresiones siguientes:

ORD= \frac{VPP}{1 - VPP} / \frac{1 - VPN}{VPN}

ORD= \frac{CPP}{CPN}

Como toda odds ratio, los valores posibles de la ORD van de cero a infinito. El valor nulo es el uno, que significa que la prueba no tiene capacidad discriminatoria entre sanos y enfermos. Un valor mayor de uno indica capacidad discriminatoria, que será mayor cuanto mayor sea el valor. Por último, valores entre cero y uno nos indicarán que la prueba no solo no discrimina bien entre enfermos y sanos, sino que los clasifica de forma errónea y nos da más valores negativos entre los enfermos que entre los sanos.

La ORD es un medidor global fácil de interpretar y que no depende de la prevalencia de la enfermedad, aunque hay que decir que sí puede variar entre grupos de enfermos con distinta gravedad de su enfermedad.

Por último, añadir a sus ventajas que existe la posibilidad de construir su intervalo de confianza a partir de la tabla de contingencia usando esta pequeña fórmula que me vais a permitir:

Error\ est\acute{a}ndar (ln ORD)= \sqrt{\frac{1}{VP} + \frac{1}{VN} + \frac{1}{FP} + \frac{1}{FN}}

Sí, ya he visto el logaritmo, pero es que las odds son así: al ser asimétricas alrededor del valor nulo estos cálculos hay que hacerlos con logaritmos neperianos. Así, una vez que tenemos el error estándar podemos calcular el intervalo de esta manera:

IC\ 95\%= ln ORD \pm 1,96 EE(lnORD))

Solo nos quedaría, finalmente, aplicar los antilogaritmos a los límites del intervalo que obtenemos con la última fórmula (el antilogaritmo es elevar el número e a los límites obtenidos).

Y creo que con esto ya está bien por hoy. Podríamos seguir mucho más. La ORD tiene muchas más bondades. Por ejemplo, puede utilizarse con pruebas con resultados cuantitativos (no solo positivo o negativo), ya que existe una correlación entre la ORD y el área bajo la curva ROC de la prueba. Además, puede usarse en metanálisis y en modelos de regresión logística, lo que permite incluir variables para controlar la heterogeneidad de los estudios primarios. Pero esa es otra historia…

Otra vuelta de tuerca

¿Habéis leído la novela de Henry James?. Os la recomiendo. Todo un clásico del terror, con sus institutrices malas y muertas que se aparecen como fantasmas y las turbias relaciones personales de fondo. Pero yo hoy no voy a contaros ninguna novela de terror, sino que voy a dar otra vuelta de tuerca al tema de las pruebas diagnósticas, aunque a algunos incluso les da más miedo que una película de John Carpenter.

Ya sabemos que ninguna prueba diagnóstica es perfecta. Todas se equivocan en alguna ocasión, ya sea diagnosticando a un sano como enfermo (falso positivo, FP) o dando resultado negativo en alguien que tiene la enfermedad (falso negativo, FN). Por eso se han tenido que ir inventando parámetros que caractericen la prueba y nos den una idea de su desempeño en nuestra práctica clínica diaria.

Los más conocidos son sensibilidad (S) y especificidad (E). Sabemos que son características intrínsecas a la prueba y que nos informan de la capacidad de la prueba diagnóstica para clasificar correctamente a los enfermos (la S) y a los sanos (la E). El problema es que nosotros necesitamos saber la probabilidad de estar o no enfermo condicionada a haber obtenido un resultado positivo o negativo de la prueba. Estas probabilidades condicionadas por el resultado de la prueba es la que nos dan los valores predictivos positivo y negativo.

Con estos pares de valores podemos caracterizar el valor de la prueba, pero a todos nos gustaría más definir el valor de una prueba diagnóstica con un solo número. Podríamos usar los cocientes de probabilidades, tanto el positivo como el negativo, que nos dan una idea de cuánto más probable es padecer o no la enfermedad, pero sobre estos cocientes pesa una antigua maldición: son poco conocidos y peor entendidos por los clínicos.

Por este motivo se han intentado desarrollar otros indicadores para caracterizar la validez de las pruebas diagnósticas.  Uno de ellos sería la denominada exactitud o precisión de la prueba, que refleja la probabilidad de que la prueba haya hecho un diagnóstico correcto.

Para calcularlo construimos un cociente situando en el numerador todos los valores verdaderos posibles (positivos y negativos) y en el denominador todos los resultados posibles, según la siguiente fórmula:

Indice\ de\ exactitud = \frac{VP + VN}{VP + VN + FP + FN}

Este indicador nos da una idea de en qué proporción de casos la prueba diagnóstica no se equivoca, pero puede ser difícil trasladar su valor a un concepto clínico tangible.

Otro parámetro para medir la efectividad global de la prueba es el índice de Youden, que suma los mal clasificados por la prueba diagnóstica según la siguiente fórmula:

Índice de Youden = S + E -1

Como medida para el desempeño global de la prueba no está mal, pero no se aconseja utilizar como parámetro aislado para valorar una prueba diagnóstica.

Algunos autores dan un paso más allá e intentan desarrollar parámetros que funcionen de forma análoga al número necesario a tratar (NNT) de los estudios de tratamiento. Así, se han desarrollado dos parámetros.

El primero es el número necesario para diagnosticar (NND). Si el NNT es el inverso de los que mejoran con tratamiento menos los que mejoran con el control, hagamos un NND y pongamos en el denominador los enfermos con resultado positivo menos los sanos con resultado positivo.

Los enfermos positivos nos los da la S de la prueba y los sanos positivos el complementario de la E. Luego:

NND = 1 / S – (1-E)

Si simplificamos el denominador quitando el paréntesis, nos queda:

NND = 1 / S + E -1

Que, efectivamente, es el inverso del índice de Youden que vimos antes:

NND = 1 / Í. Youden

El segundo parámetro sería el número de pacientes para diagnosticar mal a uno (NNMD). Para calcularlo, en el denominador pondríamos el complementario del índice de exactitud que vimos al principio:

NNMD = 1 / 1 – Í. exactitud

Si sustituimos el valor del índice por su valor y simplificamos la ecuación, nos quedaría:

NNMD= \frac{1}{1-\frac{VP + VN}{VP + VN + FP + FN}}= \frac{1}{1-E-[Pr(S-E)]}

donde Pr es la prevalencia de la enfermedad (la probabilidad preprueba). Este parámetro nos da el número de pruebas diagnósticas  que tenemos que hacer para equivocarnos una vez, por lo que la prueba será mejor cuanto mayor sea este índice. Al igual que el anterior, ambos conceptos son mucho más aprehensibles para el clínico, aunque los dos tienen el mismo inconveniente: equiparan los FP y FN con el mismo nivel de importancia, lo que no siempre se ajusta al contexto clínico en el que aplicamos la prueba diagnóstica.

Y estos son los parámetros que yo conozco, aunque seguro que hay más y, si no, los inventarán pronto. No me gustaría terminar sin hacer una aclaración sobre el índice de Youden, al que apenas hemos dedicado tiempo. Este índice no solo es importante para valorar el desempeño global de una prueba diagnóstica. Es también una herramienta útil para decidir cuál es el mejor punto de corte en una curva ROC, ya que su valor máximo indica el punto de la curva que está más lejos de la diagonal. Pero esa es otra historia…