Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

El dilema del vigilante

This post is also available in: Inglés

image_pdf

¿Os acordáis del problema de mi cuñado que no sabía que vigilante contratar?. Porque todavía no hemos respondido cuál de los dos vigilantes le aconsejamos que contrate, el que para a casi todo el mundo para mirarle el bolso y ofende a mucha gente que no roba nada, o el que no para a casi nadie pero tampoco falla con el que para, aunque se escapen muchos ladrones.

¿Y cuál creéis que es mejor de los dos?. La respuesta es muy sencilla: depende. Los que hayáis leído la entrada donde se planteaba este problema ya os habréis dado cuenta de que el primer vigilante (el que registra a muchos) es, sin ánimo de ofender, el sensible, mientras que el segundo es el específico. ¿Qué nos interesa más, que el vigilante sea sensible o específico?. Pues depende, por ejemplo, de donde tengamos el comercio. Si lo hemos abierto en un barrio de gente bien, no nos interesará mucho el primero, ya que, en realidad, poca gente robará y nos interesa más no ofender a los clientes para que no se vayan. Pero si ponemos la tienda en frente de la Cueva de Alí-Babá sí que nos traerá más cuenta contratarle para que nos detecte el mayor número posible de clientes que se llevan género robado. Pero también puede depender de lo que vendamos en la tienda. Si tenemos un “todo a un euro” (o un “todo a cien” para los nostálgicos) podemos contratar al vigilante específico, aunque se nos escape alguno (total, perderemos poco dinero). Pero si vendemos joyería fina no querremos que se escape ningún ladrón y contrataremos al sensible (preferiremos que alguien inocente se moleste por ser registrado a que se nos escape uno con un diamante de los gordos).

Pues esto mismo ocurre en medicina con la elección de las pruebas diagnósticas: tendremos que decidir en cada caso si nos interesa más una sensible o una específica, porque no siempre las pruebas disponibles tienen una alta sensibilidad (S) y especificidad (E).

En general, se prefiere una prueba sensible cuando los inconvenientes de obtener falsos positivos (FP) son menores que los de los falsos negativos (FN). Por ejemplo, supongamos que vamos a vacunar a un grupo de enfermos y sabemos que la vacuna es letal en los que tienen determinado error metabólico. Es claro que nos interesará que no se escape ningún enfermo sin diagnosticar (que no haya FN), aunque no pasa nada si a algún sano le etiquetamos de tener el error metabólico (un FP): será preferible no vacunar a un sano por pensar que tiene la metabolopatía (aunque no la tenga) que cargarnos a uno con la vacuna por pensar que no la tenía. Otro ejemplo menos dramático: en medio de una epidemia nos interesará una prueba muy sensible para poder aislar al mayor número posible de enfermos. El problema aquí es el de los desgraciados sanos positivos (FP) que meteríamos con los infectados, a los cuáles haríamos un flaco favor con la maniobra. Claro que bien podríamos hacer, a todos los positivos de la primera prueba, una segunda de confirmación que sea muy específica para evitar este calvario a los FP.

Por otra parte, se prefiere una prueba específica cuando es mejor tener FN que FP, como cuando queremos estar seguros de que un enfermo realmente lo está. Imaginemos que el resultado positivo de una prueba conlleva un tratamiento consistente en una operación quirúrgica: nos convendrá bastante estar seguros de que no vamos a operar a ningún sano.

Otro ejemplo es el de las enfermedades cuyo diagnóstico puede ser muy traumático para el paciente y que encima son prácticamente incurables o no tienen tratamiento. Aquí primaremos la especificidad para no darle un disgusto innecesario a ningún sano. Por el contrario, si la enfermedad es muy grave pero tiene tratamiento, probablemente prefiramos una prueba sensible.

Hasta aquí hemos hablado de pruebas con resultado dicotómico: positivo o negativo. Pero, ¿qué pasa cuándo el resultado es cuantitativo?. Imaginemos que medimos la glucemia en ayunas. Debemos decidir hasta qué valor de glucemia consideramos normal y por encima de cuál nos parecerá patológico. Y esta es una decisión crucial, porque S y E dependerán del punto de corte que elijamos.

Para ayudarnos a elegir disponemos de la curva de características operativas para el receptor, mundialmente conocida como curva ROC (receiver operating characteristic). Representamos en ordenadas (eje y) la S y en abscisas el complementario de la E (1-E) y trazamos una curva en la que cada punto de corte representa la probabilidad de que la prueba clasifique correctamente a una pareja sano-enfermo tomada al azar. La diagonal del gráfico representaría la “curva” si la prueba no tuviese capacidad ninguna de discriminar sanos de enfermos.

Como veis en el gráfico, la curva suele tener un segmento de gran pendiente donde aumenta rápidamente la S sin que apenas varíe la E: si nos desplazamos hacia arriba podemos aumentar la S sin que prácticamente nos aumenten los FP. Pero llega un momento en que llegamos a la parte plana. Si seguimos desplazándonos hacia la derecha llegará un punto a partir del cual la S ya no aumentará más, pero comenzarán a aumentar los FP. Si nos interesa una prueba sensible, nos quedaremos en la primera parte de la curva. Si queremos especificidad tendremos que irnos más hacia la derecha. Y, por último, si no tenemos predilección por ninguna de las dos (nos preocupa igual obtener FP que FN), el mejor punto de corte será el más próximo al ángulo superior izquierdo.

Un parámetro de interés es el área bajo la curva (ABC), que nos representa la probabilidad de que la prueba diagnóstica clasifique correctamente al paciente al que se le practique. Una prueba ideal con S y E del 100% tiene un área bajo la curva de 1: siempre acierta. En clínica, una prueba cuya curva ROC tenga un ABC > 0,9 se considera muy exacta, entre 0,7-0,9 de exactitud moderada y entre 0,5-0,7 de exactitud baja. El área bajo la diagonal es de 0,5, punto por debajo del cual la prueba carece de valor diagnóstico (bueno, en realidad, como dice mi amigo el sapientísimo Escepticémico, la prueba sin valor es la de la diagonal, ya que valores por debajo se corresponden con un error de clasificación de los sanos como enfermos, y viceversa. Leed su comentario a esta entrada, que él lo explica mucho mejor).

Curiosas las curvas ROC, ¿verdad?. Pues su utilidad no se limita a la valoración de la bondad de las pruebas diagnósticas con resultado cuantitativo. Las curvas ROC sirven también para determinar la bondad del ajuste de un modelo de regresión logística para predecir resultados dicotómicos, pero esa es otra historia…

Una respuesta para 'El dilema del vigilante'

  1. Escepticémico dice:

    Una acotación. El área bajo la curva inútil es el de 0.5 (discrimina igual que tirar una moneda). Si se obtienen áreas por debajo, entonces hay que reconsiderar el criterio de clasificación: el punto de corte debería clasificar sanos en vez de enfermos. Es decir (ejemplo imaginarios), si clasificamos a los pacientes con infarto como los que tienen troponinas bajas y a los pacientes sanos como aquellos que tienen troponinas altas, nos saldría una curva ROC con área muy baja, de 0.1 o menos, como si fuera una imagen en espejo de la curva que tiene sentido, la que clasifica a los pacientes con infarto como aquellos que tienen troponinas altas. La curva ROC inútil es la que sigue la diagonal, no la que tiene áreas bajas.

Deja un comentario

A %d blogueros les gusta esto: