Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasConcordancia
image_pdf

Otra piedra con la que no tropezar

Dice el refrán que el hombre es el único animal que tropieza dos veces con la misma piedra. Dejando aparte las connotaciones del uso de la palabra animal, la frase quiere dar a entender que podemos cometer muchas veces el mismo error, aún a pesar de darnos cuenta de ello.

Dándose cuenta o no, en estadística hay una serie de errores que se cometen con mucha frecuencia, utilizando parámetros o pruebas estadísticas de forma incorrecta, ya sea por ignorancia o, lo que es peor, para obtener resultados más llamativos.

Un caso frecuente es el uso del coeficiente de correlación de Pearson para estudiar el grado de acuerdo entre dos formas de medir una variable cuantitativa. Veamos un ejemplo.

Supongamos que queremos valorar la fiabilidad de un nuevo tensiómetro de muñeca para medir la presión arterial. Tomamos una muestra de 300 escolares sanos y les medimos la presión dos veces. La primera con un manguito convencional de brazo, obteniendo una media de presión sistólica de 120 mmHg y una desviación estándar de 15 mmHg. La segunda, con un nuevo tensiómetro de muñeca, con el que obtenemos una media de 119,5 mmHg y una desviación estándar de 23,6 mmHg. La pregunta que nos hacemos es la siguiente: considerando el manguito de brazo como patrón de referencia, ¿es fiable la determinación de presión arterial con el de muñeca?.

Podría pensarse que para contestar a esta pregunta se podría calcular el coeficiente de correlación entre ambos, pero cometeríamos un error de los gordos. El coeficiente de correlación mide la relación entre dos variables (cómo varía una cuando varía la otra), pero no su grado de acuerdo. Pensad, por ejemplo, si cambiamos la escala de uno de los dos métodos: la correlación no se modifica, pero el acuerdo que hubiese puede perderse por completo.

¿Cómo podemos saber entonces si la técnica nueva es fiable comparada con la convencional?. Lo lógico es pensar que los dos métodos no van a coincidir siempre, así que lo primero que debemos preguntarnos es cuánto es razonable que difieran para dar validez a los resultados. Esta diferencia debe definirse antes de comparar los dos métodos y de establecer el tamaño muestral necesario para hacer la comparación. En nuestro caso vamos a considerar que la diferencia no debe ser mayor a una desviación estándar de lo obtenido con el método de referencia, que es de 15 mmHg.

dos_variablesEl primer paso que podemos dar es examinar los datos. Para ello hacemos un diagrama de puntos representando los resultados obtenidos con los dos métodos. Parece que hay cierta relación entre las dos variables, de forma que aumentan y disminuyen las dos en el mismo sentido. Pero esta vez no caemos en la trampa de dibujar la línea de regresión, que solo nos informaría de la correlación entre las dos variables.

Otra posibilidad es examinar cómo son las diferencias. Si existiese un buen acuerdo, las diferencias entre los dos métodos se distribuirían de forma normal alrededor del cero. Podemos comprobar diferenciasesto haciendo el histograma con las diferencias de las dos medidas, como veis en la segunda figura. En efecto, parece que su distribución se ajusta bastante bien a una normal.

De todas formas, seguimos sin saber si el acuerdo es lo suficientemente bueno. ¿Qué tipo de gráfico nos puede servir?. Lo que nos dará más información será representar la media de cada pareja de mediciones frente a su diferencia, construyendo así el llamado gráfico de Bland-Altman que podéis ver en la tercera figura.

Como veis, los puntos se agrupan, más o menos, alrededor de una línea (en el cero) con un grado de dispersión que vendrá determinado por la amplitud de las diferencias de resultados entre los dos métodos. Cuanta mayor sea ese grado de dispersión, peor será el acuerdo entre los dos métodos. En nuestro caso, hemos dibujado las líneas que coinciden con una desviación estándar por debajo y por encima de la media cero, que eran los límites que considerábamos como aceptables entre los dos métodos para considerar un buen acuerdo.

bland_altmanComo veis hay bastantes puntos que caen fuera de los límites, así que tendríamos que valorar si el nuevo método reproduce los resultados de forma fiable. Otra posibilidad sería dibujar las líneas horizontales que engloban la gran mayoría de los puntos y considerar si estos intervalos tienen utilidad desde el punto de vista clínico.

El método de Bland-Altaman permite, además, calcular los intervalos de confianza de las diferencias y estimar la precisión del resultado. Además, hay que fijarse que el grado de dispersión sea uniforme. Puede ocurrir que el acuerdo sea aceptable en determinado intervalo de valores pero no lo sea en otro (por ejemplo, valores muy altos o muy bajos), en los que la dispersión sea inaceptable. Este efecto puede corregirse a veces transformando los datos (por ejemplo, transformación logarítmica), aunque siempre habrá que valorar considerar la utilidad de la medición en ese intervalo. Si miramos en nuestro ejemplo, parece que el tensiómetro de muñeca da valores más altos para sistólicas más bajas, mientras que da valores más bajos cuando la presión sistólica es mayor (la nube de puntos tiene una discreta pendiente negativa de izquierda a derecha). El método sería más fiable para sistólicas en torno a 120 mmHg, pero perdería reproducibilidad según se aleje el valor de presión arterial sistólica de los 120 mmHg.

Otra utilidad del método de Bland-Altman es la de representar las parejas de resultados de las mediciones hechas con el mismo método o instrumento, para así comprobar la reproducibilidad de los resultados de la prueba.

Y con esto termino lo que quería contaros del método de Bland-Altman. Antes de acabar, quiero aclarar que los datos empleados en esta entrada son totalmente inventados por mí y no corresponden a ningún experimento real. Los he generado con un ordenador con el fin de explicar el ejemplo, así que no quiero que ningún vendedor de tensiómetros de muñeca me venga con reclamaciones.

Para finalizar, deciros que este método se usa solo cuando se quiere valorar el grado de acuerdo entre variables cuantitativas. Existen otros métodos, como el índice kappa de concordancia, para cuando tratamos con resultados cualitativos. Pero esa es otra historia…

¿Un buen acuerdo?

Todos sabemos que a cuantos menos médicos vayamos, mucho mejor. Y esto por dos razones. La primera, porque si vamos a muchos médicos o estamos muy malos físicamente o estamos muy malos de la cabeza (algunos desgraciados de las dos cosas). Y la segunda, que es la que más me llama la atención, porque cada uno te dice una cosa diferente. Y no es que los médicos no conozcamos el oficio, es que ponerse de acuerdo no es tan sencillo como parece.

Para que os hagáis una idea, el problema empieza ya al querer saber si dos médicos que valoran una misma prueba diagnóstica tienen un buen grado de acuerdo. Veámoslo con un ejemplo.

Supongamos por un momento que soy el gerente del hospital y quiero contratar un patólogo porque el único que tengo está desbordado de trabajo. Reúno a mi patólogo y al candidato y les doy 795 biopsias para que me digan si hay células malignas. Como podéis ver en la primera tabla, mi patólogo encuentra células malignas en 99 de las biopsias, mientras que el segundo las ve en 135 (no os asustéis, esto es solo un ejemplo, en la vida real no hay tanta diferencia, ¿verdad?). Nos preguntamos qué grado de acuerdo o, mejor dicho, concordancia hay entre los dos. Lo primero que se nos ocurre es ver en cuántas biopsias están de acuerdo y lo calculamos: los dos coinciden en 637 biopsias normales y en 76 en las que ven células malignas, luego el porcentaje de casos en los que están de acuerdo puede calcularse como (637+76)/795 = 0,896. ¡Albricias!, nos decimos, los dos están de acuerdo en casi el 90% de los casos. La cosa no es tan mala como parecía viendo las discrepancias de la tabla.

Pero resulta que cuando estoy a punto de contratar al nuevo patólogo me pregunto si no podría haber acertado por pura casualidad. Así que se me ocurre un experimento estúpido: tomo las 795 biopsias y tiro una moneda al aire, etiquetando cada una como normal, si sale cara, o patológica, si sale cruz.

La moneda me dice que tengo 400 biopsias normales y 395 con células malignas. Si calculo la concordancia entre la moneda y el patólogo, veo que es de (356+55)/795 = 0,516, ¡52%!. Esto sí que es sorprendente, por puro azar están de acuerdo en la mitad de los casos (sí, sí, ya sé que los más listillos no se sorprenderán y me dirán que hay un 50% de cada resultado de lanzar la moneda). Así que empiezo a pensar formas de ahorrar dinero para mi hospital y se me ocurre otro experimento que esta vez no es solo estúpido, sino totalmente ridículo: le ofrezco a mi primo que haga la prueba en lugar de lanzar la moneda (por esta vez voy a dejar tranquilo a mi cuñado).

El problema, claro está, es que mi primo no es médico y, aunque es un tío majo, de anatomía patológica no tiene ni idea. Así que cuando empieza a ver las células de colores piensa que es imposible que semejante belleza esté producida por células malignas y da todos los resultados como normales. Cuando vemos la tabla con los resultados lo primero que se me ocurre es quemarla, pero por pura curiosidad calculo la concordancia entre mi primo y mi patólogo y veo que es de 696/795 = 0,875, ¡¡87%!!. Conclusión: igual me trae más cuenta contratar a mi primo que a un nuevo patólogo.

A estas alturas pensaréis que hoy se me ha olvidado tomar la medicación, pero la verdad es que todos estos ejemplos sirven para demostraros que, si queremos saber cuál es la concordancia entre dos observadores, primero tenemos que desembarazarnos del efecto del engorroso y sempiterno azar. Y para eso los matemáticos han inventado un estadístico que llaman kappa, el coeficiente de concordancia interobservador.

Kappa lo que hace es excluir de la concordancia observada aquella que es debida al azar, obteniendo un valor más representativo de la fuerza de la concordancia entre los observadores. Su fórmula es un cociente en cuyo numerador se representa la diferencia entre la concordancia observada y la debida al azar y en cuyo denominador figura el complementario de la concordancia debida al azar: (Po-Pa)/(1-Pa).

La Po de nuestro ejemplo con los dos patólogos ya la conocemos: 0,89. Para calcular la Pa debemos calcular los valores teóricos esperados de cada celda de la tabla, de forma similar a como recordaréis de la prueba de la chi cuadrado: el valor esperado de cada celda es el producto de los totales de su fila y columna dividido por el total de la tabla. Como ejemplo, en nuestra tabla el valor esperado de la primera celda es (696×660)/795 = 578. Con los valores esperados calculamos la probabilidad de acuerdo debido al azar empleando el mismo método que usamos antes para la observada: (578+17)/795 = 0,74.

Y ahora ya podemos calcular kappa = (0,89-0,74)/(1-0,74) = 0,57. ¿y qué hacemos con el 0,57?. Podemos hacer lo que se nos ocurra, menos multiplicarla por cien, ya que este valor no representa un verdadero porcentaje. Kappa puede valer de -1 a +1. Valores negativos indican que la concordancia es peor de la que podría esperarse por azar. Un valor de 0 indica que la concordancia es similar a la que se obtendría tirando una moneda. Valores mayores de 0 indican que hay concordancia leve (0,01-0,20), aceptable (0,21-0,40), moderada (0,41-0,60), considerable (0,61-0,80) o casi perfecta (0,81-1,00). En nuestro caso, hay una concordancia bastante buena entre los dos patólogos. Si tenéis curiosidad, calculad la kappa de mi primo y veréis que no es mejor que tirar la moneda.

Kappa puede calcularse también si tenemos medidas de varios observadores o varios resultados de una observación, solo que las tablas se ponen tan antipáticas que es mejor utilizar un programa estadístico para calcularla que, ya de paso, nos puede dar su intervalo de confianza.

De todas formas, no confiéis mucho en la kappa, ya que requiere que no haya mucha diferencia entre las celdas de la tabla. Si alguna de las categorías tiene pocos casos el coeficiente tenderá a subestimar la concordancia real aunque ésta sea muy buena.

Por último, deciros que, aunque en todos nuestros ejemplos hemos visto una prueba con un resultado dicotómico, es posible también calcular la concordancia entre observadores que nos den un resultado cuantitativo (una escala de puntuación, por ejemplo). Claro que para eso tenemos que utilizar otra técnica estadística como la de Bland-Altman, pero esa es otra historia…