Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado pordiciembre 2012
image_pdf

Sopa de letras

Lamentablemente, una gran parte de las veces que pensamos en algún trabajillo de investigación que podamos hacer solo nos mueve el interés por tener alguna publicación más en nuestro ya abultado currículo y el ver nuestro nombre en una revista o en el libro de comunicaciones de un congreso. Así que no es de extrañar que una gran parte de los trabajos que se publican sean, por decirlo de forma suave y educada, de una calidad deficiente, de tal forma que ni sabemos cómo están hechos, ni si son de fiar ni, a veces, qué novedades nos aportan o cómo se incluyen en el contexto de nuestros conocimientos médicos. Y esto no atañe solo a la realización del trabajo, sino que es frecuente que haya también defectos en la publicación y difusión de sus resultados, pudiendo haber casos de publicación incompleta del trabajo, de que se oculte parte de su metodología, que no se hable de efectos perjudiciales ni de efectos negativos y, en resumen, que publiquemos únicamente lo que nos interesa.

Pero no os desaniméis. Para remediar esta triste situación podemos recurrir a una sopa de letras. Y no estoy pensando en comida ni en el famoso pasatiempo que afronta un peligro de extinción inminente por culpa de los pérfidos sudokus, sino en otra sopa que combina letras en un número inimaginable de nombres imposibles para denominar listas de recomendaciones y de verificación que nos permitan ordenar todo el procedimiento de creación y difusión de trabajos científicos sin que cometamos errores metodológicos u omisiones en el procedimiento.

Todo comenzó con un programa del Servicio de Salud del Reino Unido que terminó con la fundación de una iniciativa internacional para promover la transparencia y precisión de los trabajos de investigación biomédicos: la red EQUATOR (Enhancing the QUAlity and Transparency Of health Research). Esta red se compone de expertos en metodología, comunicación y publicación, por lo que incluye profesionales implicados en la calidad de todo el proceso de producción y difusión de los resultados de investigación. Entre otros muchos objetivos, que podéis consultar en su página web, está el de diseñar un conjunto de recomendaciones para la realización y publicación de los diferentes tipos de estudios, lo que da lugar a las diferentes listas de verificación o declaraciones que veremos a continuación.

Quizá la más difundida sea la declaración CONSORT (CONsolidated Standars Of Reporting Trials), que se ocupa de los aspectos de diseño, realización, análisis, validez e interpretación de los ensayos clínicos aleatorizados. Se compone de una lista de verificación (que comprueba el contenido de título, resumen, introducción, métodos, resultados, discusión y otras informaciones, como los datos de registro del ensayo) y de un diagrama de flujo (en el que se describe el paso de todos los participantes a través de todo el estudio).

CONSORT tiene numerosas extensiones para ensayos con distinto tipo de diseño (por grupos, no-inferioridad y equivalencia, pragmáticos), de intervención (tratamientos con hierbas medicinales, no farmacológicos, ocupacionales e, incluso, de acupuntura, homeopáticos, etc.) o de tipo de datos (de daño, de resúmenes, etc.). Para el que quiera más información, existe un catálogo de extensiones no oficiales en Internet que puede consultarse y que es actualizado periódicamente. Además, para los ensayos clínicos no aleatorizados se ha diseñado la declaración TREND (Transparent Reporting of Evaluations with Nonrandomized Designs).

De los estudios observacionales, especialmente los estudios de cohortes, los de casos y controles y los transversales, se encarga la declaración STROBE (STrengthening the Reporting of OBservational studies in Epidemiology). De todas formas, al igual que le ocurría a CONSORT, STROBE tiene multitud de parientes cercanos para controlar la metodología de estudios observacionales de tipos específicos, como STREGA (estudios de asociaciones genéticas), ORION (control de infecciones) y otros muchos para series de casos, estudios longitudinales, etc. Todas estas listas de verificación están disponibles en el sitio web de la declaración STROBE.

Otra de las más extendidas es la declaración STARD (STAndards for the Reporting of Diagnostic studies accuracy), que dedica sus desvelos a mejorar la precisión de los estudios sobre pruebas diagnósticas para permitir una valoración más adecuada de su validez interna y externa. Al igual que CONSORT, se compone de una lista de verificación y de un diagrama de flujo que describe el diseño del estudio y el flujo de pacientes. Una declaración  de similar utilidad es la QUADAS (Quality Assessment of Diagnostic Accuracy Studies), que se centra específicamente en los aspectos de precisión de los estudios de pruebas diagnósticas incluidos en las revisiones sistemáticas.

Y hablando de revisiones sistemáticas, no podía faltar una declaración para ellas: la declaración PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses), que viene a sustituir a la declaración QUOROM (QUality Of Reporting Of Meta-analyses). Basándose en la definición de revisión sistemática de la Cochrane Collaboration, PRISMA nos ayuda a seleccionar, identificar y valorar los estudios incluidos en una revisión. Consta también de una lista de verificación y de un diagrama de flujo en el que se describe el paso de todos los trabajos considerados durante la realización de la revisión. Existe también una declaración menos conocida para la valoración de metaanálisis de estudios observacionales, la declaración MOOSE (Meta-analyses Of Observational Studies in Epidemiology).

Y la lista no acaba aquí, ni muchísimo menos: declaración COREQ (COnsolidated criteria for REporting Qualitative research) para estudios de investigación cualitativa, ISPOR RCT-CEA para estudios de coste efectividad y evaluación económica, SQUIRE (Standards for QUality Improvement Reporting Excellence) para estudios de calidad de vida y mejora de salud, AGREE (Appraisal of Guidelines REsearch and Evaluation) para realización de guías de práctica clínica, GRRS (Guidelines for Reporting Reliability and agreement Studies) para estudios de confiabilidad y acuerdo, etc, etc, etc.

La verdad es que no puede negarse que la cosa tiene un mérito enorme, y me estoy refiriendo al que se ha inventado todos estos nombres tan imaginativos para las diferentes listas y declaraciones. Ahora lo que hace falta es que su esfuerzo, y también el de los que han hecho las declaraciones, se vea premiado con su puesta en práctica para que los trabajos de investigación sirvan más para mejorar nuestra práctica clínica y menos para engordar nuestro currículo o promocionar nuevos productos. Muchas revistas biomédicas ya se han aplicado el cuento y asumen algunas de las declaraciones, de tal forma que solo admiten trabajos que cumplan con todos los puntos de la lista de verificación relacionada como, por ejemplo, la CONSORT para ensayos clínicos.

Para terminar, deciros que todas estas listas de verificación que ayudan al investigador a realizar su trabajo o al editor a decidir si merece la pena publicarlo, pueden servirnos también a nosotros, simples consumidores de literatura médica, para valorar la validez de los estudios y no malgastar tiempo leyendo trabajos que no nos vayan a  aportar nada. Las listas de verificación pueden ser utilizadas como herramientas para la lectura crítica de documentos científicos, al igual que se hace con las plantillas CASPe o con otros recursos. Pero esa es otra historia…

No siempre es mejor prevenir

Cualquier persona sensata como es debido nos dirá que siempre es mejor prevenir que curar. Yo lo he oído millones de veces. Incluso había un programa de televisión que se llamaba “Más vale prevenir”. Además, nadie en su sano juicio duda de los beneficios en salud que la Medicina Preventiva ha conseguido promoviendo la mejora de los estilos de vida, controlando las condiciones del ambiente o con los programas de vacunaciones. Pero, sin embargo, cuando hablamos de programas de cribado (los angloparlantes utilizan una palabra horrorosa: screening), yo os diría que no siempre está tan claro que sea mejor prevenir y que, en algunas ocasiones, es mejor no hacer nada por dos motivos. El primero, porque nuestros recursos son limitados y todo lo que gastemos en cribar saldrá de algún otro sitio que pasará a tener menos recursos. El segundo, porque aunque nos mueva la mejor de las voluntades, si intentamos prevenir de forma indiscriminada podemos producir más daño que beneficio.

            Habrá, pues, que pensar si está justificada cualquier estrategia de cribado antes de ponerla en práctica. La prueba diagnóstica con la que pensemos hacer el cribado tiene que ser sencilla, barata, fiable y con buena aceptabilidad por parte de la población. Es importante no olvidar que a los que vamos a hacer la prueba son individuos sanos a los que puede no apetecerles mucho que les vayamos incordiando. Además, es raro que para confirmar el diagnóstico baste con un solo resultado positivo, y las pruebas de confirmación seguro que son más caras y molestas, cuando no claramente invasoras (pensemos un cribado que haya que confirmar con una biopsia). Habrá que considerar la sensibilidad y especificidad de la prueba ya que, aunque a una prueba de cribado le perdonemos un cierto número de falsos positivos, si el diagnóstico de confirmación es muy caro o muy molesto, mejor que los falsos positivos sean pocos, o el cribado no nos saldrá rentable.

Por otra parte, para que merezca la pena hacer un cribado, la enfermedad que queramos prevenir tiene que tener una fase preclínica larga. Si esto no es así, tendremos pocas oportunidades para detectarla. El problema es, claro está, que las que más nos interesa detectar son las enfermedades más graves, y estas suelen tener las fases preclínicas sin síntomas más cortas.

Además, ¿a quién le hacemos el cribado?. A todo el mundo, me diréis. El problema es que esto es lo más caro, sobre todo teniendo en cuenta que los sanos no suelen ir al médico y vamos a tener que buscarles de forma activa si queremos cribarles (por su bien, eso sí). A los que están enfermos, pero poco todavía, me diréis entonces. Pues poco beneficio, ya que estos, cuando van al médico, están ya fuera del alcance de la prevención (ya están enfermos). Bueno, pues aprovechemos los que van al médico por otros motivos, propondréis alguno. Pues esto, que se llama cribado de oportunidad, es lo que se hace en muchas ocasiones por una cuestión práctica. Sale más barato, pero se pierden los beneficios teóricos del cribado universal. El hacer cribado a un número lo mayor posible tiene especial interés cuando lo que se detectan son factores de riesgo (por ejemplo, hipertensión), ya que, además de las ventajas del tratamiento precoz, tendremos oportunidad de hacer prevención primaria, mucho más económica y con mejores resultados en salud.

Así que, como vemos, hacer cribado puede tener múltiples ventajas que a todo el mundo le resultan evidentes. El problema es que rara vez nos paramos a pensar en el daño que podemos hacer con esta forma de prevención. ¿Cómo es posible que una detección temprana de una enfermedad o la oportunidad de hacer un tratamiento precoz puedan perjudicar a alguien?. Hagamos algunas reflexiones.

La prueba puede doler (un pinchazo) o ser engorrosa (meter las heces de tres días en un bote). Pero si esto os parece una chorrada, pensad en el que tiene un infarto realizando una prueba de esfuerzo, el que tiene un choque anafiláctico por un contraste o el japonés que se gana una perforación durante una colonoscopia. Eso ya es harina de otro costal. Además, la simple perspectiva del cribado puede generar ansiedad o estrés en una persona sana que no debería estar preocupada por ello.

Y que me decís si la prueba es positiva. Imaginaos que, para confirmar el diagnóstico hay que endoscopiar o hacer una biopsia corial, por no hablar de la ansiedad hasta que se descarte el diagnóstico con la prueba de confirmación. Y, aunque se confirme, el beneficio puede ser escaso: ¿qué beneficio tiene para el bienestar de una persona asintomática decirle que tiene una enfermedad, cuando igual no tiene tratamiento o no hay que comenzarlo todavía?. Pero es que, aunque haya tratamiento, éste también puede dañar. Como ejemplo muy al día están los efectos de una prostatectomía profiláctica por un carcinoma de bajo grado detectado con el cribado del PSA: se le puede dejar incontinente o impotente (o las dos cosas) por hacer una intervención que probablemente podría haberse retrasado años.

Pensad siempre que los beneficios potenciales de un cribado en población general sana pueden ser escasos precisamente por eso, porque se trata de personas sanas. Si existe el más mínimo daño que se pueda derivar de las estrategia de cribado o del tratamiento precoz deberemos considerar seriamente si merece la pena realizar el programa de cribado.

Entonces, ¿cuándo hacemos el cribado de una determinada enfermedad?. Lo primero, cuando la carga de enfermedad que produce la patología nos haga pensar que merece la pena. La carga de enfermedad depende de la prevalencia y de la gravedad. Si una enfermedad es muy frecuente pero muy benigna la carga de enfermedad será baja y probablemente no interese cribar. En el caso de que sea muy rara tampoco suele ser rentable cribar, excepto si la enfermedad es muy grave y tiene un tratamiento muy eficaz que previene sus complicaciones. Un ejemplo sería el cribado de hiperfenilalaninemia en recién nacidos.

Lo segundo, tenemos que disponer de una prueba adecuada con las características que hemos comentado, sobre todo que el número de falsos positivos no sea demasiado alto para no tener que andar confirmando el diagnóstico en demasiados sanos y hacer un negocio ruinoso.

Lo tercero, tiene que haber un tratamiento precoz que, además, tiene que ser más eficaz que el habitual al comenzar los síntomas. Además, tenemos que disponer de los recursos para realizar ese tratamiento.

Cuarto, tanto la prueba de cribado como el tratamiento que se derive del resultado positivo tienen que ser seguros. De lo contrario, podríamos hacer más daño que el que queremos evitar.

Y, quinto, debemos hacer un balance entre los costes y los potenciales beneficios del cribado. No hay que olvidar que, aunque la prueba no sea muy cara, se la vamos a hacer a un montón de gente, por lo que tendremos que gastarnos un montón de dinero, recurso más bien escaso en los tiempos que corren.

Para terminar, deciros que todo programa de cribado debe completarse con los estudios que comprueben su efectividad. Esto puede hacerse por métodos directos o indirectos según se compare la posibilidad de cribar o no cribar o se estudien las diferentes intervenciones de la estrategia de cribado por separado. Pero esa es otra historia…

¿Un buen acuerdo?

Todos sabemos que a cuantos menos médicos vayamos, mucho mejor. Y esto por dos razones. La primera, porque si vamos a muchos médicos o estamos muy malos físicamente o estamos muy malos de la cabeza (algunos desgraciados de las dos cosas). Y la segunda, que es la que más me llama la atención, porque cada uno te dice una cosa diferente. Y no es que los médicos no conozcamos el oficio, es que ponerse de acuerdo no es tan sencillo como parece.

Para que os hagáis una idea, el problema empieza ya al querer saber si dos médicos que valoran una misma prueba diagnóstica tienen un buen grado de acuerdo. Veámoslo con un ejemplo.

Supongamos por un momento que soy el gerente del hospital y quiero contratar un patólogo porque el único que tengo está desbordado de trabajo. Reúno a mi patólogo y al candidato y les doy 795 biopsias para que me digan si hay células malignas. Como podéis ver en la primera tabla, mi patólogo encuentra células malignas en 99 de las biopsias, mientras que el segundo las ve en 135 (no os asustéis, esto es solo un ejemplo, en la vida real no hay tanta diferencia, ¿verdad?). Nos preguntamos qué grado de acuerdo o, mejor dicho, concordancia hay entre los dos. Lo primero que se nos ocurre es ver en cuántas biopsias están de acuerdo y lo calculamos: los dos coinciden en 637 biopsias normales y en 76 en las que ven células malignas, luego el porcentaje de casos en los que están de acuerdo puede calcularse como (637+76)/795 = 0,896. ¡Albricias!, nos decimos, los dos están de acuerdo en casi el 90% de los casos. La cosa no es tan mala como parecía viendo las discrepancias de la tabla.

Pero resulta que cuando estoy a punto de contratar al nuevo patólogo me pregunto si no podría haber acertado por pura casualidad. Así que se me ocurre un experimento estúpido: tomo las 795 biopsias y tiro una moneda al aire, etiquetando cada una como normal, si sale cara, o patológica, si sale cruz.

La moneda me dice que tengo 400 biopsias normales y 395 con células malignas. Si calculo la concordancia entre la moneda y el patólogo, veo que es de (356+55)/795 = 0,516, ¡52%!. Esto sí que es sorprendente, por puro azar están de acuerdo en la mitad de los casos (sí, sí, ya sé que los más listillos no se sorprenderán y me dirán que hay un 50% de cada resultado de lanzar la moneda). Así que empiezo a pensar formas de ahorrar dinero para mi hospital y se me ocurre otro experimento que esta vez no es solo estúpido, sino totalmente ridículo: le ofrezco a mi primo que haga la prueba en lugar de lanzar la moneda (por esta vez voy a dejar tranquilo a mi cuñado).

El problema, claro está, es que mi primo no es médico y, aunque es un tío majo, de anatomía patológica no tiene ni idea. Así que cuando empieza a ver las células de colores piensa que es imposible que semejante belleza esté producida por células malignas y da todos los resultados como normales. Cuando vemos la tabla con los resultados lo primero que se me ocurre es quemarla, pero por pura curiosidad calculo la concordancia entre mi primo y mi patólogo y veo que es de 696/795 = 0,875, ¡¡87%!!. Conclusión: igual me trae más cuenta contratar a mi primo que a un nuevo patólogo.

A estas alturas pensaréis que hoy se me ha olvidado tomar la medicación, pero la verdad es que todos estos ejemplos sirven para demostraros que, si queremos saber cuál es la concordancia entre dos observadores, primero tenemos que desembarazarnos del efecto del engorroso y sempiterno azar. Y para eso los matemáticos han inventado un estadístico que llaman kappa, el coeficiente de concordancia interobservador.

Kappa lo que hace es excluir de la concordancia observada aquella que es debida al azar, obteniendo un valor más representativo de la fuerza de la concordancia entre los observadores. Su fórmula es un cociente en cuyo numerador se representa la diferencia entre la concordancia observada y la debida al azar y en cuyo denominador figura el complementario de la concordancia debida al azar: (Po-Pa)/(1-Pa).

La Po de nuestro ejemplo con los dos patólogos ya la conocemos: 0,89. Para calcular la Pa debemos calcular los valores teóricos esperados de cada celda de la tabla, de forma similar a como recordaréis de la prueba de la chi cuadrado: el valor esperado de cada celda es el producto de los totales de su fila y columna dividido por el total de la tabla. Como ejemplo, en nuestra tabla el valor esperado de la primera celda es (696×660)/795 = 578. Con los valores esperados calculamos la probabilidad de acuerdo debido al azar empleando el mismo método que usamos antes para la observada: (578+17)/795 = 0,74.

Y ahora ya podemos calcular kappa = (0,89-0,74)/(1-0,74) = 0,57. ¿y qué hacemos con el 0,57?. Podemos hacer lo que se nos ocurra, menos multiplicarla por cien, ya que este valor no representa un verdadero porcentaje. Kappa puede valer de -1 a +1. Valores negativos indican que la concordancia es peor de la que podría esperarse por azar. Un valor de 0 indica que la concordancia es similar a la que se obtendría tirando una moneda. Valores mayores de 0 indican que hay concordancia leve (0,01-0,20), aceptable (0,21-0,40), moderada (0,41-0,60), considerable (0,61-0,80) o casi perfecta (0,81-1,00). En nuestro caso, hay una concordancia bastante buena entre los dos patólogos. Si tenéis curiosidad, calculad la kappa de mi primo y veréis que no es mejor que tirar la moneda.

Kappa puede calcularse también si tenemos medidas de varios observadores o varios resultados de una observación, solo que las tablas se ponen tan antipáticas que es mejor utilizar un programa estadístico para calcularla que, ya de paso, nos puede dar su intervalo de confianza.

De todas formas, no confiéis mucho en la kappa, ya que requiere que no haya mucha diferencia entre las celdas de la tabla. Si alguna de las categorías tiene pocos casos el coeficiente tenderá a subestimar la concordancia real aunque ésta sea muy buena.

Por último, deciros que, aunque en todos nuestros ejemplos hemos visto una prueba con un resultado dicotómico, es posible también calcular la concordancia entre observadores que nos den un resultado cuantitativo (una escala de puntuación, por ejemplo). Claro que para eso tenemos que utilizar otra técnica estadística como la de Bland-Altman, pero esa es otra historia…