Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Entradas etiquetadasExactitud
image_pdf

Una elección importante

La vida está llena de decisiones importantes. Decidimos qué estudiar. A veces, muy pocas, podemos decidir dónde trabajar. Decidimos si nos casamos y con quién (o eso nos parece). Decidimos dónde vivimos, qué coche compramos, etc. Y la cagamos un número de veces considerablemente más elevado del deseable. ¿Creéis que no?. Entonces explicadme el significado de ese lamento que se oye con tanta frecuencia y que reza así: “si se viviese dos veces…”. Pues eso.

Por eso, antes de tomar una decisión hay que valorar cuidadosamente las alternativas de que disponemos. Y esto, válido para la mayor parte de los aspectos de la vida normal, es aplicable también  al método científico, con la ventaja añadida de que suele estar más claramente establecido cuál puede ser la elección más correcta.

Y, ya que hablamos de elegir, supongamos que queremos tener una idea de cuál va a ser el resultado de las próximas elecciones. La forma de obtener el dato más aproximado sería preguntar a todos los votantes por su intención de voto, pero a nadie se le escapa que esto puede ser imposible desde un punto de vista práctico. Pensemos en un país grande con cincuenta millones de votantes. En estos casos lo que hacemos es elegir un subconjunto de la población, al que llamamos muestra, hacemos la encuesta entre sus componentes y estimamos el resultado en la población general.

Pero podemos preguntarnos, ¿es fiable esta estimación?. Y la respuesta es sí, siempre que empleemos una técnica de muestreo válida que nos permita obtener una muestra representativa de la población. Todo dependerá de dos características del muestreo: su exactitud y su precisión.

La exactitud determina la proximidad entre el resultado que obtenemos en la muestra y el valor real inaccesible en la población y depende del tipo de muestra elegido. Para que sea exacta, la muestra ha de ser representativa, lo que quiere decir que la distribución de la variable de estudio (y de las variables relacionadas) tiene que ser similar a la de la población. Habitualmente se empieza definiendo el marco muestral, que es el listado o forma de identificar a los individuos de la población a los que podemos acceder, llamados unidades de muestreo, y sobre los que se aplicará el proceso de selección. Pensemos, por ejemplo, en un censo de población, un listado de historias clínicas, etc. La elección del marco debe hacerse de forma muy cuidadosa, ya que condicionará la interpretación de los resultados.

Por otra parte, la precisión depende del tamaño de la muestra y de la variabilidad entre los participantes, como recordaréis de la fórmula de los intervalos de confianza (IC95% = valor ± 1.96 x error estándar). Como el error estándar es el cociente de la desviación típica entre la raíz cuadrada del tamaño de la muestra (n), a mayor desviación típica o menor tamaño de muestra, mayor amplitud del intervalo de confianza y menor precisión. Pero esto es una verdad a medias que solo sirve si asumimos que la población tiene una tamaño infinito porque, en realidad, el error estándar debe multiplicarse por un factor de corrección, para muestras finitas, que tenga en cuenta el tamaño de la población (N), con lo que la verdadera fórmula del intervalo sería la siguiente:

IC95\%= valor\pm\1,96\times error\ est\acute{a}ndar\times\sqrt{1-\frac{n}{N}}¡Alto!. Ahora no aceleréis el ritmo de lectura porque haya escrito una fórmula y volved a mirarla para contemplar, una vez más, la magia del teorema central del límite, el Sancta Sanctórum de la inferencia estadística. Si la población (N) es muy grande, el cociente rápidamente se hace casi cero y el error se multiplica casi por uno, con lo cual prácticamente el intervalo no cambia. Y esto no es ninguna tontería, ya que explica por qué con una muestra de 1200 votantes podemos estimar, con muy poco margen de error, tanto las elecciones para alcalde de Nueva York, como las de presidente de EE.UU. o las de emperador del Mundo mundial, si lo tuviésemos (siempre, claro está, que cada muestra sea representativa de cada censo electoral). Por otra parte, si n se va aproximando a N, el factor de corrección se aproxima a cero y el intervalo se va haciendo cada vez más estrecho. Esto explica que, si n=N, el valor que obtenemos coincide con el real de la población, según el teorema de Pero Grullo.

Así que, siendo tal el poder de una insignificante muestra, a nadie puede extrañar que sean diversas las formas de elegirla. Las primeras que vamos a ver son las técnicas de muestreo probabilístico, en las que todos los sujetos tienen una probabilidad conocida, distinta de cero, de ser seleccionados, aunque no es obligatorio que todos tengan la misma probabilidad. Normalmente se utilizan métodos aleatorios para la selección, con lo que se evita la subjetividad del investigador y se minimiza la posibilidad de que, por azar, la muestra no sea representativa, lo que se conoce como error aleatorio o de muestreo. Como siempre, no podemos desembarazarnos del azar, pero sí cuantificarlo.

El más conocido es el muestreo aleatorio simple, en el que cada unidad muestral del marco tiene la misma probabilidad de ser elegido. Lo más frecuente es realizar un muestreo sin sustitución, que quiere decir que, una vez elegido, el participante no se reintegra a la población para que no se pueda elegir más de una vez. Para hacer las cosas bien, el proceso de selección a partir del marco se hace con una tabla de números aleatorios o un algoritmo informático.

En ocasiones, la variable no se distribuye uniformemente en la población. En estos casos, para que la muestra sea representativa puede dividirse la población en estratos y hacer un muestreo aleatorio en cada estrato. Para poder realizar esta técnica, llamada muestreo aleatorio estratificado, necesitamos conocer la distribución de la variable en la población. Además, los estratos deben ser excluyentes entre sí, de forma que la variabilidad dentro de cada uno sea mínima y la variabilidad entre estratos sea la mayor posible. Si los estratos tienen un tamaño similar el muestreo se hace de forma proporcional, pero si alguno es más pequeño puede sobre representarse e incluir más unidades de muestreo que el resto. El problema es que el análisis se complica, ya que hay que ponderar los resultados de cada estrato en función de su contribución al resultado global, pero los programas estadísticos hacen estas correcciones sin inmutarse. La ventaja de esta técnica es que las estimaciones que se obtienen, si se analizan los datos correctamente, son más precisas, ya que la varianza global se calcula a partir de la de los estratos, que siempre será menor que la de la población general. Este tipo de muestreo es muy útil cuando la variable de estudio se influye por otras variables de la población. Si queremos estudiar, por ejemplo, la prevalencia de cardiopatía isquémica puede ser útil estratificar por sexo, peso, edad, fumador o no, o lo que pensemos que pueda influir en el resultado.

Un paso más allá de este enfoque está el del muestreo en etapas múltiples o muestreo por conglomerados (en clusters, para los que lean inglés). En este caso la población se divide en unidades primarias de muestreo que, a su vez, se dividen en unidades secundarias en las que se lleva a cabo el proceso de selección. Este tipo, con todas las etapas que nos interese en cada caso, es muy usado en estudios escolares, en los que se van separando por nivel socioeconómico, tipo de enseñanza, edad, curso o lo que se nos ocurra. El problema de este diseño, aparte de su complejidad de implementación y análisis de resultados, es que podemos tener sesgos si los miembros de una unidad se parecen mucho. Pensad, por ejemplo, que queremos estudiar la tasa de vacunaciones en una ciudad: dividimos la ciudad en zonas, de cada zona seleccionamos al azar unas familias y vemos cuántos niños están vacunados. Lógicamente, si un niño está vacunado seguramente sus hermanos también lo estarán, con lo que puede sobreestimarse la tasa de vacunación global de la ciudad si en el muestreo nos tocan muchas familias numerosas de las zonas con mejor nivel sanitario.

El muestreo sistemático se utiliza con frecuencia en estudios en los que el marco muestral no existe o es incompleto. Por ejemplo, si queremos probar un antigripal, no sabemos quién va a contraer la gripe. Elegimos una constante de aleatorización (k) y esperamos tranquilamente a que lleguen los enfermos a la consulta. Cuando hayan llegado los k primeros, elegimos uno al azar y, a partir de ahí, incluimos a uno de cada k que vengan con gripe hasta completar el tamaño muestral deseado.

En todas las técnicas anteriores se conocía la probabilidad de cada integrante de la población de ser seleccionado. Sin embargo, esta probabilidad se desconoce en los modelos no probabilísticos, en los que no se utilizan métodos aleatorios, por lo que hay que tener especial cuidado con la representatividad de la muestra y la presencia de sesgos.

El muestreo consecutivo se usa con frecuencia en ensayos clínicos. En el ejemplo anterior de la gripe podríamos enrolar en el ensayo a los n primeros que acudiesen a consulta y que cumpliesen los criterios de inclusión y exclusión del ensayo. Otra posibilidad es la de inclusión de voluntarios. Esta no es muy recomendable, ya que los sujetos que aceptan participar en un estudio sin que nadie se lo pida pueden presentar características que afecten la representatividad de la muestra.

Los especialistas en mercado utilizan mucho el muestreo por cuotas, seleccionando a los sujetos según la distribución de las variables que a ellos les interesan, pero este tipo de diseño se emplea poco en medicina. Y, por último, comentemos el uso de técnicas adaptativas, como el llamado muestreo en bola de nieve, muestreo en paseos aleatorios o muestreo en red. Por ejemplo, pensemos que queremos hacer un estudio con adictos a alguna sustancia ilegal. Nos costará encontrar a los participantes, pero una vez que encontremos al primero podemos preguntarle si conoce a alguien más que pudiese participar. Esta técnica que, aunque pueda parecerlo, no me acabo de inventar, tiene su utilidad para poblaciones muy difíciles de alcanzar.

Y con esto terminamos con las técnicas que tratan de conseguir el tipo de muestra más adecuado para nuestro estudio. Nos quedaría hablar del tamaño de la muestra y de cómo debe calcularse previamente al inicio del estudio para que no sea ni demasiado grande, ni demasiado pequeña. Pero esa es otra historia…

Hay que saber lo que se pide

A diario encontramos artículos que nos muestran nuevas pruebas diagnósticas que parecen haber sido diseñadas para solucionar todos nuestros problemas. Pero no debemos caer en la tentación de hacer caso a todo lo que leamos sin recapacitar antes un poco en lo que hemos leído. Al fin y al cabo, si hiciésemos caso a todo lo que leemos estaríamos hinchados de beber Coca-Cola.

Ya sabemos que una prueba diagnóstica no nos va a decir si una persona está o no enferma. Su resultado únicamente nos permitirá aumentar o disminuir la probabilidad de que el individuo esté enfermo o no, de forma que nosotros nos atreveremos a confirmar o descartar el diagnóstico, pero siempre con cierto grado de incertidumbre. Cualquiera tiene cierto riesgo de padecer cualquier enfermedad, que no es más que la prevalencia de la enfermedad en la población general. Pero si, además de pertenecer a la población, uno tiene la desgracia de tener síntomas, esa probabilidad irá aumentando hasta alcanzar un primer umbral en el que se justifique realizar pruebas diagnósticas. La utilidad de la prueba diagnóstica estará en su capacidad para disminuir la probabilidad por debajo de este umbral (y descartar el diagnóstico) o, por el contrario, en aumentarla hasta el umbral en el que se justifique iniciar el tratamiento. Claro que a veces la prueba nos deja a medio camino y tenemos que hacer pruebas adicionales antes de confirmar el diagnóstico con la seguridad suficiente como para comenzar el tratamiento.

Los estudios de pruebas diagnósticas deben proporcionarnos información sobre la capacidad de una prueba para producir los mismos resultados cuando se realiza en condiciones similares (fiabilidad) y sobre la exactitud con la que las mediciones reflejan aquello que miden (validez). Pero, además, deben darnos datos sobre su capacidad discriminatoria (sensibilidad y especificidad), su rendimiento clínico (valor predictivo positivo y valor predictivo negativo) y sobre otros aspectos que nos permitan valorar si nos va a merecer la pena practicarla en nuestros pacientes. Y para comprobar si un estudio nos proporciona la información adecuada tenemos que hacer una lectura crítica basada en nuestros tres pilares: validez, importancia y aplicabilidad.

Comencemos por la VALIDEZ. Lo primero será hacernos unas preguntas básicas de eliminación o criterios primarios sobre el estudio. Si la respuesta  a estas preguntas es no, probablemente lo mejor que podamos hacer es usar el artículo para envolver el bocadillo de media mañana.

¿Se ha comparado la prueba diagnóstica de forma ciega e independiente con un patrón de referencia adecuado?. Hay que revisar que el resultado de la prueba de referencia no se interprete de forma diferente según el resultado de la prueba de estudio, ya que caeríamos en un sesgo de incorporación, que podría invalidar los resultados. Otro problema que puede surgir es que el patrón de referencia tenga muchos resultados poco concluyentes. Si cometemos el error de excluir estos casos dudosos incurriremos en un sesgo de exclusión de indeterminados que, además de sobrestimar la sensibilidad y la especificidad de la prueba, comprometería la validez externa del estudio, que solo sería aplicable a los pacientes con resultado no dudoso.

¿Los pacientes abarcan un espectro similar al que nos vamos a encontrar en nuestra práctica?. Deben estar claros los criterios de inclusión del estudio, en el que deben participar sanos y enfermos con distinta gravedad o evolución de la enfermedad. Como ya sabemos, la prevalencia influye en el rendimiento clínico de la prueba, con lo que si la validamos, por ejemplo, en un centro terciario (estadísticamente la probabilidad de estar enfermo será mayor) puede sobrestimarse su capacidad diagnóstica si va a utilizarse en un centro de Atención Primaria o en población general (en el que la proporción de enfermos será menor).

Llegados a este punto, si creemos que merece la pena seguir leyendo, pasaremos a los criterios secundarios, que son aquellos que aportan un valor añadido al diseño del estudio. Otra pregunta que debemos hacernos es: ¿influyeron los resultados de la prueba de estudio para decidir si se hacía la de referencia?. Hay que comprobar que no se haya producido un sesgo de secuencia o sesgo de verificación diagnóstica, mediante el cual excluimos a los que tienen la prueba negativa. Aunque esto es habitual en la práctica corriente (empezamos por pruebas sencillas y solo hacemos las caras o las invasoras en los casos positivos), el hacerlo en un estudio de pruebas diagnósticas compromete la validez de los resultados. Ambas pruebas deben hacerse de forma independiente y ciega, de forma que la subjetividad del observador no influya en los resultados (sesgo de revisión o sesgo de valoración ciega). Por último, ¿se describe el método con el detalle suficiente para permitir su reproducción?. Debe quedar claro qué se ha considerado normal y anormal y cuáles han sido los criterios para definir la normalidad y la forma de interpretar los resultados de la prueba.

Una vez analizada la validez interna del estudio pasaremos a considerar la IMPORTANCIA de los datos presentados. El objetivo de un estudio de diagnóstico es determinar la capacidad de una prueba para clasificar correctamente a los individuos según la presencia o ausencia de enfermedad. En realidad, y para ser más exactos, queremos saber cómo aumenta la probabilidad de estar enfermo tras el resultado de la prueba (probabilidad postprueba). Es, por tanto, esencial que el estudio nos informe acerca de la dirección y magnitud de este cambio (preprueba/postprueba), que sabemos depende de las características de la prueba y, en gran medida, de la prevalencia o probabilidad preprueba.

¿Nos presenta el trabajo las razones de verosimilitud o es posible calcularlas a partir de los datos?. Este dato es fundamental, ya que sin él no podemos calcular el impacto clínico de la prueba de estudio. Hay que tener especial precaución con las pruebas de resultado cuantitativo en las que es el investigador el que establece un punto de corte de normalidad. Cuando se utilizan curvas ROC es frecuente desplazar el punto de corte para favorecer la sensibilidad o la especificidad de la prueba, pero tenemos que valorar siempre cómo afecta esta medida a la validez externa del estudio, ya que puede limitar su aplicabilidad a un grupo determinado de pacientes.

¿Son fiables los resultados?. Habrá que determinar si los resultados son reproducibles y cómo pueden verse afectados por variaciones entre diferentes observadores o al repetir la prueba de forma sucesiva. Pero no solo hay que valorar la fiabilidad, sino también cuán precisos son los resultados. El estudio se hace sobre una muestra de pacientes, pero debe proporcionar una estimación de sus valores en la población, por lo que los resultados deben expresarse con sus correspondientes intervalos de confianza.

El tercer pilar de la lectura critica es el de la APLICABILIDAD o validez externa, que nos ayudará a determinar si los resultados son útiles para nuestros pacientes. En este sentido, debemos hacernos tres preguntas. ¿Disponemos de esta prueba y es factible realizarla en nuestros pacientes?. Si no disponemos de la prueba lo único que habremos conseguido leyendo el estudio es aumentar nuestros vastos conocimientos. Pero si disponemos de ella debemos preguntarnos si nuestros pacientes cumplirían los criterios de inclusión y exclusión del estudio y, en caso de que no los cumplan, pensar cómo pueden afectar estas diferencias la aplicabilidad de la prueba.

La segunda pregunta es si conocemos la probabilidad preprueba de nuestros pacientes. Si nuestra prevalencia es muy diferente de la del estudio se puede modificar la utilidad real de la prueba. Una solución puede ser hacer un análisis de sensibilidad valorando cómo se modificarían los resultados del estudio estudiando varios valores de probabilidad pre y postprueba que sean clínicamente razonables.

Por último, deberíamos hacernos la pregunta más importante: ¿la probabilidad postprueba puede hacer cambiar nuestra actitud terapéutica y servir de ayuda para el paciente?. Por ejemplo, si la probabilidad preprueba es muy baja, probablemente la probabilidad postprueba sea también muy baja y no alcanzará el umbral de justificación terapéutica, con lo que igual no merece la pena gastar dinero y esfuerzos con esa prueba. Por el contrario, si laprobabilidad preprueba es muy alta, en algunos casos merecerá la pena tratar sin hacer ninguna prueba, salvo que el tratamiento sea muy costoso o peligroso. Como siempre, en el medio estará la virtud y será en esas zonas intermedias donde más nos podamos beneficiar del uso de la prueba diagnóstica en cuestión. En cualquier caso, no nos olvidemos nunca de nuestro jefe (me refiero al paciente, no al otro): no hay que contentarse solo con estudiar la eficacia o el coste-efectividad, sino que debemos considerar también los riesgos, molestias y preferencias del paciente, así como las consecuencias que le puede acarrear la realización o no de la prueba diagnóstica.

Si me permitís un consejo, cuando estéis valorando un trabajo sobre pruebas diagnósticas os recomiendo el uso de las plantillas CASPe, que podéis descargaros de su página web. Os ayudarán a hacer la lectura critica de una manera sistemática y sencilla.

Para terminar, comentaros que todo lo dicho hasta ahora vale para los trabajos específicos de pruebas diagnósticas. Sin embargo, la valoración de pruebas diagnósticas puede formar parte de estudios observacionales como los de cohortes o los de casos y controles, que pueden tener alguna peculiaridad en la secuencia de realización y en los criterios de validación de la prueba de estudio y del patrón de referencia, pero esa es otra historia…