Ciencia sin seso… locura doble

Píldoras sobre medicina basada en pruebas

Guardado porFebrero 2013
image_pdf

El cribado imperfecto

Nadie es perfecto. Es un hecho. Y un consuelo también. Porque el problema no es ser imperfecto, que es algo inevitable. El verdadero problema estriba en creerse perfecto, en ser ignorante de las propias limitaciones. Y lo mismo ocurre con otras muchas cosas, como las pruebas diagnósticas que utilizamos en medicina.

Aunque lo de las pruebas diagnósticas tiene mucho más delito porque, más allá de su imperfección, se permiten tratar de forma diferente a sanos y enfermos. ¿No me creéis?. Vamos a hacer unas reflexiones.

Venn_DcoPara empezar, echad un vistazo al diagrama de Venn que os he dibujado. ¡Qué recuerdos de infancia me traen estos diagramas!. El cuadrado simboliza nuestra población en cuestión. De la diagonal para arriba están los enfermos (ENF) y de la diagonal para abajo los sanos (SAN), con lo que cada área representa la probabilidad de estar SAN o ENF. El área del cuadrado, obviamente, vale 1: es seguro que uno está o enfermo o sano, situaciones mutuamente excluyentes. La elipse engloba a los sujetos a los que realizamos la prueba diagnóstica y obtenemos un resultado positivo (POS). En un mundo perfecto, toda la elipse estaría por encima de la diagonal, pero en el mundo imperfecto real la elipse está cruzada por la diagonal, con lo que los resultados POS pueden ser verdaderos (VP) o falsos (FP), estos últimos cuando se obtienen en sanos. La superficie fuera de la elipse serían los resultados negativos (NEG) que, como podéis ver, también se dividen en verdaderos y falsos (VN, FN).

Ahora traslademos esto a la típica tabla de contingencia que definiría las probabilidades de las diferentes opciones y pensemos en una situación en la que todavía no hemos realizado la prueba. En este caso, las columnas condicionan las probabilidades de los sucesos de las filas. Por ejemplo, la casilla superior izquierda representa la probabilidad de obtener POS en los ENF (una vez que uno está enfermo, ¿qué probabilidad hay de obtener un resultado positivo?), lo que denominamos sensibilidad (SEN). Por su parte, la inferior derecha representa la probabilidad de obtener un NEG en un SAN, lo que llamamos especificidad (ESP). El total de la primera columna representa la probabilidad de estar enfermo, que no es más que la prevalencia (PRV) y, así, podemos discernir qué significado tiene la probabilidad de cada celda. Esta tabla nos proporciona dos características de la prueba, SEN y ESP, que, como sabemos, son intrínsecas a la prueba siempre que se realice en unas condiciones similares, aunque las poblaciones sean diferentes.

Prob_pre_post_DCO
¿Y qué pasa con la tabla de contingencia una vez que hemos realizado la prueba?. Se produce un cambio sutil, pero muy importante: ahora son las filas las que condicionan las probabilidades de los sucesos de las columnas. Los totales de la tabla no cambian pero fijaos que, ahora, la primera celda representa la probabilidad de estar ENF una vez que se ha dado POS (cuando da positivo, ¿qué probabilidad hay de que realmente esté enfermo?) y esto ya no es la SEN, sino el valor predictivo positivo (VPP). Lo mismo ocurre con la celda inferior derecha, que ahora representa la probabilidad de estar SAN una vez que se obtiene un NEG: valor predictivo negativo (VPN).

Vemos, pues, que antes de realizar la prueba conoceremos habitualmente su SEN y ESP, mientras que una vez realizada, lo que obtendremos será sus valores predictivos positivo y negativo, quedando estas cuatro características de la prueba ligadas para siempre entre sí gracias a la magia del teorema de Bayes. Claro que, en el caso del VPP y VPN hay un quinto en discordia: la prevalencia. Ya sabemos que los valores predictivos varían en función de la PRV de la enfermedad en la población, aunque se mantengan sin cambios la SEN y ESP de la prueba.

Y todo esto tiene su traducción práctica. Vamos a inventarnos un ejemplo para liarlo todo un poco más. cribado_imperfectoSupongamos que tenemos una población de un millón de habitantes a la que realizamos un cribado de fildulastrosis. Sabemos, por estudios previos, que la prueba tiene una SEN de 0,66 y una ESP de 0,96, y que la prevalencia de fildulastrosis es de 0,0001 (1 por cada 10.000), enfermedad rara que os aconsejo no os molestéis en buscar, por si a alguien se le ha ocurrido.

Sabiendo la PREV es fácil calcular que en nuestra población hay 100 ENF. De éstos, 66 darán POS (SEN=0,66) y 34 darán NEG. Por otra parte, habrá 990.900 sanos, de los que el 96% (959.904) darán NEG (ESP=0,96) y el resto (39.996) darán POS. En resumen, que obtendremos 40.062 POS, de los cuales 39.996 serán FP. Que nadie se asuste del alto número de falsos positivos. Esto es debido a que hemos elegido una enfermedad muy rara, por lo que hay muchos FP a pesar de que la ESP sea bastante alta. Pensad que, en la vida real, habría que hacer pruebas de confirmación a todos estos sujetos para acabar confirmando el diagnóstico solo en 66 personas. Por eso es tan importante pensar bien si merece la pena hacer un cribado antes de ponerse a buscar enfermedades en la población. Por eso, y por otras razones.

Ya podemos calcular los valores predictivos. El VPP será el cociente entre POS verdaderos y el total de POS: 66/40.062 = 0,0016. O sea, que habrá un enfermo por cada 1.500 positivos, más o menos. De manera similar, el VPN será el cociente entre NEG verdaderos y NEG totales: 959.904/959.938 = 0,99. Como era de esperar, dada la alta ESP de la prueba, un resultado negativo hace altamente improbable que uno esté enfermo.

¿Qué os parece?. ¿Es útil la prueba como herramienta de cribado poblacional con ese número de falsos positivos y un VPP de 0,0016?. Pues, aunque pueda parecer raro, si lo pensamos un momento, no es tan mala. La probabilidad preprueba de estar ENF es 0,0001 (la PRV). La probabilidad postprueba es 0,0016 (el VPP). Luego su cociente tiene un valor de 0,0016/0,0001 = 16, lo que quiere decir que hemos multiplicado por 16 nuestra capacidad de detectar al enfermo. La prueba, pues, no parece tan mala, aunque habrá que tener en cuenta otros muchos factores antes de ponernos a cribar.

Todo esto que hemos visto hasta ahora tiene una aplicación práctica adicional. Supongamos que solo conocemos SEN y ESP, pero desconocemos la PRV de la enfermedad en la población que hemos cribado. ¿Podemos estimarla a partir de los resultados de la prueba de cribado?. La respuesta es, claro está, que sí.

Imaginemos de nuevo nuestra población de un millón de sujetos. Les hacemos la prueba y obtenemos 40.062 positivos. El problema aquí radica en que parte de estos (la mayoría) son FP. Además, no sabemos cuántos enfermos han dado negativo (FN). ¿Cómo podemos conocer entonces el número de enfermos de la población?. Pensando un poco.

Ya hemos dicho que el número de enfermos será igual al número de positivos menos los FP más los FN:

Nº enfermos = POS totales – número de FP + número de FN

Los POS los tenemos: 40.062. Los FP serán aquéllos sanos (1-PRV) que den positivo siendo sanos (los sanos que no dan negativo: 1-ESP). Luego el número total de FP será:

FP = (1-PRV)(1-EPS) x n (1 millón, el tamaño de la población).

Por último, los FN serán los enfermos (PRV) que no den positivo (1-SEN). Luego el número total de FN será:

FN = PRV(1-SEN) x n (1 millón, el tamaño de nuestra población).

Si sustituimos los totales de FP y FN en la primera ecuación por los valores que acabamos de deducir, podremos despejar la PRV, obteniendo la fórmula siguiente:

 PRV= \frac{\frac{POS}{n}-(1-ESP)}{SEN - (1-ESP)}

Ya podemos calcular la prevalencia en nuestra población:

 PRV= \frac{\frac{40.062}{1.000.000}-(1-0,96)}{0,66 - (1-0,96)}= \frac{0,040062 - 0,04}{0,66 -0,04}= \frac{0,000062}{0,062}= 0,0001 (1 \ por\ cada\ 10.000)

Bueno, creo que se me acaba de fundir un lóbulo, así que vamos a tener que dejarlo aquí. Una vez más hemos contemplado la magia y el poder de los números y hemos visto cómo podemos hacer trabajar a nuestro favor las imperfecciones de nuestras herramientas. Podríamos, incluso, ir un poco más allá y calcular la precisión de la estimación que hemos realizado. Pero esa es otra historia…

Una elección importante

La vida está llena de decisiones importantes. Decidimos qué estudiar. A veces, muy pocas, podemos decidir dónde trabajar. Decidimos si nos casamos y con quién (o eso nos parece). Decidimos dónde vivimos, qué coche compramos, etc. Y la cagamos un número de veces considerablemente más elevado del deseable. ¿Creéis que no?. Entonces explicadme el significado de ese lamento que se oye con tanta frecuencia y que reza así: “si se viviese dos veces…”. Pues eso.

Por eso, antes de tomar una decisión hay que valorar cuidadosamente las alternativas de que disponemos. Y esto, válido para la mayor parte de los aspectos de la vida normal, es aplicable también  al método científico, con la ventaja añadida de que suele estar más claramente establecido cuál puede ser la elección más correcta.

Y, ya que hablamos de elegir, supongamos que queremos tener una idea de cuál va a ser el resultado de las próximas elecciones. La forma de obtener el dato más aproximado sería preguntar a todos los votantes por su intención de voto, pero a nadie se le escapa que esto puede ser imposible desde un punto de vista práctico. Pensemos en un país grande con cincuenta millones de votantes. En estos casos lo que hacemos es elegir un subconjunto de la población, al que llamamos muestra, hacemos la encuesta entre sus componentes y estimamos el resultado en la población general.

Pero podemos preguntarnos, ¿es fiable esta estimación?. Y la respuesta es sí, siempre que empleemos una técnica de muestreo válida que nos permita obtener una muestra representativa de la población. Todo dependerá de dos características del muestreo: su exactitud y su precisión.

La exactitud determina la proximidad entre el resultado que obtenemos en la muestra y el valor real inaccesible en la población y depende del tipo de muestra elegido. Para que sea exacta, la muestra ha de ser representativa, lo que quiere decir que la distribución de la variable de estudio (y de las variables relacionadas) tiene que ser similar a la de la población. Habitualmente se empieza definiendo el marco muestral, que es el listado o forma de identificar a los individuos de la población a los que podemos acceder, llamados unidades de muestreo, y sobre los que se aplicará el proceso de selección. Pensemos, por ejemplo, en un censo de población, un listado de historias clínicas, etc. La elección del marco debe hacerse de forma muy cuidadosa, ya que condicionará la interpretación de los resultados.

Por otra parte, la precisión depende del tamaño de la muestra y de la variabilidad entre los participantes, como recordaréis de la fórmula de los intervalos de confianza (IC95% = valor ± 1.96 x error estándar). Como el error estándar es el cociente de la desviación típica entre la raíz cuadrada del tamaño de la muestra (n), a mayor desviación típica o menor tamaño de muestra, mayor amplitud del intervalo de confianza y menor precisión. Pero esto es una verdad a medias que solo sirve si asumimos que la población tiene una tamaño infinito porque, en realidad, el error estándar debe multiplicarse por un factor de corrección, para muestras finitas, que tenga en cuenta el tamaño de la población (N), con lo que la verdadera fórmula del intervalo sería la siguiente:

IC95\%= valor\pm\1,96\times error\ est\acute{a}ndar\times\sqrt{1-\frac{n}{N}}¡Alto!. Ahora no aceleréis el ritmo de lectura porque haya escrito una fórmula y volved a mirarla para contemplar, una vez más, la magia del teorema central del límite, el Sancta Sanctórum de la inferencia estadística. Si la población (N) es muy grande, el cociente rápidamente se hace casi cero y el error se multiplica casi por uno, con lo cual prácticamente el intervalo no cambia. Y esto no es ninguna tontería, ya que explica por qué con una muestra de 1200 votantes podemos estimar, con muy poco margen de error, tanto las elecciones para alcalde de Nueva York, como las de presidente de EE.UU. o las de emperador del Mundo mundial, si lo tuviésemos (siempre, claro está, que cada muestra sea representativa de cada censo electoral). Por otra parte, si n se va aproximando a N, el factor de corrección se aproxima a cero y el intervalo se va haciendo cada vez más estrecho. Esto explica que, si n=N, el valor que obtenemos coincide con el real de la población, según el teorema de Pero Grullo.

Así que, siendo tal el poder de una insignificante muestra, a nadie puede extrañar que sean diversas las formas de elegirla. Las primeras que vamos a ver son las técnicas de muestreo probabilístico, en las que todos los sujetos tienen una probabilidad conocida, distinta de cero, de ser seleccionados, aunque no es obligatorio que todos tengan la misma probabilidad. Normalmente se utilizan métodos aleatorios para la selección, con lo que se evita la subjetividad del investigador y se minimiza la posibilidad de que, por azar, la muestra no sea representativa, lo que se conoce como error aleatorio o de muestreo. Como siempre, no podemos desembarazarnos del azar, pero sí cuantificarlo.

El más conocido es el muestreo aleatorio simple, en el que cada unidad muestral del marco tiene la misma probabilidad de ser elegido. Lo más frecuente es realizar un muestreo sin sustitución, que quiere decir que, una vez elegido, el participante no se reintegra a la población para que no se pueda elegir más de una vez. Para hacer las cosas bien, el proceso de selección a partir del marco se hace con una tabla de números aleatorios o un algoritmo informático.

En ocasiones, la variable no se distribuye uniformemente en la población. En estos casos, para que la muestra sea representativa puede dividirse la población en estratos y hacer un muestreo aleatorio en cada estrato. Para poder realizar esta técnica, llamada muestreo aleatorio estratificado, necesitamos conocer la distribución de la variable en la población. Además, los estratos deben ser excluyentes entre sí, de forma que la variabilidad dentro de cada uno sea mínima y la variabilidad entre estratos sea la mayor posible. Si los estratos tienen un tamaño similar el muestreo se hace de forma proporcional, pero si alguno es más pequeño puede sobre representarse e incluir más unidades de muestreo que el resto. El problema es que el análisis se complica, ya que hay que ponderar los resultados de cada estrato en función de su contribución al resultado global, pero los programas estadísticos hacen estas correcciones sin inmutarse. La ventaja de esta técnica es que las estimaciones que se obtienen, si se analizan los datos correctamente, son más precisas, ya que la varianza global se calcula a partir de la de los estratos, que siempre será menor que la de la población general. Este tipo de muestreo es muy útil cuando la variable de estudio se influye por otras variables de la población. Si queremos estudiar, por ejemplo, la prevalencia de cardiopatía isquémica puede ser útil estratificar por sexo, peso, edad, fumador o no, o lo que pensemos que pueda influir en el resultado.

Un paso más allá de este enfoque está el del muestreo en etapas múltiples o muestreo por conglomerados (en clusters, para los que lean inglés). En este caso la población se divide en unidades primarias de muestreo que, a su vez, se dividen en unidades secundarias en las que se lleva a cabo el proceso de selección. Este tipo, con todas las etapas que nos interese en cada caso, es muy usado en estudios escolares, en los que se van separando por nivel socioeconómico, tipo de enseñanza, edad, curso o lo que se nos ocurra. El problema de este diseño, aparte de su complejidad de implementación y análisis de resultados, es que podemos tener sesgos si los miembros de una unidad se parecen mucho. Pensad, por ejemplo, que queremos estudiar la tasa de vacunaciones en una ciudad: dividimos la ciudad en zonas, de cada zona seleccionamos al azar unas familias y vemos cuántos niños están vacunados. Lógicamente, si un niño está vacunado seguramente sus hermanos también lo estarán, con lo que puede sobreestimarse la tasa de vacunación global de la ciudad si en el muestreo nos tocan muchas familias numerosas de las zonas con mejor nivel sanitario.

El muestreo sistemático se utiliza con frecuencia en estudios en los que el marco muestral no existe o es incompleto. Por ejemplo, si queremos probar un antigripal, no sabemos quién va a contraer la gripe. Elegimos una constante de aleatorización (k) y esperamos tranquilamente a que lleguen los enfermos a la consulta. Cuando hayan llegado los k primeros, elegimos uno al azar y, a partir de ahí, incluimos a uno de cada k que vengan con gripe hasta completar el tamaño muestral deseado.

En todas las técnicas anteriores se conocía la probabilidad de cada integrante de la población de ser seleccionado. Sin embargo, esta probabilidad se desconoce en los modelos no probabilísticos, en los que no se utilizan métodos aleatorios, por lo que hay que tener especial cuidado con la representatividad de la muestra y la presencia de sesgos.

El muestreo consecutivo se usa con frecuencia en ensayos clínicos. En el ejemplo anterior de la gripe podríamos enrolar en el ensayo a los n primeros que acudiesen a consulta y que cumpliesen los criterios de inclusión y exclusión del ensayo. Otra posibilidad es la de inclusión de voluntarios. Esta no es muy recomendable, ya que los sujetos que aceptan participar en un estudio sin que nadie se lo pida pueden presentar características que afecten la representatividad de la muestra.

Los especialistas en mercado utilizan mucho el muestreo por cuotas, seleccionando a los sujetos según la distribución de las variables que a ellos les interesan, pero este tipo de diseño se emplea poco en medicina. Y, por último, comentemos el uso de técnicas adaptativas, como el llamado muestreo en bola de nieve, muestreo en paseos aleatorios o muestreo en red. Por ejemplo, pensemos que queremos hacer un estudio con adictos a alguna sustancia ilegal. Nos costará encontrar a los participantes, pero una vez que encontremos al primero podemos preguntarle si conoce a alguien más que pudiese participar. Esta técnica que, aunque pueda parecerlo, no me acabo de inventar, tiene su utilidad para poblaciones muy difíciles de alcanzar.

Y con esto terminamos con las técnicas que tratan de conseguir el tipo de muestra más adecuado para nuestro estudio. Nos quedaría hablar del tamaño de la muestra y de cómo debe calcularse previamente al inicio del estudio para que no sea ni demasiado grande, ni demasiado pequeña. Pero esa es otra historia…

No es lo que parece

Espero, por vuestro bien, que nunca os hayáis tenido que ver en la situación de pronunciar esta frase. Y espero, también por vuestro bien, que si habéis tenido que pronunciarla en alguna ocasión no se viese precedida por la palabra “cariño”. ¿O sí?. Dejémoslo a la conciencia de cada cual.

Lo que sí es cierto es que esta frase debemos planteárnosla en forma de pregunta en una situación mucho menos escabrosa: al contemplar los resultados de un estudio transversal. Obvia decir, claro está, que, en estos casos, el cariño no es imprescindible.

Los estudios descriptivos transversales son un tipo de estudio observacional en los que se extrae una muestra representativa de la población que queremos estudiar y se mide la frecuencia de la enfermedad o el efecto que nos interese en los individuos de la muestra. Cuando medimos más de una variable, estos estudios se denominan de asociación cruzada, ya que nos permiten averiguar si las variables medidas guardan algún tipo de asociación.

Pero estos estudios tienen dos características que debemos tener siempre en cuenta. Primero, son estudios de prevalencia que miden la frecuencia en un momento concreto, por lo que el resultado puede variar en función del momento elegido para medir la variable. Segundo, como la medición se realiza de forma simultánea, resulta difícil establecer una relación causa-efecto, algo que a todos nos encanta hacer. Pero es algo que debemos evitar hacer porque, con este tipo de estudios, las cosas no son siempre lo que parecen. O, mejor dicho, las cosas pueden ser bastantes más cosas de lo que parecen.

¿De qué hablamos?. Veamos un ejemplo. Estoy un poco aburrido de ir al gimnasio, porque me canso cada vez más y mi estado físico… bueno, dejémoslo simplemente en que me canso, así que quiero estudiar si realmente el esfuerzo puede recompensarme con un mejor control de mi transversalpeso corporal. De esta manera, hago una encuesta y obtengo los datos de 1477 individuos de mi edad referentes a sí van a un gimnasio (sí o no) y sin tienen un índice de masa corporal superior a 25 (sí o no). Si os fijáis en los resultados de la tabla podéis comprobar que la prevalencia de sobrepeso-obesidad entre los que van al gimnasio (50/751, alrededor de un 7%) es mayor que entre los que no van (21/726, alrededor del 3%). ¡Horror!, pienso, no solo me canso, sino que los que van al gimnasio tienen el doble de probabilidades de ser obesos. Conclusión: mañana mismo me borro.

¿Veis lo fácil que es llegar a una conclusión absurda (más bien estúpida, en este caso)?. Pero los datos están ahí, así que habrá que buscar una explicación para entender por qué nos indican algo que va en contra de nuestro sentido común. Y hay varias explicaciones posibles para interpretar estos resultados.

La primera, que realmente ir al gimnasio favorezca que uno engorde. Parece poco probable, pero nunca se sabe… Imaginemos que el entrenamiento motiva que los deportistas coman como fieras durante las seis horas siguientes a la sesión deportiva.

La segunda, que los obesos que van al gimnasio vivan más años que los que no. Pensemos que el ejercicio prevenga la muerte por enfermedad cardiovascular en pacientes obesos. Explicaría por qué hay más obesos (en proporción) en el gimnasio que fuera de él: simplemente se morirían menos que los que no van. Al fin y al cabo estamos tratando con un estudio de prevalencia, por lo que vemos el resultado final en el momento de la medición.

La tercera posibilidad es que la enfermedad pueda influir en la frecuencia de la exposición, lo que se conoce como causalidad inversa. En nuestro ejemplo, podría haber más obesos en el gimnasio porque una de las recomendaciones de tratamiento que se les diese a los obesos fuese esa: apuntarse a un gimnasio. Esta ya no suena tan ridícula como la primera.

Pero todavía hay más posibles explicaciones. Hasta ahora hemos tratado de explicar una asociación entre las dos variables que hemos asumido como real. Pero, ¿y si la asociación no es real?. ¿Cómo podemos obtener una asociación falsa entre las dos variables?. De nuevo, tenemos tres explicaciones posibles.

La primera, nuestro viejo conocido: el azar. Algunos me diréis que podemos calcular la significación estadística o los intervalos de confianza pero, ¿y qué?. Aún en el caso de significación estadística, lo que quiere decir es que no podemos descartar que haya sido el azar con un cierto grado de incertidumbre. Incluso con p<0,05, siempre habrá una probabilidad de que cometamos un error de tipo 1 y descartemos erróneamente el efecto del azar. Podemos medir el azar, pero nunca librarnos de él.

La segunda es que hayamos cometido algún tipo de sesgo que invalide nuestros resultados. A veces, las características de la enfermedad pueden hacer que la probabilidad de elegir a sujetos expuestos y no expuestos no sea la misma, produciéndose un sesgo de selección. Imaginemos que en lugar de una encuesta (telefónica, por ejemplo) hemos usado un registro médico. Puede ocurrir que los obesos que van al gimnasio sean más responsables con el cuidado de su salud y vayan más al médico que los otros, con lo que será más probable que incluyamos obesos deportistas en el estudio, haciendo una estimación al alza de la proporción real. Otras veces el factor de estudio puede ser algo mal visto o estigmatizante desde el punto de vista social, así que los que lo padezcan no tendrán las mismas ganas de participar en el estudio (y reconocer el padecimiento) que los que no, así que su frecuencia se subestimará.

En nuestro ejemplo, podría ocurrir que los obesos que no van al gimnasio respondiesen a la encuesta mintiendo sobre su peso verdadero, con lo cual se clasificarían erróneamente. Este sesgo de clasificación puede ocurrir aleatoriamente en los dos grupos de expuestos y no expuestos, con lo que cual tiende a favorecer la falta de asociación (la hipótesis nula), de tal forma que se subestima la asociación, si es que ésta existe. El problema es cuando este error es sistemático en uno de los dos grupos, ya que esto puede tanto subestimar como infraestimar la asociación entre exposición y enfermedad.

Y, por fin, la tercera posibilidad es que exista una variable confusora que se distribuya de manera diferente entre expuestos y no expuestos. Se me ocurre pensar que los que van al gimnasio son más jóvenes que los que no. Es posible que los obesos más jóvenes tengan más tendencia a ir al gimnasio. Si estratificamos los resultados por la variable confusora, la edad, podemos determinar su influencia en la asociación.

Para terminar, solo me queda pedir disculpas a todos los obesos del mundo por utilizarlos como ejemplo pero es que, por una vez, quería dejar tranquilos a los fumadores.

Como veis, las cosas no son siempre lo que parecen a primera vista, por lo que hay que interpretar los resultados con sentido común y a la luz de los conocimientos existentes, evitando caer en la trampa de establecer relaciones causales a partir de asociaciones detectadas mediante estudios observacionales. Para establecer relaciones de causa y efecto son siempre necesarios estudios experimentales, el paradigma de los cuales es el ensayo clínico. Pero esa es otra historia…

Los diez mandamientos

Que nadie se asuste, hoy no vamos a hablar de historias bíblicas. Tampoco pensaba hablar de cine, pero al recordar la famosa película me ha venido a la cabeza la imagen del típico científico de película. Se le reconoce con facilidad: alto, guapo, fornido, tremendamente inteligente y con una bata blanca blanquísima. Un último detalle, siempre liga con la más maciza del reparto. Y no os olvidéis de las científicas: tres cuartos de lo mismo.

Sin embargo, la vida real es mucho más triste. Cualquiera puede ser científico (aunque en estos tiempos igual te tienes que marchar fuera de España). Para que os hagáis una idea, yo mismo fui científico durante un periodo de mi vida, hace más tiempo del que me gusta recordar. Y, si nos paramos a pensar, la mayoría habremos hecho alguna vez algún trabajo de investigación, porque para investigar no es imprescindible meterse en un laboratorio ni ser tan apuesto como los científicos del cine. Lo que si es conveniente tener, eso sí, son las ideas muy claras sobre lo que se va a hacer y tener en cuenta una serie de puntos antes de comenzar a gastar tiempo y dinero (al parecer, la parte fundamental de la investigación en los tiempos que corren).

El primer punto es la identificación de la duda o problema que tengamos, que nos servirá para definir la pregunta que pretendemos responder con el estudio. Esta será nuestra hipótesis de trabajo, el objetivo del estudio. Puede ser útil formular una pregunta clínicamente estructurada (¿os acordáis de PICO?), que nos ayudará a definir la variable de resultado principal del estudio, además de servirnos para diseñar la búsqueda que nos permita hacer una revisión del estado del conocimiento sobre el tema para centrar bien el trabajo y justificar su pertinencia y viabilidad.

diez-mandamientosEn segundo lugar tendremos que decidir qué tipo de diseño será el más adecuado para conseguir nuestro objetivo. Esto es muy importante porque nos condicionará muchos de los pasos siguientes. Además, si elegimos mal, el trabajo puede ser inviable. Por ejemplo, si quiero demostrar el efecto perjudicial del tabaco no se me puede ocurrir un ensayo clínico para hacer fumar dos cajetillas al grupo de intervención. Será mejor que haga un estudio de cohortes y vea qué pasa con los que fuman y los que no.

El tercer aspecto es seleccionar la población de estudio adecuada. Habrá que pensar cómo vamos a seleccionar los participantes y cómo vamos a evaluar su idoneidad para entrar en el estudio y qué técnica vamos a utilizar para formar los diferentes grupos. Además, cuarto paso, calcularemos previamente cuántos vamos a necesitar. El cálculo del tamaño de la muestra nos permitirá calibrar la potencia del estudio para responder a la pregunta objetivo sin gastar más recursos de los necesarios.

Quinto, hay que pararse a pensar cuál será la variable de resultado principal y cómo vamos a medirla, además de si vamos a necesitar otro tipo de variables secundarias. La variable principal debe ser importante desde el punto de vista clínico, tanto para el investigador como para el paciente que se vaya a beneficiar del estudio pero, además, debe ser capaz de discriminar si los participantes se benefician (o perjudican) de la intervención o factor de exposición.

En sexto lugar, deberá planificarse cuidadosamente cómo se van a recoger los datos y cuál va a ser la estrategia para su análisis. Pensaremos en la forma en la que describiremos nuestros resultados y en qué medidas de centralización, dispersión, asociación e impacto clínico vamos a utilizar. Lógicamente, todos estos parámetros dependerán del tipo de estudio que realicemos.

El séptimo paso sería organizar la puesta en marcha del estudio según todo lo que hemos considerado previamente para, finalmente, llevarlo a cabo con rigor y minuciosidad (octavo paso).

Una vez finalizado el trabajo, nos falta aún cumplir dos puntos de este decálogo. Es muy importante interpretar los resultados con precaución. No nos conformaremos con las diferencias estadísticamente significativas, sino que siempre debemos completar el estudio con las medidas de asociación y de impacto clínico adecuado. Habrá que valorar los efectos beneficiosos para el paciente que se puedan derivar del estudio, pero antes de formular conclusiones o recomendaciones siempre deberemos tener en cuenta los aspectos relativos a efectos adversos o molestos, costes y, no nos olvidemos, preferencias del paciente al que queremos beneficiar.

De todas formas, aunque hagamos un trabajo magistral, si solo lo aplicamos en nuestra consulta el esfuerzo seguramente no habrá merecido la pena. La verdadera utilidad de una investigación radica en que sus resultados sean aplicados en la práctica clínica de una forma lo más generalizada posible. De ahí la importancia del décimo paso del proceso investigador: la difusión de los resultados. Es fundamental que los resultados se den a conocer, habitualmente mediante publicaciones o congresos. En los casos de resultados con gran importancia clínica lo ideal es que queden incluidos en bases de datos internacionales que sean muy consultadas, ya que así podrán ser localizados, evaluados y utilizados por más profesionales.

Si alguno de los que todavía está leyendo a estas alturas no tiene previsto hacer ningún trabajo de investigación en un futuro visible, que no se preocupe: todo lo dicho hasta ahora puede serle también de utilidad. Y es que un esquema similar de pensamiento nos puede ser muy útil para valorar trabajos de investigación hechos por otros, cosa que prácticamente hacemos (o deberíamos hacer) con mucha frecuencia. Además, estos pasos forman parte de los requisitos de muchas listas de comprobación que los editores utilizan para la evaluación de trabajos científicos y de muchas herramientas empleadas en lectura crítica. Pero esa es otra historia…