Aletarorización por bloques permutados y estratificada.

Se analiza cómo superar las limitaciones de la aleatorización simple mediante el uso de bloques permutados, estratificación y minimización. Se describe cómo estas técnicas garantizan el equilibrio de factores pronósticos clave y aumentan la potencia estadística de los ensayos clínicos, evitando que el azar comprometa la validez de los resultados.
¿Alguna vez habéis intentado organizar el plano de asientos de una boda sin que estalle la Tercera Guerra Mundial? Es un arte delicado, maquiavélico y, sinceramente, una de las pruebas de estrés más duras conocidas por el llamado ser humano.
Si os veis en esa tesitura, ni se os ocurra dejarlo al azar, porque la infalible Ley de Murphy garantiza que tu tío, el que cuenta chistes políticos de los años 80 y cree que el cambio climático es un invento de los fabricantes de paraguas, acabe sentado codo con codo junto a tu jefa, una activista vegana, estoica y con muy poca paciencia para tonterías.
Si optarais por la «libertad total» y simplemente tiraseis una moneda al aire para decidir dónde va cada invitado, el caos estaría servido. Tendríais mesas descompensadas, con un aburrimiento mortal en un flanco del salón (la «zona muerta» donde han caído todos los tímidos) y disturbios civiles en el otro (donde el azar ha concentrado a los defensores de la pizza con piña frente a un comando de napolitanos ortodoxos al borde del infarto). El azar puro es muy democrático, sí, pero tiene un pésimo sentido del ritmo y ninguna noción de la diplomacia.
Para evitar estos desastres sociales, podemos recurrir a estrategias que ríete tú de la ingeniería alemana: sentamos a la gente por «bloques» predefinidos para asegurar variedad, o los separamos por estratos (los del gimnasio, los del trabajo, los primos lejanos que solo ves en funerales) para que la conversación fluya y nadie termine lanzándose los centros de mesa a la cabeza.
Curiosamente, en la investigación médica ocurre algo muy parecido. Los investigadores se dieron cuenta hace tiempo de que lanzar una moneda para asignar tratamientos a los pacientes podía generar grupos tan desequilibrados como esa mesa de la boda donde, por pura mala suerte, sentaste a todas tus exparejas juntas.
Así que, en esta entrada, vamos a tratar de discernir cómo podemos evitar que la suerte nos juegue una mala pasada en los ensayos clínicos. Vamos a sumergirnos en el fascinante mundo de los bloques permutados y la aleatorización estratificada. Veremos cómo estas técnicas aseguran que los grupos de estudio sean comparables y equilibrados, evitando sesgos y garantizando que, al final de la cena… perdón, del estudio, los resultados sean tan sólidos como digeribles.
La tiranía de la moneda al aire
Vamos a hacer las cosas con buen método y empezar por el principio: la aleatorización simple.
Como ya nos dice su nombre, este es el método más sencillo de aleatorización. Sería el equivalente metodológico a tirar una moneda al aire para decidir a cuál de los dos grupos de un ensayo clínico adjudicamos al participante que acaba de llegar.
Sobre el papel, esto debería funcionar. Si tenemos dos mil invitados a la boda y los sentamos siguiendo el azar puro, la estadística puede conseguir (aunque sin garantía de que lo haga) que los invitados de diferentes características se repartan de una manera uniforme. Habrá tantos «cuñados pesados» en la derecha como en la izquierda. Tantos «amigos fiesteros» aquí como allá. La ley de los grandes números es así de generosa cuando el tamaño de la muestra es enorme.
Pero ya hemos dicho que esto no está garantizado y, a veces, el azar puede jugar malas pasadas. Al fin y al cabo, la mayoría de los ensayos clínicos no tienen un número de participantes tan alto, sino más bien reducido.
Y aquí es donde la moneda se vuelve caprichosa. Ya sabemos que, si la moneda no está trucada, en cada lanzamiento tendremos un 50% de probabilidad de que salga cara y un 50% de que salga cruz. Pero esto no quiere decir que, si tiramos la moneda, por ejemplo, 10 veces, vayamos a obtener de forma obligatoria 5 resultados de cada una de las dos posibilidades.
Podría darse el caso de obtener, por ejemplo, 10 caras. Es improbable, pero no imposible. Si os molestáis en calcularlo, la probabilidad es algo menor del 0,1%. Muy baja, pero el hecho ocurrirá una de cada 1024 veces que hagamos el experimento.
La conclusión es que la aleatorización simple no garantiza el reparto igualitario de las características de los participantes entre los dos grupos, especialmente si la muestra no es muy grande. Y esto, como ya sabemos, es imprescindible para poder afirmar que las diferencias que observemos entre los dos grupos son debidas a la intervención en estudio.
Imaginad que hacemos un ensayo clínico para probar un nuevo fármaco para la hipertensión, que hacemos aleatorización simple y que tenemos la mala suerte de que los grupos salen desbalanceados en alguna característica importante. Por ejemplo, si el grupo de intervención se llena de maratonianos veganos de 25 años y el de control se llena de señores sedentarios amantes del torrezno, ¿qué creéis que pasaría? Que el fármaco parecería maravilloso en el grupo de intervención, pero no porque funcione, sino porque esos chicos tienen las arterias más limpias que una patena, mientras que no hay pastilla que compense tres décadas de grasas saturadas.
Y este es un ejemplo muy obvio y un poco absurdo, pero pensad que en la vida real pueden quedar desbalanceadas características importantes, tanto conocidas como desconocidas por el investigador.
Pero no os preocupéis. Podemos modificar la aleatorización para intentar que esto no nos ocurra. Vamos a ver cómo.
El tetris clínico: bloques permutados
La primera posibilidad que vamos a ver es la de realizar la aleatorización por bloques permutados. Nos vamos a olvidar de la moneda solitaria y vamos a jugar al tetris con los participantes del estudio.
En lugar de asignar a los pacientes uno a uno al azar total, los agrupamos en pequeños «paquetes» o bloques. Digamos que decidimos usar bloques de 4 elementos. La regla de oro es: dentro de cada bloque de 4, debe haber obligatoriamente 2 participantes para un grupo y 2 para el otro. El orden dentro del bloque será aleatorio, sí, pero el total parcial siempre estará equilibrado.
Vamos a ver cómo funciona esto en la práctica. Imaginad que tenemos dos grupos (A y B) y que decidimos hacer bloques de cuatro elementos. Las combinaciones posibles de A y B en un grupo de cuatro (donde siempre hay dos As y dos Bs) serán: AABB, BBAA, ABAB, BABA, ABBA y BAAB.
El investigador va eligiendo uno de estos bloques de manera aleatoria y rellena los huecos del bloque elegido con los siguientes cuatro participantes que cruzan la puerta. ¿La gran ventaja? Que en ningún momento habrá un desequilibrio grande. Si el estudio o el reclutamiento se cancelan a la mitad por algún motivo, siempre habrá, como mucho, una diferencia de 1 o 2 participantes entre los grupos. Nunca pasará algo como tener 15 en un grupo y 5 en el otro.

Sin embargo, este método tiene un pequeño inconveniente: la predictibilidad. Si el investigador sabe que estamos usando bloques de 4, puede empezar a contar cartas como si estuviera en un casino de Las Vegas y saber, por ejemplo, a qué grupo va a pertenecer el último participante de cada bloque.
Imaginad que llega este cuarto paciente del bloque. Si el investigador sabe que el primero fue al grupo A, el segundo al A y el tercero al B, y sabe también que la regla es «dos As y dos Bs por bloque», no le costará gran esfuerzo llegar a la conclusión de que el cuarto paciente tiene que ir al grupo B por narices. Se nos rompió el azar, de tanto usarlo.
Y esto os puede parecer un mal menor, pero pensad un momento que ocurriría si el investigador cree que el tratamiento B es mejor (o peor). Podría decidir «esperar un poco» antes de inscribir a ese paciente que le cae bien para que le toque (o no) el tratamiento B. El sesgo de información asoma su fea cabeza.
Por eso, para evitar que los investigadores listillos adivinen la secuencia, los metodólogos (que son gente muy paranoica) suelen utilizar bloques más grandes o variar el tamaño de los bloques aleatoriamente. Ahora un bloque de 4, ahora uno de 6, ahora uno de 4 otra vez. Así mantienen a los investigadores confundidos y honestos, que es como deben estar.
La pesadilla logística: estratificación
Los bloques permutados están muy bien para asegurar que tenemos el mismo número de participantes en cada grupo. Pero ¿y si nos preocupa no solo la cantidad, sino la calidad?
Vamos a volver un momento a nuestro banquete de boda. Hemos conseguido que haya 50 personas en el lado del novio y 50 en el de la novia. ¡Éxito numérico! Pero entonces miramos más de cerca y nos damos cuenta de que, por puro azar (o mala leche del destino), en el lado del novio hemos puesto a todos los niños menores de 5 años y en el lado de la novia a todos los ancianos con audífonos.
El resultado será que en un lado habrá una guerra de comida y llantos, y en el otro no se oirá ni el brindis. Los grupos están equilibrados en número, pero no en características clave (edad, nivel de decibelios, capacidad de retención de líquidos).
En un ensayo clínico, esto puede ser crítico. Imaginad que probamos una crema antiarrugas. Nos da igual tener 50 pacientes en cada grupo si resulta que en el grupo del placebo están todas las chicas de 20 años y en el grupo de la crema están todas las señoras de 80 que han tomado el sol sin protección desde 1970. Obviamente, el grupo placebo tendrá mejor piel al final, y concluiremos erróneamente que nuestra crema envejece a la gente.
Para evitar este tipo de situaciones, contamos con otro recurso un poco más rebuscado: la aleatorización estratificada.
En estos casos, antes de hacer la aleatorización, el investigador clasifica a cada participante según la característica o estrato que pueda considerar importante.
Imaginad que queréis hacer un ensayo para probar un nuevo fármaco para el tratamiento de esa temible enfermedad que es la fildulastrosis. Sabemos que hay un factor que puede actuar como confusor y que influye de manera drástica en la evolución de la enfermedad: el consumo de realities de televisión. Como es lógico, queremos que este factor esté equilibrado entre las dos ramas del estudio, la de intervención y la de control.
Lo que hacemos es definir los dos estratos según los hábitos de consumo televisivo, asignar los participantes al estrato que les corresponda y establecer así dos vías de acceso al estudio donde la suerte se echa de manera separada.

Como es lógico, la estratificación puede combinarse con los bloques permutados. Por ejemplo, si llega un teleadicto lo asignaremos a su grupo y, una vez dentro, lo aleatorizaremos o bien de forma simple (tiramos la moneda) o en los grupos permutados que hayamos querido definir, como explicamos más arriba.
La estratificación es como un nirvana estadístico que aumenta la potencia estadística de un ensayo clínico. Al asegurar el equilibrio de las características pronósticas clave entre los grupos de tratamiento, se reduce el error estándar de la estimación del efecto, facilitando así una comparación imparcial y robusta.
Pero cuidado, estratificar es adictivo, por lo que su implementación requiere moderación. Es importante limitar el número de variables de estratificación, especialmente en estudios con un tamaño muestral reducido. Un exceso de factores incrementa exponencialmente el número total de estratos (producto del número de categorías de cada variable), lo que resulta en procedimientos de aleatorización excesivamente complejos y logísticamente inviables.
Además, si hay demasiados estratos, podemos generar alguno con un tamaño muestral insuficiente para realizar una asignación equilibrada. Para garantizar la viabilidad del estudio, la aleatorización estratificada requiere la identificación exclusiva de aquellas características pronósticas clave que sean mensurables al momento de la aleatorización y que se consideren fuertemente asociadas con el resultado primario.
El arreglo sobre la marcha: minimización
Hay una técnica más, para los verdaderos gourmets de la metodología, que merece una mención honorífica: la minimización. Si los bloques son ingeniería y la estratificación es clasificación obsesiva, la minimización es pura improvisación jazzística computadorizada.
Imaginad que nuestro ensayo clínico se complica. Ya no solo nos importa un factor, como puede ser si los participantes son hombres o mujeres. Ahora tenemos tres hospitales distintos participando, dos estadios diferentes de la enfermedad y, para colmo, queremos equilibrar a los pacientes según si han recibido tratamiento previo o no.
Si intentáramos hacer estratos para todas las combinaciones posibles de estas variables, acabaríamos con más grupos que habitantes tiene Teruel. Tendríamos un montón de «cajitas» vacías esperando a un paciente que quizás nunca llegue (el mítico «varón, del Hospital Sur, estadio III, que nunca se ha medicado»).
Aquí es donde la minimización entra en la sala con gafas de sol y actitud de resolver problemas. A diferencia de los métodos anteriores, que tienen las listas preparadas desde antes de empezar, la minimización es un algoritmo que «mira» cómo va la fiesta en tiempo real y toma decisiones sobre la marcha.
Un ejemplo práctico nos ayudará a visualizar este caos controlado. Digamos que estamos probando un fármaco nuevo y llevamos reclutados 40 pacientes. En ese momento, entra por la puerta Paquito, el paciente número 41. Paquito viene del Hospital del Sur, su enfermedad está en estadio II y ha sido tratado antes.
El ordenador que realiza la aleatorización del ensayo clínico, en lugar de tirar una moneda, hace una revisión rápida de los dos grupos de tratamiento (A y B) tal y como están ahora mismo. Algo tal que así: si meto a Paquito en el Grupo A, la cosa se pone fea. En el A ya tengo un exceso de gente del Hospital del Sur y me sobran pacientes que ya han recibido tratamiento previo. Puedo desequilibrar aún más la balanza. Pero veo que en el B andamos escasos de gente del Sur y de pacientes tratados previamente. Paquito encaja ahí como la última pieza del tetris.
El sistema calcula una puntuación de «desequilibrio» y se da cuenta de que asignar a Paquito al Grupo B reduce las diferencias totales entre los grupos. Así que, ¡adjudicado! Paquito se va al Grupo B para mantener la armonía del estudio. Y cuando llegue el 42, ya veremos cómo se llama y en qué grupo interesa más meterle.
Básicamente, la minimización no es azar puro, pero suele dejarse un pequeño margen de aleatoriedad, como un 80/20, para que no sea totalmente predecible. Eso sí, es la herramienta más potente para asegurar que, al final del día, estemos comparando grupos que son verdaderos similares en las características que pueden influir en los resultados del estudio.
Nos vamos…
Una vez entendido que, a fin de cuentas, la ciencia, como una buena boda, va en gran medida de gestionar el caos, vamos a ir dejando el tema por hoy.
Hemos visto cómo los bloques permutados pueden evitar que las rachas de mala suerte nos dejen con grupos cojos en estudios pequeños. Son nuestros bloques de Lego para construir una base sólida, siempre que tengamos cuidado de que no sea evidente el color del siguiente bloque.
También hemos mostrado como la estratificación es nuestro filtro de Instagram que trata de que ambos grupos luzcan igual de bien (o de mal) en las fotos. Nos protege de las variables de confusión, esos invitados molestos que intentan robar el protagonismo a la intervención cuyo efecto intentamos evaluar.
Así que ya veis que la aleatorización es mucho más que tirar una moneda y que no siempre cumple con su misión de equilibrar los factores de confusión conocidos y desconocidos entre los dos grupos, ya que hasta los repartos más improbables pueden presentarse en nuestros estudios. Incluso, yo diría que podemos desconfiar si una aleatorización simple produce grupos muy “iguales” y, en esos casos, tratar de calcular qué probabilidad tenemos de que el azar haga ese tipo de repartos. Pero esa es otra historia…
