Qué es un modelo multivariado
En las entregas anteriores nos referimos a distintas cuestiones a tener en cuenta a la hora de realizar o interpretar un análisis multivariado. Ahora bien, podríamos preguntarnos cuál es la utilidad de llevarlo a cabo. Hay más de una razón por la cual lo hacemos.
Ya hemos hablado previamente de la primera: definir la asociación independiente de una variable predictora con una variable respuesta. Esto es, si dicha asociación es estadísticamente significativa ajustando por la presencia de confundidores.
Una segunda utilidad tiene que ver con definir si en dicha asociación existe interacción entre variables predictoras, esto es si la fuerza de asociación de la variable predictora con la respuesta es significativamente diferente en diferentes estratos de una tercera variable. Por ejemplo, la diabetes predice la aparición de insuficiencia cardíaca, pero la fuerza de asociación es muy diferente en diferentes estratos de la variable género: mucho más fuerte en las mujeres que en los hombres.
Recordemos ahora algo que vimos al hablar de regresión lineal, logística y análisis de sobrevida. Es aconsejable repasar esos capítulos. Al llevar a cabo un análisis multivariado se define el coeficiente que corresponde a cada variable, ajustado por la presencia de los otros.
En una regresión lineal, el coeficiente de cada variable predictora expresa cuánto cambia la variable respuesta (que es una variable cuantitativa continua) al variar en una unidad la variable predictora, ajustando por el resto.
En una regresión logística el coeficiente de cada variable predictora expresa cuánto cambia el logaritmo natural del odds al variar en una unidad la variable predictora, ajustando por el resto.
En un análisis de sobrevida el coeficiente de cada variable predictora expresa cuánto cambia el logaritmo del hazard al variar en una unidad la variable predictora, ajustando por el resto.
Vamos a considerar hoy una tercera utilidad del análisis multivariado: permite generar modelos. Esto es, que más allá de definir el rol individual de variables predictoras, podemos generar modelos que agrupan variables independientemente vinculadas con la respuesta, y que se expresan mediante una ecuación, donde cada variable predictora es precedida por el coeficiente que le corresponde en el análisis.
Esos modelos, que se expresan como ecuaciones, apuntan generalmente en Medicina a ser modelos diagnósticos o pronósticos.
En un modelo diagnóstico la ecuación apunta a definir la probabilidad de presentar determinada condición o patología. Por ejemplo, se define una ecuación que agrupa predictores de que el paciente tenga enfermedad coronaria. En base a la presencia o ausencia de variables dicotómicas (diabetes sí/no, hipertensión sí/no) y variables continuas (valor de colesterol LDL, edad) se define para cada persona su probabilidad de tener coronariopatía antes de interrogarla.
En un modelo pronóstico se agrupan predictores independientes de determinada evolución (variable dicotómica). Por ejemplo, se define en pacientes con insuficiencia renal un modelo ajustado de varias variables que permite predecir la probabilidad de requerimiento de diálisis en el año siguiente. También podemos predecir el valor de una variable continua: por ejemplo, un modelo que en base a edad, consumo de sal, viscosidad sanguínea y función renal permita predecir el valor de tensión arterial media.
Cada variable que forma parte del modelo se denomina covariable. Cada covariable puede asumir diferentes valores. La combinación de los diferentes valores que pueden presentar simultáneamente las variables en una observación determinada se llama patrón de covariables.
Vamos a centrarnos en un modelo de regresión logística, que junto a análisis de sobrevida son los dos análisis multivariados más comunes a que recurrimos en medicina asistencial. Sugerimos fuertemente volver a leer: ¿Qué es la regresión logística? Parte 2, y ¿Qué es la regresión logística? Parte 3.
Recordemos que en la regresión logística se busca relacionar variables predictoras con el logaritmo natural del odds de ocurrencia de un evento. Y que el odds se relaciona con la probabilidad a partir de la fórmula
Odds= p/1-p
Al logaritmo natural del odds se lo llama también logit de p.
Veamos un ejemplo: si trabajamos en un modelo que busca predecir la incidencia de síndrome coronario agudo (SCA) con solo dos variables, la variable género masculino definida por sí-no, y la variable hipertensión (HTA) definida por sí-no, tendremos cuatro patrones: masculino-hipertenso, femenino-hipertenso, masculino-no hipertenso, femenino-no hipertenso. Cualquier observación que hagamos (cualquier persona incluida en nuestro análisis) tendrá uno de estos cuatro patrones. Si agregamos la variable dislipemia (DLP), también definida por sí-no, pasamos a tener ocho patrones: dislipemia sí o dislipemia no acompañando a cada uno de los cuatro anteriores. Cualquier observación que hagamos tendrá uno de estos ocho patrones.
El modelo entonces puede expresarse como
Logit de p de SCA= α (constante del modelo) + β1 género masculino + β2 HTA + β3 DLP
Las covariables del modelo, género masculino, HTA y DLP, asumen un valor de 1 si son sí (están presentes) y de 0 si son no (están ausentes).
De acuerdo a que cada covariable sea sí o no, veamos los 8 patrones:
Logit de p de SCA = α + β1 x 1 + β2 x 1+ β3 x 1= α +β1+β2+β3
Logit de p de SCA = α + β1 x 1 + β2 x 1+ β3 x 0= α +β1+β2
Logit de p de SCA = α + β1 x 1 + β2 x 0+ β3 x 1= α +β1 +β3
Logit de p de SCA = α + β1 x 0 + β2 x 1+ β3 x 1= α+β2+β3
Logit de p de SCA = α + β1 x 1 + β2 x 0+ β3 x 0= α +β1
Logit de p de SCA = α + β1 x 0 + β2 x 1+ β3 x 0= α +β2
Logit de p de SCA = α + β1 x 0 + β2 x 0+ β3 x 1= α +β3
Logit de p de SCA = α + β1 x 0 + β2 x 0+ β3 x 0= α
Recordemos que en cada caso, al elevar el número natural e a la suma de coeficientes obtenemos el logit de p, y por ende p, a partir de la fórmula
P= odds/1+ odds
Ahora bien, consideremos que entre las variables predictoras también se encuentre la edad (variable, que, efectivamente forma parte de casi todos los modelos pronósticos) considerada como variable continua. En este caso y si consideramos solo personas entre 40 y 79 años es fácil comprender que habrá una probabilidad de SCA para los que tienen 40, una diferente para los que tienen 41 y así sucesivamente. El coeficiente de la variable edad expresará cuánto cambia la probabilidad de SCA por cada año que aumenta la edad respecto de la edad previa.
Logit de p de SCA= α + β1 género masculino + β2 HTA + β3 DLP+ β4 edad
En un modelo que considere edad (como continua), hipertensión, dislipemia y género masculino (como dicotómicas) pasaremos de 8 patrones diferentes a 320 patrones diferentes de covariables (cualquiera de los 8 patrones previos acompañando a β4 x 40, a β4 x 41, a β4x 42, y así sucesivamente hasta llegar a 79 años).
Y para cada uno de estos patrones el modelo predice una probabilidad determinada de ocurrencia del evento.
La misma lógica que aplicamos a un modelo de regresión logística, que predice eventos, puede aplicarse a un modelo en el contexto del análisis de sobrevida, que predice tiempo al evento.
En suma, entonces: Un modelo multivariado permite predecir para una observación determinada en base a su patrón de covariables, el valor de una variable continua o la probabilidad de ocurrencia de una variable dicotómica.
En la próxima entrega veremos cómo se evalúa si los modelos diagnostican o pronostican adecuadamente respecto de la realidad, y en la siguiente cómo los modelos se traducen en reglas de predicción clínica (scores según la definición en inglés, puntajes en nuestro idioma).
Dr. Jorge Thierer