¿Qué es el análisis multivariado? Parte 1
Para responder esta pregunta debemos volver sobre entregas anteriores. Recomendamos leerlas para comprender cabalmente el tema. Sugerimos por tanto repasar los conceptos fundamentales de riesgo relativo y odds ratio, regresión lineal, logística, análisis de sobrevida, confundidores e interacción.
Dijimos en el inicio de esta serie que todo estudio de investigación tiene por objeto definir si existe asociación entre una variable a la que llamamos predictora y otra a la que denominamos resultado, respuesta o evento. Para determinar si esa asociación existe más allá del azar es que realizamos tests estadísticos. Empleamos habitualmente un valor de p< 0.05, lo cual implica una probabilidad < 5% de que la asociación hallada sea azarosa. Decimos entonces que la asociación es estadísticamente significativa.
Si la variable respuesta es dicotómica, podremos expresar la fuerza de asociación entre la variable predictora (dicotómica o continua) y la respuesta como riesgo relativo u odds ratio. Si específicamente queremos hallar el odds ratio usaremos la regresión logística para encontrar dicho valor.
Si lo que buscamos es encontrar la asociación lineal entre dos variables continuas definiremos dicho grado de asociación lineal con el coeficiente de correlación r. Si queremos predecir el valor de una variable respuesta continua a partir de una variable predictora dicotómica o continua, emplearemos la regresión lineal (con la determinación del coeficiente beta).
Si la variable respuesta es el tiempo a una variable respuesta dicotómica recurriremos al análisis de sobrevida para encontrar la asociación entre la variable predictora dicotómica o continua y la variable respuesta, expresada como hazard ratio.
En resumen, expresaremos la asociación entre la variable predictora y la respuesta, según cuál sea, como riesgo relativo, odds ratio, coeficiente beta o hazard ratio, y si el test estadístico correspondiente arroja un valor de p <0.05, entenderemos que la probabilidad de que se deba al azar es menor del 5%, y diremos que la asociación es estadísticamente significativa.
Cualquiera sea el método empleado, según la naturaleza de la variable respuesta, para encontrar la asociación entre cada variable predictora por separado y la variable respuesta es un análisis simple (por ejemplo, una regresión logística simple, una regresión lineal simple). Hablamos de un análisis bivariado porque hay solo dos variables consideradas: la predictora y la respuesta. Es lo que habitualmente, y porque solo se piensa en la variable predictora, denominamos análisis univariado.
Pero… recordemos también lo expresado al hablar de confundidores. Dijimos que la asociación que encontramos entre dos variables puede deberse a la presencia de una tercera variable, vinculada en forma estadísticamente significativa con la exposición o variable predictora, y con el evento o variable respuesta, a la que llamamos confundidor. Esto significa que la asociación estadísticamente significativa que encontramos entre una variable y otra puede dejar de serlo al considerar la presencia del confundidor. O puede ser que la asociación siga siendo significativa, pero que el valor que la expresa (riesgo relativo, odds ratio, etc.) cambie en presencia del confundidor.
Si, pese a considerar la presencia de los confundidores, sigue siendo significativa la asociación encontrada, diremos entonces que la variable predictora está asociada independientemente con el evento; diremos que es un predictor independiente. El análisis que llevamos a cabo para definir dicha independencia de otros factores se denomina análisis multivariado.
Así, por ejemplo, en una regresión logística múltiple, se analizan conjuntamente todas las variables que fueron significativas en las correspondientes regresiones logísticas simples. Es más, para no perder información, pueden ser incluidas todas aquellas variables para las que se encontró un valor de p < 0.10, o incluso < 0.20. Hay diferentes maneras de llevar a cabo el análisis: considerar de entrada a todas las variables simultáneamente, o hacer un análisis escalonado, hacia adelante (se van incluyendo de a una las variables) o hacia atrás (se van retirando de a una las variables). Pero lo importante es que finalmente se define el set de variables que, puestas a jugar en conjunto, mantienen significación estadística, aquí sí claramente definida por un valor de p <0.05.
Más allá de los confundidores, en ocasiones el análisis multivariado toma también en cuenta el fenómeno de interacción. Si explorar el efecto de la interacción entre dos variables es importante a la hora de definir la asociación de las variables predictoras con la respuesta o predecir el valor de la misma, se generará el llamado término de interacción, y se explorará el valor predictivo de cada una de las variables por separado, y el de su interacción.
En la próxima entrega mostraremos ejemplos de lo expuesto.
Dr. Jorge Thierer