¿Qué es el análisis multivariado? Parte 3
Vamos a referirnos en esta entrega a un aspecto fundamental del análisis multivariado: el tamaño de la muestra.
Refresquemos algunos conceptos ya vertidos previamente. En entregas anteriores nos referimos a los tres métodos que empleamos cuando queremos predecir el valor de una variable determinada. ¡Invitamos a repasarlas antes de avanzar!
Usamos la regresión lineal simple si la variable respuesta es una variable continua y hay una asociación lineal entre el cambio en la variable predictora y la variable respuesta. Expresamos el resultado como coeficiente beta. Entendemos que el mismo es estadísticamente significativo si es distinto de 0, esto es, que el IC 95% de dicho coeficiente no incluye al 0.
Empleamos la regresión logística simple si la variable respuesta es dicotómica. Obtendremos, después de operaciones complejas, el valor del odds ratio. El mismo es estadísticamente significativo si es distinto de 1, esto es, que el IC 95% de dicha medida no incluye al 1.
Empleamos el análisis de sobrevida cuando buscamos predecir la ocurrencia de un evento en el seguimiento incorporando la variable tiempo. Obtendremos el valor del hazard ratio. El mismo es estadísticamente significativo si es distinto de 1, esto es, que el IC 95% de dicha medida no incluye al 1.
En cada caso, como vemos, tiene valor no solo la medida hallada sino su IC 95%, que es el que termina por definir si la medida de asociación es significativa o no. Estos mismos conceptos valen desde ya para los resultados de los análisis multivariados.
Ahora bien, como vimos al referirnos en las entregas respectivas al significado del IC 95% (¡leerlas también!), el mismo está influido por el número de observaciones, esto es por el tamaño de la muestra. A menor tamaño de muestra, más ancho el IC 95%, y por lo tanto menor probabilidad de que se alcance un valor estadísticamente significativo.
El cálculo de tamaño de muestra es más fácil en los análisis simples. En un análisis multivariado requiere operaciones más complicadas. Pero podemos formular algunas reglas sencillas.
Si en una regresión simple el tamaño de muestra no es adecuado, menos aún lo será en una regresión múltiple.
En el caso de una regresión lineal, todas las observaciones contribuyen a delinear la variable respuesta: la misma es una variable continua que se define con los valores de todos los observados. Es más fácil entonces que con un número menor de observaciones se obtengan coeficientes beta significativos en el análisis multivariado. De cualquier manera, suele recomendarse un número de 20 observaciones por cada variable que ingresa al modelo multivariado para asegurar un poder adecuado.
En una regresión logística o análisis de sobrevida, en cambio, son aquellas observaciones que presentan el evento las que definen el valor de la respuesta (porque aquellas en las que el evento no ocurre son simplemente la diferencia entre el total de observaciones y las observaciones con evento). Se considera desde un punto de vista práctico que un tamaño de muestra adecuado en un análisis multivariado de regresión logística o sobrevida es el que corresponde a 10 eventos por variable predictora considerada en el modelo. Si en un análisis que busca predecir mortalidad se contabilizaron 80 muertes, no debiéramos tener un modelo con más de 8 variables predictoras. Por supuesto que esta regla no tiene rigidez absoluta, y que puede aceptarse un modelo que en este caso incluya 9 ó 10 variables, pero no más. Si el número de eventos es mucho menor que 10 por cada variable considerada disminuye sensiblemente el poder para encontrar asociación de las variables predictoras con la variable respuesta.
Pero con solamente alcanzar 10 eventos por variable no alcanza. Supongamos que en nuestro modelo buscamos predecir internación por angina inestable. Contamos con 10 variables y 100 eventos. Si alguna de las variables predictoras tiene pocas observaciones con la condición presente (por ejemplo, en la variable diabetes hay muy pocos “sí” y la inmensa mayoría son “no”), entonces aunque en el análisis univariado hubiera asociación con el evento, la misma no será demostrable en el multivariado.
IC 95% muy amplios son un indicio firme de tamaño de muestra pequeño.
¿Qué hacen los autores cuando “sobran” variables? Pueden recurrir a diferentes estrategias:
Pueden eliminar aquellas variables que tienen mayor cantidad de observaciones faltantes, o que les parecen menos relevantes desde el punto de vista fisiopatológico o clínico.
Pueden asociar dos variables en una sola, poniendo la condición “y/o”. Supongamos que una de las variables predictoras consideradas en un modelo es “colagenopatía” y otra es “psoriasis”, y hay pocas observaciones positivas en cada una de ellas, se puede generar una variable “colagenopatía y/o psoriasis”. La misma será “sí” si una, la otra o las dos condiciones están presentes, y “no” si ninguna de las dos lo está. De esta manera aumenta el poder, pero (es justo reconocerlo) se pierde capacidad para discriminar.
Pueden generar escalas, donde se integra la información de varias variables en un solo número. Por ejemplo, se puede generar una escala que hable de empeoramiento de la insuficiencia cardíaca donde se consideren caída de la fracción de eyección, necesidad de aumentar la dosis de diurético y necesidad de consultar a guardia. Cada una de estas situaciones se puntúa con 0 (si no ocurre) o 1 (si sucede). Incluso la caída de fracción de eyección puede puntuarse (por ejemplo) como 0 si no sucede, 1 si es ≤ 5%, o 2 si es > 5%. El puntaje de cada respuesta en cada variable es definido por los investigadores. Finalmente se integran todos los puntajes parciales en un global, que es la variable que entra finalmente al modelo. Nuevamente, se gana poder, se pierde capacidad discriminativa.
En la próxima entrega nos referiremos a otras cuestiones importantes a la hora de valorar un análisis multivariado.
Dr. Jorge Thierer