Cómo se evalúa un modelo multivariado
En la entrega anterior, que invitamos a releer (Qué es un modelo multivariado) establecimos que un modelo multivariado permite predecir, para una observación determinada, y en base a su patrón de covariables, el valor de una variable continua o la probabilidad de ocurrencia de una variable dicotómica.
Ahora bien, una vez construido el modelo podemos preguntarnos si el mismo predice más allá de lo esperado por azar. Como en cualquier otro caso que hayamos visto a lo largo de esta serie, podemos formular una hipótesis nula: nuestro modelo no predice más allá del azar. Esto es, que los valores predichos de acuerdo a la ecuación son los que podríamos esperar si azarosamente atribuyéramos a cada observación un valor determinado. Si nuestro modelo nos entrega valores predichos que se acercan en cada caso a los valores observados más allá de lo esperable por azar, tenemos una primera demostración de que el modelo “funciona”, y en este caso rechazaremos la hipótesis nula. Si, por el contrario, no hay una diferencia significativa entre lo que predice el modelo y lo que se puede generar por azar, no podremos rechazar la hipótesis nula.
En el caso de los modelos de regresión lineal, buscamos predecir el valor de una variable continua. Si no hubiera relación entre las variables del modelo y el valor en cada observación, pues entonces el modelo predeciría un valor similar cualquiera fuera el patrón de covariables o variables basales. Por ejemplo, si se desarrolla un modelo para predecir el valor de creatinina en 100 observaciones y el modelo no ajusta a la realidad, esperaremos que el valor predicho para cada caso sea el mismo, y por no haber asociación de las variables del modelo con el resultado, lo más probable es que ese valor sea el de la media de todas las observaciones. Ese es el supuesto de la hipótesis nula. Un test estadístico, el test de F, explora si los valores predichos se alejan de este supuesto de no diferencia cualquiera sea el valor de las covariables. Si el test de F arroja un valor de p <0.05, el modelo predice el valor de la variable respuesta mejor que el azar.
En el caso de la regresión logística se busca predecir la probabilidad de ocurrencia de una variable dicotómica. Si el modelo predictivo no estuviera relacionado con el evento, si predijera al azar, la probabilidad predicha para todas las observaciones sería la misma, en este caso la proporción de personas que en forma global han presentado el evento. Por ejemplo, si en forma global presenta el evento el 35% de las observaciones, la hipótesis nula sostiene que la probabilidad predicha para cada una de las observaciones es similar, y ronda el 35% cualesquiera sean los valores de las variables que integran el modelo. Un test estadístico, el likelihood ratio, se lleva a cabo para rechazar o no la hipótesis nula. Si el valor de p que se obtiene es < 0.05, el modelo ajusta a la realidad mejor que el azar.
En el caso del análisis de sobrevida la variable predicha es tiempo al evento. Por azar y si no hubiera relación de las covariables con el resultado, sería esperable que el modelo predijera para todas las observaciones un tiempo similar, la media de todos los tiempos. Nuevamente el likelihood ratio explora este supuesto. Si el valor de p es < 0.05, entonces se rechaza la hipótesis nula y el modelo ajusta a lo observado mejor que el azar.
Si la primera pregunta era si el modelo predice en cada caso mejor que el azar, la segunda pregunta que podemos formular (en caso de que la primera hubiera sido respondida afirmativamente) es cuánto o cuán bien ajusta el modelo al predecir un valor determinado.
En el caso de una regresión lineal, el estadístico que permite responder la pregunta es R2, o coeficiente de variación. Ya nos referimos a R2 al desarrollar el tema de correlación. En este caso, R2 multiplicado por 100 indica qué porcentaje del cambio en el valor de la variable respuesta se explica a partir de la variación en el resultado de la ecuación del modelo predictor, de acuerdo con los diferentes valores que asuman las variables que conforman el modelo. Cuanto más cercano es el valor de R2 a 1, más ajusta el modelo a los datos.
En el caso de la regresión logística, el tema pasa por comparar los valores de probabilidad predichos con los efectivamente observados. Si, por ejemplo, hay una variable predictora con dos resultados posibles y una con tres, tendremos 6 patrones de covariables diferentes. Para cada uno de ellos el modelo definirá una probabilidad estimada de obtener un resultado afirmativo. Se puede entonces comparar la probabilidad estimada con la observada para cada patrón de covariables. En general, con modelos con mayor número de covariables, y donde algunas son variables continuas, el número de patrones de covariables crece mucho. Se recurre entonces al test de bondad de ajuste de Hosmer Lemeshow. En base a la probabilidad estimada de ocurrencia del evento, se definen en general 10 grupos de pacientes. El primero corresponde al 10% de sujetos con la probabilidad estimada más baja; el grupo siguiente al 10% de sujetos con probabilidad estimada inmediatamente superior; y así sucesivamente hasta llegar al último grupo, con el 10% de sujetos que tienen la probabilidad estimada más alta. Para cada grupo se compara la incidencia estimada de eventos con la incidencia real, u observada, y se obtiene un valor de p global, que refleja la significación estadística de la diferencia entre estimación y observación. Como se comprenderá, lo ideal es que el test arroje un valor de p no significativo. Ello implica que no hay en cada decilo diferencia entre lo predicho por el modelo y lo observado en realidad. Si esto es así diremos que el modelo calibra adecuadamente. La calibración del modelo tiene que ver justamente con la capacidad de predecir en cada caso una probabilidad (de acuerdo con el valor de las covariables) que sea fiel reflejo de la probabilidad observada.
Otro parámetro que se juzga para definir si el modelo ajusta bien en una regresión logística es el de la discriminación. El área bajo la curva ROC evalúa este aspecto. Básicamente establece, en modelos diagnósticos o pronósticos, frente a pares de pacientes en que uno de ellos presenta la condición o el evento de interés y el otro no, en qué proporción el modelo asigna mayor probabilidad de dicho evento o condición al que efectivamente corresponde. Si, por ejemplo, en 100 pares de pacientes donde en cada par uno padece determinada enfermedad y el otro no el área bajo la curva es 0,80, ello implica que 80 veces el modelo ha acertado al discriminar dentro de cada par quién tiene mayor probabilidad de estar enfermo.
En la evaluación de modelos de análisis de sobrevida rigen criterios similares a los de la regresión logística.
En la próxima entrega nos referiremos a cómo la ecuación de un modelo multivariado se traduce en una regla de predicción clínica, puntaje o score.
Dr. Jorge Thierer