Un número de magia
Una opinión del editor de la página web, Dr. Jorge Thierer
Dos notas publicadas recientemente en esta página web por Alejandra Folgarait sobre temas de actualidad cardiológica invitan a formular algunas reflexiones sobre nuestra relación con los números, y nuestra manera de estimar y medir.
Pocas especialidades de la medicina se vinculan con los números en forma tan estrecha como la cardiología. La determinación de diámetros, volúmenes, áreas, fracciones e índices es parte esencial de nuestra práctica, y define una y otra vez la diferencia entre salud y enfermedad, y la indicación o no de determinadas conductas. El empleo de valores numéricos comunica la idea de objetividad y pretende generar certeza. Tomamos decisiones porque el paciente tiene una fracción de eyección por debajo de, una tensión arterial sistólica por encima de. La medición reemplaza a la opinión: el área valvular se mide, la intensidad del soplo se escucha. Y creemos que todos miden igual, pero no todos escuchan igual. ¿Es realmente así? ¿Son los números irrefutables y solo las palabras implican simplemente una opinión?
Llevados por nuestra vocación de objetivar pedimos al paciente que al referirse a la intensidad de la angina le ponga un número, “en una escala de 1 a 10” para refinar la descripción y para evaluar la respuesta al tratamiento en el contexto de un síndrome coronario agudo. Y pareciera que escuchar “es 9” fuera mejor que “me duele mucho”, y “bajó de 8 a 5” más redituable que escuchar “me duele menos”. Como si no fueran ambas formas de expresión igualmente subjetivas, como si todo paciente estuviera preparado y habituado a hacer la traducción numérica de una sensación (ahora soy feliz 5 en 10, me siento preocupado entre 6 y 7). Y como si esa valoración fuera más reproducible y repetible que la expresión verbal. Que quede claro que no renegamos de esta forma de interrogar el dolor; que se entienda sí que los números en este caso tienen el valor de palabras, teñidos de las mismas emociones y factores personales. Que los números pueden ser también una forma de narrativa. El mismo cuadro, con la misma sumatoria de elevación del segmento ST, igual número de derivaciones comprometidas, y mismos signos vitales se acompaña de un dolor que es para el paciente 7 en un momento y 5 luego, porque está más tranquilo, porque se siente acompañado y tratado.
El caso de la insuficiencia cardíaca y la fracción de eyección
Vayamos ahora específicamente a las notas que mencionamos. La primera es la referida a la aparición de la nueva guía de Insuficiencia Cardíaca de la Sociedad Europea de Cardiología. Una de las novedades que se han mencionado es la presentación de una nueva entidad: la insuficiencia cardíaca (IC) en el rango medio, la de aquellos pacientes que tienen una fracción de eyección del ventrículo izquierdo (FEVI) entre 40 y 49%.
Un poco de historia al respecto. La guía anterior de la misma Sociedad, del año 2012, establecía la existencia de una IC con FEVI deprimida (< 35%) y una IC con FEVI preservada (≥ 50%). Entre ambas se reconocía la existencia de una zona gris. Al año siguiente se publicó la guía ACC/AHA, que establecía como valor de corte para IC con FEVI deprimida una FEVI < 40%, y coincidía en una FEVI > 50% para hablar de IC con FEVI preservada. También en este caso se admitía la zona gris. Esta zona intermedia parecía reconocer algunos hechos concretos. El primero: la FEVI no es un valor fijo. Como mucho otro fenómeno biológico tiene variabilidad. La debida al método (en el mismo paciente no es la misma evaluada por ecocardiograma bidimensional, tridimensional, radiosótopos, ventriculograma angiográfico o resonancia magnética), la atribuible a la falta de concordancia inter e intraobservador, y la debida a fenómenos biológicos (puede haber variación en el mismo día de hasta un 30% en términos relativos, por cambios en el tono simpático, variación en las condiciones de carga, etc.). El segundo: solo a efectos operativos podemos entender que una entidad clínica tiene un valor de corte estricto para definirla. ¿Una FEVI de 34% implicaba deterioro de función, y una de 36% no? Reconocer la existencia de una zona nebulosa implicaba aceptar que donde leemos 32% podremos también leer 38% en un estudio subsiguiente, y donde nos informan 47% podrán luego decirnos 54%, y que el orden de los resultados puede también ser el inverso en cada caso, sin que, tal vez, nada haya cambiado sustancialmente.
Pero, ¿qué hacer si esa zona de transición, que honra el concepto de variabilidad, se convierte en una entidad en sí? ¿Nos resulta eso confiable? ¿Podemos creer que en ese estrecho rango de “ni muy muy ni tan tan” ocurren fenómenos diferentes de las 2 entidades mayores? ¿Y cómo hacer para afirmar que un paciente reside en esta novedad de la nueva clasificación, y no es en realidad tributario de alguna de las 2 formas tradicionales? Sobre todo, si el rango medio abarca ¡sólo 10 puntos de FEVI! ¿No serán necesarias en realidad mediciones repetidas para confirmar que la FEVI es efectivamente una que está entre 40% y 49%? Y, respecto de la terapéutica… ¿deberemos asistir a nuevos y costosos estudios centrados en esta entidad?
Recordemos que los ensayos clínicos aleatorizados que evaluaron antagonistas neurohormonales en IC con FEVI preservada ya habían tomado como valor de corte una FEVI > 40% (CHARM Preserved y PEP CHF) o > 45% (I Preserve y TOP CAT), con los resultados que todos conocemos. Recordemos también, en voz baja para no molestar, que la mayor parte de la evidencia sobre tratamiento de IC con FEVI deprimida proviene de ensayos donde la definición se hizo en base a una FEVI < 35%, no a una < 40%. De hecho, entonces, la zona verdaderamente inexplorada por la mayoría de los ensayos es la de FEVI entre 35% y 40% o 45%, y no la que ahora se postula. Y estamos bien lejos de pedir estudios para ese rango.
Aceptados los hechos como son, y asumidos los valores de corte aceptados ahora globalmente, podemos suponer que si se hicieran nuevos ensayos y se repitieran los resultados vistos en FEVI preservada, desde el punto de vista del tratamiento asemejaríamos la IC de rango medio a esta última. Si por el contario se encontrara que específicamente una FEVI entre 40% y 49% se asocia a efecto favorable del tratamiento convencional de la IC con FEVI deprimida, entonces la nueva entidad terminaría subsumida en aquella. En cualquier caso, llevados por la necesidad de establecer límites y valores de corte, hemos perdido la capacidad de reconocer que las determinaciones no son permanentes, que el número que expresa la FEVI no es una realidad congelada, y que los conceptos de variabilidad y error de medición deberían ser más incorporados a la práctica diaria.
Los modelos predictivos que no predicen tan bien como quisiéramos
En el caso anterior un número sirve para definir la presencia o no de una forma u otra de insuficiencia cardíaca. Otro ejemplo de números dudosos es el que surge de la nota referida al estudio del sistema de salud Kaiser Permanente, que encontró que el uso de la calculadora de riesgo ACC/AHA sobreestima el riesgo de eventos cardiovasculares y define por ende en un número mayor de pacientes que el correcto una conducta inapropiada. No es nuestro propósito referirnos a este caso en particular, que ha sido excelentemente comentado por los especialistas que opinaron, sino hacer algunas consideraciones sobre los modelos predictivos de eventos en general.
Una excelente revisión (Wessler et al. Circ Cardiovasc Qual Outcomes 2015; 8: 368-375) revela que entre 1.990 y 2.012 fueron desarrollados 796 modelos diagnósticos o pronósticos de patología cardiovascular (solo 3 en 1990, 53 en 2011), incluyendo 215 en enfermedad coronaria (78 predictivos de mortalidad), 168 en población general (52 con predicción de morbimortalidad), y 79 en insuficiencia cardíaca (49 de ellos con predicción de mortalidad). La mediana de variables consideradas en los modelos pronósticos citados oscila entre 8 y 11, el percentilo 75 entre 10 y 17. Ahora bien, en esta selva inextricable de modelos, ¿hay coincidencia para cada patología entre los mismos? ¿Toman en cuenta las mismas variables? ¿Han sido validados en otras poblaciones? La respuesta es generalmente no.
Dichos modelos surgen de una población (el set de derivación) a la que se sigue en el tiempo definiendo la incidencia de eventos y las variables que los predicen en forma independiente, y son luego evaluados en otras poblaciones (set de validación). Es lógicamente esperable que el desempeño del modelo sea mejor, tomando en cuenta la calibración (capacidad de acertar la cantidad de eventos en la población, de manera que el número observado coincida con el predicho) y la discriminación (capacidad de diferenciar entre quienes presentarán el evento y quienes no), en la población de la que se deriva el modelo que en aquellas en las que se valida. De acuerdo con las variables consideradas en el modelo y el puntaje que se asigna a cada una surge el valor que corresponde a cada individuo, y por ende su probabilidad de eventos en un tiempo determinado. La regla, y no la excepción, es que los números “no cierren” tan bien cuando se aplican en otra población, distante en el espacio (otras características biológicas, sociales, económicas y del medio) o en el tiempo (donde a los cambios estructurales se suma una medicina que ya no es la misma, con otras pautas diagnósticas, y nuevos abordajes y tratamientos para la patología de interés y, cosa que suele olvidarse, otras condiciones que en forma directa o indirecta influyen sobre el pronóstico global). Por eso es que el intento de definir el futuro con un número surgido de un modelo termina necesitando “recalibrarse”, término que implica que ya no es lo que parecía ser.
Pero hay además otros factores. Aunque parezca una perogrullada, el modelo solo considera las variables que fueron tenidas en cuenta al momento de construirlo. Una o más variables no consideradas que contribuyan a definir el pronóstico harán que indefectiblemente la capacidad de discriminación no sea la que esperábamos. Sabemos cómo los factores socioeconómicos, el aislamiento, la depresión, el deterioro cognitivo y la fragilidad propenden a la ocurrencia de eventos. ¿Los vemos reflejados en las reglas simples de predicción o en modelos más complejos?
Los modelos se refieren a poblaciones y hablan del valor pronóstico de determinadas variables en poblaciones, no en individuos particulares. No podemos trasladar automáticamente la evidencia de un estudio de 1000 ó 2000 pacientes a nuestro paciente en particular; tendremos que considerar en cada caso la información que se pueda obtener de dicho paciente, y entender que la precisión en el pronóstico será mayor para una población que para el paciente individual. Pensemos que el intervalo de confianza de una medición es menor cuanto mayor el número de observaciones. Si para 1.000 observaciones el intervalo de confianza es uno determinado, ¿cuánto más ancho será para 100 ó 10? Y entonces, ¿cuál será en nuestro paciente individual?
Como en los casos anteriores, nada de lo antedicho implica negar el valor de estos intentos de descifrar el futuro para poder torcer el destino. Cuanto más sabemos sobre nuestro paciente, más podemos acercarnos a acertar. Pero es menester insistir en que los números en este caso hablan de probabilidad, de aleatoriedad. Recordar que así como los métodos diagnósticos tienen error de medición, los modelos pronósticos adolecen de error de predicción, y que la variabilidad nuevamente vuelve a tener un rol primordial. El sistema con el que trabajamos es complejo, y la naturaleza de los que buscamos predecir es no lineal. No se predice la trayectoria de un proyectil o un cuerpo celeste, se busca definir la ocurrencia de un infarto, de una internación o de la muerte. Podremos en algunos casos ser más certeros, sobre todo si predecimos a corto o muy corto plazo. Deberemos tener en cuenta que la capacidad de predicción se degrada con el paso del tiempo. ¿O alguien supone que las condiciones evaluadas hoy se mantienen estancas en el curso de uno o más años? Una mínima variación amplifica sus efectos a medida que el tiempo transcurre. Un mínimo redondeo en una cifra cambia sustancialmente la predicción.
En concreto, y para terminar: también en el caso de la predicción, bajo la apariencia de lo ineluctable o indiscutible, el número tiene variabilidad y error, e implica una dosis no menor de incerteza. Como quiere Borges en El arte narrativo y la magia (Discusión, 1932), hay “dos procesos causales: el natural, que es el resultado incesante de incontrolables e infinitas operaciones; el mágico, donde profetizan los pormenores, lúcido y limitado.” Que los números puedan acercarnos a develar el primero depende de nuestra comprensión acabada de lo que significan.