Diseñan una forma más realista de evaluar la capacidad de los modelos de inteligencia artificial para tomar decisiones clínicas

Un estudio publicado en Nature Medicine aplica el enfoque del Marco de evaluación del razonamiento conversacional para las pruebas en medicina a cuatro modelos grandes de lenguaje (GPT-4, GPT-3.5, Mistral y LLaMA-2-7b) en 12 especialidades

Lilly-Nvidia- superordenador-IA

Redacción
La integración de grandes modelos de lenguaje (LLM) en los diagnósticos clínicos tienen el potencial de transformar la relación médico-paciente. Sin embargo, la preparación de estos modelos para la aplicación clínica en el mundo real sigue sin probarse adecuadamente. Investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford han diseñado una forma más realista de evaluar la capacidad de los modelos de inteligencia artificial (IA) para tomar decisiones clínicas. El estudio, publicado en Nature Medicine, presenta el enfoque del Marco de evaluación del razonamiento conversacional para las pruebas en medicina (CRAFT-MD) para evaluar los LLM clínicos.

«A diferencia de los métodos tradicionales que se basan en exámenes médicos estructurados, Craft-MD se centra en diálogos naturales, utilizando agentes de inteligencia artificial simulados para interactuar con los LLM en un entorno controlado», explican los investigadores. En concreto, aplicaron este enfoque a cuatro modelos grandes de lenguaje (GPT-4, GPT-3.5, Mistral y LLaMA-2-7b) para determinar su rendimiento en 2.000 viñetas clínicas que presentaban afecciones comunes en atención primaria y en 12 especialidades médicas para ver cómo se desempeñaban en entornos que imitaban las interacciones reales con los pacientes.

«Nuestros experimentos revelaron conocimientos críticos sobre las limitaciones de los LLM actuales en términos de razonamiento conversacional clínico, toma de antecedentes y precisión diagnóstica. Estas limitaciones también persistieron al analizar las capacidades de evaluación visual y conversacional multimodal de GPT-4V«, afirman los autores.

Al pasar de pruebas estandarizadas a conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión diagnóstica

Los cuatro grandes modelos lingüísticos obtuvieron buenos resultados en preguntas de tipo examen médico, pero su desempeño empeoró al participar en conversaciones que imitaban más de cerca el mundo real. «Nuestro trabajo revela una paradoja sorprendente: aunque estos modelos de IA sobresalen en los exámenes de certificación médica, tienen dificultades con el intercambio básico de una consulta médica», comenta Pranav Rajpurkar, autor principal del estudio y profesor asistente de informática biomédica en el Instituto Blavatnik de HMS.

De esta forma, los modelos tuvieron frecuentemente dificultades al hacer las preguntas correctas para recopilar la historia clínica pertinente del paciente, pasaban por alto información crítica durante la toma de la historia y tenían dificultades para sintetizar información dispersa. «La naturaleza dinámica de las conversaciones médicas, la necesidad de hacer las preguntas correctas en el momento adecuado, de unir información dispersa y de razonar a través de los síntomas, plantea desafíos únicos que van mucho más allá de responder preguntas de opción múltiple. Cuando pasamos de pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión diagnóstica«, añade.

Cómo optimizar el rendimiento de la IA 

Los investigadores proponen una serie de recomendaciones para potenciar el rendimiento de la IA en el mundo real. Entre ellas, preguntas abiertas y conversacionales que reflejen de forma más precisa las interacciones no estructuradas entre médico y paciente, evaluar los modelos por su capacidad de plantear las preguntas correctas y extraer la información esencial, diseñar modelos capaces de seguir múltiples conversación e integrar la información de las mismas o el diseño de modelos de IA capaces de integrar datos textuales (notas de conversaciones) con datos no textuales (imágenes, electrocardiogramas). Asimismo, abogan por el diseño de agentes de IA que puedan interpretar señales no verbales como expresiones faciales, tono y lenguaje corporal.

Los investigadores proponen un conjunto de pautas para optimizar el rendimiento de las herramientas de IA y alinearlas con la práctica del mundo real antes de integrarlas en la clínica

Además, los investigadores recomiendan que la evaluación incluya tanto a agentes de IA como a expertos humanos, ya que depender únicamente de expertos humanos es costoso y requiere mucho trabajo. Por ejemplo, Craft-MD superó a los evaluadores humanos, procesando 10.000 conversaciones en 48 a 72 horas, más 15 a 16 horas de evaluación de expertos. En cambio, los enfoques basados ​​en humanos requerirían un reclutamiento extenso y unas 500 horas para simulaciones de pacientes (casi tres minutos por conversación) y unas 650 horas para evaluaciones de expertos (casi cuatro minutos por conversación).

Como médico-científico, me interesan los modelos de IA que puedan mejorar la práctica clínica de manera eficaz y ética», afirma Roxana Daneshjou, coautora principal del estudio y profesora adjunta de ciencia de datos biomédicos y dermatología en la Universidad de Stanford. “Craft-MD crea un marco que refleja con mayor precisión las interacciones del mundo real y, por lo tanto, ayuda a que el campo avance en lo que respecta a probar el rendimiento de los modelos de IA en la atención médica».

Podcast

Podcast

Especiales

Atención primaria

Sanidad privada

iSanidadental

Anuario

Accede a iSanidad

Buscar
Síguenos en