Redacción
Los modelos generativos de inteligencia artificial (GenIA) carecen de capacidades de razonamiento clínico, según un estudio realizado por investigadores del Mass General Brigham de la MESH Incubator (Estados Unidos) y cuyos resultados se han publicado en la revista JAMA Network Open.
En este estudio, los investigadores pidieron a 21 modelos de lenguaje grandes (LLM) diferentes que actuasen como médicos en una serie de escenarios clínicos. A raíz de esto, los investigadores demostraron que estos modelos a menudo fallaban al navegar por los procesos de diagnóstico y al elaborar una lista comprobable de diagnósticos potenciales o «diferenciales».
El estudio demostró que los modelos fallaban al navegar por los procesos de diagnóstico y al elaborar una lista comprobable de diagnósticos potenciales o «diferenciales»
Respecto a estos diagnósticos diferenciales, el Dr. Marc Succi, autor principal del estudio y director ejecutivo de la Incubadora MESH en el Hospital General de Massachusetts Brigham, señaló que «son fundamentales para el razonamiento clínico y constituyen la base del arte de la medicina, algo que la IA no puede replicar actualmente«.
El estudio mostró que todos los modelos de lenguaje grandes probados llegaron a un diagnóstico final correcto en más del 90% de los casos cuando se les proporcionó toda la información pertinente en un caso de paciente. Sin embargo, su desempeño fue deficiente en los pasos iniciales del proceso de diagnóstico, basados en el razonamiento.
A raíz de ello, el Dr. Succi ha destacado que «a pesar de las continuas mejoras, los modelos de lenguaje a gran escala disponibles comercialmente no están listos para su implementación clínica sin supervisión».
Por ello, ha sentenciado que el valor de la inteligencia artificial en la medicina clínica «reside en su potencial para complementar, no para reemplazar, el razonamiento médico, siempre que se disponga de todos los datos relevantes, lo cual no siempre ocurre».
El Dr. Succi resalta que el valor de la inteligencia artificial en la medicina clínica «reside en su potencial para complementar, no para reemplazar»
Anteriormente, este grupo de investigadores ya había evaluado la capacidad de ChatGPT 3.5 para diagnosticar con precisión una serie de casos clínicos. Pero, para este nuevo estudio, desarrollaron una medida novedosa y más integral de los modelos de aprendizaje lógico (MLL) que va más allá de la precisión, denominada PrIME-LLM.
Esta se encarga de evaluar la competencia de un modelo en diferentes etapas del razonamiento clínico: la formulación de posibles diagnósticos, la realización de pruebas adecuadas, la emisión de un diagnóstico final y la gestión del tratamiento.
Cuando los modelos se desempeñan bien en un área, pero mal en otra, este desequilibrio se refleja en la puntuación de PrIME-LLM, en lugar de promediar la competencia en todas las tareas, lo que podría enmascarar las áreas de debilidad, según los investigadores.
Con este nuevo método, evaluaron la capacidad de los modelos más recientes de ChatGPT, DeepSeek, Claude, Gemini y Grok para procesar 29 casos clínicos publicados. Para simular el desarrollo de los casos clínicos, los investigadores alimentaron gradualmente la información a los modelos, comenzando con datos básicos como la edad, el sexo y los síntomas del paciente, antes de agregar los hallazgos del examen físico y los resultados del laboratorio.
El desempeño de los modelos de lenguaje grandes en cada etapa fue evaluado por estudiantes de medicina, y estas evaluaciones se utilizaron para calcular las puntuaciones generales de PRIME-LLM de los modelos.
En consonancia con su estudio anterior, los investigadores descubrieron que los modelos de lógica difusa eran eficaces para generar diagnósticos finales precisos. Sin embargo, ninguno de los modelos logró generar un diagnóstico diferencial adecuado en más del 80% de los casos.
Ninguno de los modelos logró generar un diagnóstico diferencial adecuado en más del 80% de los casos
En la práctica clínica, un diagnóstico diferencial es fundamental, pero en este estudio, se proporcionó a los modelos información adicional para que pudieran avanzar a la siguiente etapa del proceso clínico incluso si fallaban en el diagnóstico diferencial.
«Al evaluar los modelos de lógica difusa de forma gradual, dejamos de tratarlos como meros examinadores y los colocamos en la posición de un médico. Estos modelos son excelentes para llegar a un diagnóstico final una vez que se dispone de todos los datos, pero tienen dificultades al inicio de un caso, cuando no hay mucha información», ha expuesto la Dra. Arya Rao, autora principal e investigadora del proyecto MESH.
«Estos modelos son excelentes si disponen de todos los datos, pero tienen dificultades cuando no hay mucha información», ha expuesto la Dra. Arya Rao
La mayoría de los modelos de lenguaje grandes mostraron una mayor precisión al proporcionarles resultados de laboratorio e imágenes, además del texto. Los modelos lanzados más recientemente generalmente superaron a los modelos más antiguos, lo que demuestra que los modelos están mejorando progresivamente. Las puntuaciones Prime-LLM de los modelos oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5.
Según el Dr. Succi, Prime-LLM representa una forma estandarizada de evaluar la competencia clínica de la IA que podría ser utilizada por los desarrolladores de IA y los líderes hospitalarios para comparar las nuevas tecnologías a medida que se lanzan.
«Queremos ayudar a distinguir la realidad de la exageración en lo que respecta a estas herramientas en el ámbito de la atención médica. Nuestros resultados refuerzan la idea de que los modelos de lenguaje complejos en el sector sanitario siguen requiriendo la intervención humana y una supervisión muy rigurosa», han finalizado los autores.









