ChatGPT demuestra su gran habilidad para realizar resúmenes de investigaciones médicas de alta calidad

Un estudio analiza la capacidad que tienen los modelos de lenguaje grandes para desarrollar diferentes funciones relacionadas con la redacción médica

Redacción
Un reciente estudio investiga la capacidad que tienen los modelos de lenguaje grandes (LLM), como ChatGPT-3.5, para generar resúmenes precisos, de alta calidad y libres de sesgos de investigaciones médicas, así como para determinar la relevancia de varios artículos y revistas para diferentes especialidades médicas. El estudio fue desarrollado por el Departamento de Medicina Familiar y Salud Comunitaria del Centro Médico de la Universidad de Kansas en Estados Unidos.

Para este propósito, se seleccionaron aleatoriamente diez artículos publicados en 2022 de cada una de las 14 revistas elegidas, que aún no había “visto” por ChatGPT debido a que el modelo funciona con datos anteriores a 2022. Luego se solicitó a ChatGPT que hiciera resúmenes de estos artículos. Después, se le pidió que evaluara la calidad, precisión y sesgo de sus propios resúmenes, así como que clasificará según su nivel de relevancia estos  artículos y revistas para diversas áreas de la medicina, como cardiología, medicina pulmonar, medicina de familia, entre otras. Además, médicos humanos también evaluaron la calidad de los resúmenes y la relevancia de los artículos y revistas para cada especialidad médica.

Los resúmenes que elaboró ChatGPT fueron un 70% más cortos que los que elaboraron los humanos

Los resultados del estudio contaron con un total de 140 resúmenes generados por ChatGPT. Estos resúmenes fueron un 70% más cortos que los elaborados por humanos. Tanto ChatGPT como los revisores médicos consideraron que los resúmenes eran de muy buena calidad, precisos y con bajo sesgo. No obstante, se encontraron algunas inexactitudes graves en cuatro de los 140 resúmenes, así como imprecisiones menores en 20 de los artículos, principalmente relacionadas con ambigüedades en el significado o detalles que podrían haber proporcionado contenido adicional pero no hubieran cambiado significativamente el sentido.

ChatGPT demostró su habilidad para clasificar revistas en especialidades médicas, pero también tuvo dificultades para ordenar artículos específicos

Asimismo, ChatGPT demostró habilidad para clasificar las revistas en especialidades médicas relevantes, pero tuvo grandes dificultades para ordenar artículos específicos en dichas especialidades. Se llegó a la conclusión que si bien los resúmenes generados por ChatGPT son generalmente precisos, existen algunas inexactitudes importantes que impiden considerarlos como fuentes definitivas de información.

En vista de estos resultados, se recomienda a los médicos que no se basen únicamente en resúmenes generados por ChatGPT para comprender los métodos y resultados de los estudios, especialmente en situaciones de alto riesgo. Las decisiones médicas críticas deben basarse en una evaluación completa del texto completo de los artículos, considerando la evidencia disponible a partir de metanálisis y directrices profesionales. Sin embargo, el estudio sugiere que ChatGPT puede ser útil como herramienta para ayudar a los médicos y científicos a evaluar rápidamente si vale la pena revisar un artículo en mayor detalle.

Opinión

Multimedia

Economía

Accede a iSanidad

Síguenos en