Un análisis internacional concluye que la IA amplía la información médica, pero con fiabilidad variable

Un estudio internacional con participación española concluye que la IA ayuda a ampliar información médica, pero su fiabilidad es irregular y debe supervisarse.

2 minutos

Añadir DEMÓCRATA en Google

Publicado

2 minutos

Fren llega a Demócrata: el asistente de IA especializada de Vinces para entender la política, las leyes y la actualidad pública

Fren, el asistente de Inteligencia Artificial de Vinces
La IA especializada de Vinces se integra en DEMÓCRATA para simplificar la complejidad política y legislativa, ofreciendo contexto y formatos interactivos

Más leídas

Un estudio internacional en el que han colaborado la Universidad Rey Juan Carlos (URJC) de Madrid y el Hospital Universitario de Henares, en Coslada, determina que recurrir a la Inteligencia Artificial (IA) para ampliar información médica “es útil”, si bien “su fiabilidad es variable y siempre debe contrastarse con un profesional sanitario”.

Según ha detallado la URJC, la investigación, en la que también han participado expertos del King's College y de la Universidad Solent de Londres, y que se ha publicado en la revista especializada 'Artificial Intelligence in Medicine', “ha evaluado cómo responden 'ChatGPT' o 'Gemini' a las preguntas de los ciudadanos sobre temas como la epidural”.

Los resultados muestran que “para responder a este tipo de preguntas, el modelo con mejor rendimiento global sería 'ChatGPT', seguido de 'Gemini'”, ha indicado la URJC, que matiza que “no obstante, la calidad de estos modelos depende de la métrica evaluada”. “Pese a que 'ChatGPT' es el que demuestra mejores datos, dos modelos medianos, 'OpenChat' y 'Phi-3', consiguen resultados comparables, mejorando significativamente otros modelos de gran tamaño”, ha señalado la investigadora principal, Marina del Barrio.

En opinión de Del Barrio, esto “destaca la importancia de los datos con los que se entrenan frente al tamaño del modelo”. La universidad subraya además que el trabajo “también se ha centrado en distinguir entre las respuestas que pueden ser confiables de aquéllas que pueden confundir a los pacientes y, potencialmente, alterar su toma de decisiones”.

“La dificultad de las preguntas también afecta a la calidad de las respuestas, siendo las más complejas o controvertidas las que obtienen peores resultados”, ha añadido la investigadora, lo que implica que “esto hace que los modelos sean menos fiables al responder preguntas sensibles”. Para llevar a cabo el análisis, “para recabar toda la información, el equipo científico estableció 10 preguntas para planteárselas a los diferentes modelos de lenguaje, cada una reformulada de distintas maneras”.

Metodología y modelos de IA evaluados

“Para ello, nos basamos tanto en la literatura como en la práctica clínica y todas las preguntas fueron reformuladas tanto en español como en inglés”, ha explicado Del Barrio, precisando que “el objetivo de esto era comprobar la habilidad de estos modelos para entender y responder a diferentes formulaciones”. Todo ello, ha remarcado, “siempre con enunciados sencillos, como los que podría escribir una paciente en su casa sin conocimientos previos de IA”.

Posteriormente, y de acuerdo con la URJC, se eligieron los modelos a analizar, entre ellos 'ChatGPT', 'Gemini', 'OpenChat' o las versiones 'Phi-2' y 'Phi-3', “y modelos médicos especializados como 'MedLlama' y 'Meditron'”. “Las métricas para realizar la evaluación se centraron en la tangibilidad, fiabilidad, sensibilidad, seguridad, empatía, comprensibilidad y concordancia con el experto”, ha señalado la institución, que añade que “las más de 2.400 respuestas fueron consensuadas y revisadas de manera manual con dos expertos para establecer cuáles eran aceptables”.

“Los hallazgos de este estudio abren la puerta a desarrollar sistemas de IA más eficientes y útiles en Medicina, que sirvan de apoyo a profesionales y pacientes, siempre bajo supervisión médica”, ha concluido la URJC, destacando igualmente que “los resultados cuestionan la idea de que los modelos más grandes son siempre mejores y apuntan a que el entrenamiento y los datos influyen más que el tamaño”.

Hola, soy Fren. ¿Cómo te ayudo?