Un estudio internacional con participación española concluye que la IA ayuda a ampliar información médica, pero su fiabilidad es irregular y debe supervisarse.

2 minutos

Por Agencias

Publicado

19 JUN., 2026 - 16:34

2 minutos

Fren llega a Demócrata: el asistente de IA especializada de Vinces para entender la política, las leyes y la actualidad pública

Fren, el asistente de Inteligencia Artificial de Vinces

La IA especializada de Vinces se integra en DEMÓCRATA para simplificar la complejidad política y legislativa, ofreciendo contexto y formatos interactivos

Más leídas

El alcance de los cambios en la pasarela al RETA: ¿hasta dónde llega el ‘roto’ de las enmiendas de la oposición?

4 minutos

El Gobierno retrasa el cuadro macro y lo aprobará junto al decreto-ley anticrisis el 29 de junio

2 minutos

La UE ante el desafío de controlar el comercio electrónico

3 minutos

Interrumpida la circulación del AVE entre Madrid y Barcelona por un incendio en Lleida

2 minutos

España pide pragmatismo con China ante una Europa cada vez más escéptica: "Necesitamos amigos"

6 minutos

Un estudio internacional en el que han colaborado la Universidad Rey Juan Carlos (URJC) de Madrid y el Hospital Universitario de Henares, en Coslada, determina que recurrir a la Inteligencia Artificial (IA) para ampliar información médica “es útil”, si bien “su fiabilidad es variable y siempre debe contrastarse con un profesional sanitario”.

Según ha detallado la URJC, la investigación, en la que también han participado expertos del King's College y de la Universidad Solent de Londres, y que se ha publicado en la revista especializada 'Artificial Intelligence in Medicine', “ha evaluado cómo responden 'ChatGPT' o 'Gemini' a las preguntas de los ciudadanos sobre temas como la epidural”.

Los resultados muestran que “para responder a este tipo de preguntas, el modelo con mejor rendimiento global sería 'ChatGPT', seguido de 'Gemini'”, ha indicado la URJC, que matiza que “no obstante, la calidad de estos modelos depende de la métrica evaluada”. “Pese a que 'ChatGPT' es el que demuestra mejores datos, dos modelos medianos, 'OpenChat' y 'Phi-3', consiguen resultados comparables, mejorando significativamente otros modelos de gran tamaño”, ha señalado la investigadora principal, Marina del Barrio.

En opinión de Del Barrio, esto “destaca la importancia de los datos con los que se entrenan frente al tamaño del modelo”. La universidad subraya además que el trabajo “también se ha centrado en distinguir entre las respuestas que pueden ser confiables de aquéllas que pueden confundir a los pacientes y, potencialmente, alterar su toma de decisiones”.

“La dificultad de las preguntas también afecta a la calidad de las respuestas, siendo las más complejas o controvertidas las que obtienen peores resultados”, ha añadido la investigadora, lo que implica que “esto hace que los modelos sean menos fiables al responder preguntas sensibles”. Para llevar a cabo el análisis, “para recabar toda la información, el equipo científico estableció 10 preguntas para planteárselas a los diferentes modelos de lenguaje, cada una reformulada de distintas maneras”.

Metodología y modelos de IA evaluados

“Para ello, nos basamos tanto en la literatura como en la práctica clínica y todas las preguntas fueron reformuladas tanto en español como en inglés”, ha explicado Del Barrio, precisando que “el objetivo de esto era comprobar la habilidad de estos modelos para entender y responder a diferentes formulaciones”. Todo ello, ha remarcado, “siempre con enunciados sencillos, como los que podría escribir una paciente en su casa sin conocimientos previos de IA”.

Posteriormente, y de acuerdo con la URJC, se eligieron los modelos a analizar, entre ellos 'ChatGPT', 'Gemini', 'OpenChat' o las versiones 'Phi-2' y 'Phi-3', “y modelos médicos especializados como 'MedLlama' y 'Meditron'”. “Las métricas para realizar la evaluación se centraron en la tangibilidad, fiabilidad, sensibilidad, seguridad, empatía, comprensibilidad y concordancia con el experto”, ha señalado la institución, que añade que “las más de 2.400 respuestas fueron consensuadas y revisadas de manera manual con dos expertos para establecer cuáles eran aceptables”.

“Los hallazgos de este estudio abren la puerta a desarrollar sistemas de IA más eficientes y útiles en Medicina, que sirvan de apoyo a profesionales y pacientes, siempre bajo supervisión médica”, ha concluido la URJC, destacando igualmente que “los resultados cuestionan la idea de que los modelos más grandes son siempre mejores y apuntan a que el entrenamiento y los datos influyen más que el tamaño”.