Sanitat

Un anàlisi internacional conclou que la IA amplia la informació mèdica, però amb fiabilitat variable

Un estudi internacional amb participació espanyola conclou que la IA ajuda a ampliar informació mèdica, però la seva fiabilitat és irregular i s'ha de supervisar.

2 minuts

Per Agencias

Publicat

19 JUNY, 2026 - 16:34

2 minuts

Fren arriba a Demòcrata: l'assistent d'IA especialitzat de Vinces per entendre la política, les lleis i l'actualitat pública

La IA especialitzada de Vinces s'integra a Demócrata per simplificar la complexitat política i legislativa, oferint context i formats interactius

Més llegides

1

ERC ordena als seus diputats prioritzar Catalunya davant un Govern del PSOE al qual veu feble

1 minut

2

El PNB insta Sánchez a convocar eleccions si fracassa amb els Pressuposts

2 minuts

3

Enquesta eleccions a Catalunya: Illa es desploma mentre Aliança Catalana irromp amb força, segons Sigma Dos

2 minuts

4

Ampliación | El Congrés dóna llum verda al Tractat d'Amistat amb França malgrat el rebuig de PP i Vox i l'envia al Senat

3 minuts

5

El Parlament reclama un acord de país per millorar la qualitat educativa

1 minut

Un estudi internacional en el qual han col·laborat la Universitat Rey Juan Carlos (URJC) de Madrid i l'Hospital Universitari d'Henares, a Coslada, determina que recórrer a la Intel·ligència Artificial (IA) per ampliar informació mèdica "és útil", si bé "la seva fiabilitat és variable i sempre s'ha de contrastar amb un professional sanitari".

Segons ha detallat la URJC, la investigació, en la qual també han participat experts del King's College i de la Universitat Solent de Londres, i que s'ha publicat a la revista especialitzada 'Artificial Intelligence in Medicine', "ha avaluat com responen 'ChatGPT' o 'Gemini' a les preguntes dels ciutadans sobre temes com l'epidural".

Els resultats mostren que "per respondre a aquest tipus de preguntes, el model amb millor rendiment global seria 'ChatGPT', seguit de 'Gemini'", ha indicat la URJC, que matisa que "no obstant això, la qualitat d'aquests models depèn de la mètrica avaluada". "Malgrat que 'ChatGPT' és el que demostra millors dades, dos models mitjans, 'OpenChat' i 'Phi-3', aconsegueixen resultats comparables, millorant significativament altres models de gran mida", ha assenyalat la investigadora principal, Marina del Barrio.

En opinió de Del Barrio, això "destaca la importància de les dades amb què s'entrenen enfront de la mida del model". La universitat subratlla a més que el treball "també s'ha centrat a distingir entre les respostes que poden ser confiables d'aquelles que poden confondre els pacients i, potencialment, alterar la seva presa de decisions".

"La dificultat de les preguntes també afecta la qualitat de les respostes, sent les més complexes o controvertides les que obtenen pitjors resultats", ha afegit la investigadora, la qual cosa implica que "això fa que els models siguin menys fiables en respondre preguntes sensibles". Per dur a terme l'anàlisi, "per recopilar tota la informació, l'equip científic va establir 10 preguntes per plantejar-les als diferents models de llenguatge, cadascuna reformulada de diferents maneres".

Metodologia i models d'IA avaluats

"Per a això, ens basem tant en la literatura com en la pràctica clínica i totes les preguntes van ser reformulades tant en espanyol com en anglès", ha explicat Del Barrio, precisant que "l'objectiu d'això era comprovar l'habilitat d'aquests models per entendre i respondre a diferents formulacions". Tot això, ha remarcat, "sempre amb enunciats senzills, com els que podria escriure una pacient a casa seva sense coneixements previs d'IA".

Posteriorment, i d'acord amb la URJC, es van triar els models a analitzar, entre ells 'ChatGPT', 'Gemini', 'OpenChat' o les versions 'Phi-2' i 'Phi-3', "i models mèdics especialitzats com 'MedLlama' i 'Meditron'". "Les mètriques per realitzar l'avaluació es van centrar en la tangibilitat, fiabilitat, sensibilitat, seguretat, empatia, comprensibilitat i concordança amb l'expert", ha assenyalat la institució, que afegeix que "les més de 2.400 respostes van ser consensuades i revisades de manera manual amb dos experts per establir quines eren acceptables".

"Les troballes d'aquest estudi obren la porta a desenvolupar sistemes d'IA més eficients i útils en Medicina, que serveixin de suport a professionals i pacients, sempre sota supervisió mèdica", ha conclòs la URJC, destacant igualment que "els resultats qüestionen la idea que els models més grans són sempre millors i apunten que l'entrenament i les dades influeixen més que la mida".