Un estudi internacional en el qual han col·laborat la Universitat Rey Juan Carlos (URJC) de Madrid i l'Hospital Universitari d'Henares, a Coslada, determina que recórrer a la Intel·ligència Artificial (IA) per ampliar informació mèdica "és útil", si bé "la seva fiabilitat és variable i sempre s'ha de contrastar amb un professional sanitari".
Segons ha detallat la URJC, la investigació, en la qual també han participat experts del King's College i de la Universitat Solent de Londres, i que s'ha publicat a la revista especialitzada 'Artificial Intelligence in Medicine', "ha avaluat com responen 'ChatGPT' o 'Gemini' a les preguntes dels ciutadans sobre temes com l'epidural".
Els resultats mostren que "per respondre a aquest tipus de preguntes, el model amb millor rendiment global seria 'ChatGPT', seguit de 'Gemini'", ha indicat la URJC, que matisa que "no obstant això, la qualitat d'aquests models depèn de la mètrica avaluada". "Malgrat que 'ChatGPT' és el que demostra millors dades, dos models mitjans, 'OpenChat' i 'Phi-3', aconsegueixen resultats comparables, millorant significativament altres models de gran mida", ha assenyalat la investigadora principal, Marina del Barrio.
En opinió de Del Barrio, això "destaca la importància de les dades amb què s'entrenen enfront de la mida del model". La universitat subratlla a més que el treball "també s'ha centrat a distingir entre les respostes que poden ser confiables d'aquelles que poden confondre els pacients i, potencialment, alterar la seva presa de decisions".
"La dificultat de les preguntes també afecta la qualitat de les respostes, sent les més complexes o controvertides les que obtenen pitjors resultats", ha afegit la investigadora, la qual cosa implica que "això fa que els models siguin menys fiables en respondre preguntes sensibles". Per dur a terme l'anàlisi, "per recopilar tota la informació, l'equip científic va establir 10 preguntes per plantejar-les als diferents models de llenguatge, cadascuna reformulada de diferents maneres".
Metodologia i models d'IA avaluats
"Per a això, ens basem tant en la literatura com en la pràctica clínica i totes les preguntes van ser reformulades tant en espanyol com en anglès", ha explicat Del Barrio, precisant que "l'objectiu d'això era comprovar l'habilitat d'aquests models per entendre i respondre a diferents formulacions". Tot això, ha remarcat, "sempre amb enunciats senzills, com els que podria escriure una pacient a casa seva sense coneixements previs d'IA".
Posteriorment, i d'acord amb la URJC, es van triar els models a analitzar, entre ells 'ChatGPT', 'Gemini', 'OpenChat' o les versions 'Phi-2' i 'Phi-3', "i models mèdics especialitzats com 'MedLlama' i 'Meditron'". "Les mètriques per realitzar l'avaluació es van centrar en la tangibilitat, fiabilitat, sensibilitat, seguretat, empatia, comprensibilitat i concordança amb l'expert", ha assenyalat la institució, que afegeix que "les més de 2.400 respostes van ser consensuades i revisades de manera manual amb dos experts per establir quines eren acceptables".
"Les troballes d'aquest estudi obren la porta a desenvolupar sistemes d'IA més eficients i útils en Medicina, que serveixin de suport a professionals i pacients, sempre sota supervisió mèdica", ha conclòs la URJC, destacant igualment que "els resultats qüestionen la idea que els models més grans són sempre millors i apunten que l'entrenament i les dades influeixen més que la mida".
