La UNED ha col·laborat en la creació d'un sistema d'intel·ligència artificial capaç de transformar de forma automàtica els informes mèdics en codis clínics normalitzats, un pas essencial per a estructurar la informació sanitària i facilitar-ne l'explotació i ús en investigació.
Tal com detalla la universitat, el projecte planteja una arquitectura que converteix textos mèdics en codis de la Classificació Internacional de Malalties (CIE) mitjançant un flux de treball en tres etapes: reconeixement d'entitats, classificació supervisada i anàlisi de similitud semàntica. Provat sobre corpus en espanyol i anglès, el sistema ha obtingut resultats competitius i una millora mitjana del 3,42 % en la mètrica F1 enfront d'enfocaments anteriors.
La codificació clínica fa possible traduir el contingut dels informes -diagnòstics, símptomes, procediments o antecedents- a un llenguatge comú basat en codis estandarditzats. D'aquesta manera, professionals de diferents centres poden registrar i consultar les dades de manera homogènia, la qual cosa simplifica la gestió sanitària i l'anàlisi posterior de grans volums d'informació.
Malgrat això, especialistes del sector recorden que aquesta tasca continua realitzant-se en gran manera de forma manual, amb un alt consum de temps i recursos humans. "Els sistemes que automatitzin el procés aporten molt de valor, ja que converteixen una tasca molt tediosa i de moltes hores en un procés ràpid i eficient, que al seu torn permet dedicar més temps a investigar i analitzar la informació", explica Alicia Ramírez, investigadora del grup NLP&IR del Departament de Llenguatges i Sistemes Informàtics de la UNED i participant en el desenvolupament del sistema.
La proposta integra a més dues aportacions rellevants. D'una banda, incorpora una fase no supervisada que permet localitzar codis que el model no havia trobat durant l'entrenament, ampliant la seva capacitat d'adaptació a escenaris reals. D'altra banda, pot interpretar referències complexes presents en el text clínic, com mencions fragmentades o superposades que han d'entendre's de forma conjunta per a assignar el codi adequat.
Una IA capaç de justificar les seves decisions
Un dels elements més novedosos del treball és que el sistema no actua com una caixa negra. A més de generar una codificació proposada, ressalta els fragments concrets de l'informe mèdic que donen suport a cada predicció. "El sistema presentat, a més de predir els codis CIE-10, retorna les parts del text que justifiquen dites prediccions", indica la investigadora. Això permet que el personal sanitari comprengui per què s'ha triat un determinat codi i validi el resultat de forma més àgil i transparent.
Per validar-ne el comportament, el sistema es va sotmetre a proves amb corpus en espanyol i anglès. Encara que els models es van entrenar per separat per a cada conjunt de dades, l'objectiu era evidenciar que la metodologia manté el seu rendiment en contextos diversos i no es limita a un únic tipus de documentació clínica.
Segons Ramírez, la millora aconseguida -un 3,42 % en F1- resulta especialment significativa en una tasca molt exigent des del punt de vista computacional. L'experta recorda que la codificació clínica automàtica opera amb llenguatge mèdic altament especialitzat i amb més de 100.000 codis possibles, de manera que avenços aparentment modestos tenen un efecte notable en la precisió i la cobertura del sistema.
El següent pas de la investigació serà construir una demo funcional que permeti introduir textos clínics i mostrar automàticament tant els codis suggerits com els fragments que justifiquen cada decisió. Si els resultats són satisfactoris, aquesta línia de treball podria obrir la porta a futures aplicacions en entorns assistencials o d'investigació.
El desenvolupament s'ha dut a terme gràcies a la infraestructura de la UNED i al coneixement especialitzat del grup NLP&IR en processament del llenguatge natural aplicat a l'àmbit biomèdic, una línia de treball consolidada dins del Departament de Llenguatges i Sistemes Informàtics.