La UNED ha colaborado en la creación de un sistema de inteligencia artificial capaz de transformar de forma automática los informes médicos en códigos clínicos normalizados, un paso esencial para estructurar la información sanitaria y facilitar su explotación y uso en investigación.
Tal y como detalla la universidad, el proyecto plantea una arquitectura que convierte textos médicos en códigos de la Clasificación Internacional de Enfermedades (CIE) mediante un flujo de trabajo en tres etapas: reconocimiento de entidades, clasificación supervisada y análisis de similitud semántica. Probado sobre corpus en español e inglés, el sistema ha obtenido resultados competitivos y una mejora media del 3,42 % en la métrica F1 frente a enfoques anteriores.
La codificación clínica hace posible traducir el contenido de los informes -diagnósticos, síntomas, procedimientos o antecedentes- a un lenguaje común basado en códigos estandarizados. De este modo, profesionales de distintos centros pueden registrar y consultar los datos de manera homogénea, lo que simplifica la gestión sanitaria y el análisis posterior de grandes volúmenes de información.
Pese a ello, especialistas del sector recuerdan que esta tarea continúa realizándose en gran medida de forma manual, con un alto consumo de tiempo y recursos humanos. “Los sistemas que automaticen el proceso aportan mucho valor, ya que convierten una tarea muy tediosa y de muchas horas en un proceso rápido y eficiente, que a su vez permite dedicar más tiempo a investigar y analizar la información”, explica Alicia Ramírez, investigadora del grupo NLP&IR del Departamento de Lenguajes y Sistemas Informáticos de la UNED y participante en el desarrollo del sistema.
La propuesta integra además dos aportaciones relevantes. Por un lado, incorpora una fase no supervisada que permite localizar códigos que el modelo no había encontrado durante el entrenamiento, ampliando su capacidad de adaptación a escenarios reales. Por otro, puede interpretar referencias complejas presentes en el texto clínico, como menciones fragmentadas o superpuestas que han de entenderse de forma conjunta para asignar el código adecuado.
Una IA capaz de justificar sus decisiones
Uno de los elementos más novedosos del trabajo es que el sistema no actúa como una caja negra. Además de generar una codificación propuesta, resalta los fragmentos concretos del informe médico que respaldan cada predicción. “El sistema presentado, además de predecir los códigos CIE-10, devuelve las partes del texto que justifican dichas predicciones”, indica la investigadora. Esto permite que el personal sanitario comprenda por qué se ha elegido un determinado código y valide el resultado de forma más ágil y transparente.
Para validar su comportamiento, el sistema se sometió a pruebas con corpus en español e inglés. Aunque los modelos se entrenaron por separado para cada conjunto de datos, el objetivo era evidenciar que la metodología mantiene su rendimiento en contextos diversos y no se limita a un único tipo de documentación clínica.
Según Ramírez, la mejora lograda -un 3,42 % en F1- resulta especialmente significativa en una tarea muy exigente desde el punto de vista computacional. La experta recuerda que la codificación clínica automática opera con lenguaje médico altamente especializado y con más de 100.000 códigos posibles, de modo que avances aparentemente modestos tienen un efecto notable en la precisión y la cobertura del sistema.
El siguiente paso de la investigación será construir una demo funcional que permita introducir textos clínicos y mostrar automáticamente tanto los códigos sugeridos como los fragmentos que justifican cada decisión. Si los resultados son satisfactorios, esta línea de trabajo podría abrir la puerta a futuras aplicaciones en entornos asistenciales o de investigación.
El desarrollo se ha llevado a cabo gracias a la infraestructura de la UNED y al conocimiento especializado del grupo NLP&IR en procesamiento del lenguaje natural aplicado al ámbito biomédico, una línea de trabajo consolidada dentro del Departamento de Lenguajes y Sistemas Informáticos.