Un grupo de investigadores del Departamento de Lenguajes y Sistemas Informáticos de la ETSI Informática de la Universidad Nacional de Educación a Distancia (UNED), junto con especialistas en salud pública de la Consejería de Sanidad de la Comunidad de Madrid, ha diseñado una herramienta de inteligencia artificial (IA) capaz de localizar y clasificar 19 enfermedades raras en informes clínicos de pacientes en edad pediátrica.
El estudio, difundido en “Scientific Reports”, pretende aportar una respuesta al reto de identificar con exactitud menciones a patologías poco frecuentes en historias médicas reales, redactadas sin un formato homogéneo y con la complejidad habitual del lenguaje clínico.
A partir de cerca de 250.000 notas médicas, el equipo ha construido un sistema híbrido que combina técnicas lingüísticas avanzadas con modelos basados en arquitecturas “Transformer”, un tipo de redes neuronales que ha transformado el procesamiento del lenguaje natural gracias a su capacidad para manejar grandes volúmenes de texto, detectar patrones complejos y captar el contexto de las palabras en una frase con más precisión que los enfoques tradicionales.
El procedimiento automatiza una fase inicial de filtrado, en la que la IA localiza posibles referencias a enfermedades raras, que abarcan desde síndromes genéticos hasta trastornos metabólicos extremadamente infrecuentes, y posteriormente especialistas clínicos revisan y validan esas detecciones. De esta colaboración ha surgido un corpus de 1.900 informes clínicos anotados, considerado uno de los recursos más relevantes hasta ahora para el análisis de estas patologías en lengua española.
De acuerdo con los resultados del trabajo, los modelos más avanzados fueron capaces de reconocer correctamente más del 78 por ciento de los casos, una métrica que integra tanto la precisión como la capacidad de detección. Este rendimiento supone una mejora superior a diez puntos frente a los primeros sistemas probados, un salto especialmente significativo en un entorno donde la disponibilidad de datos es reducida, como suele suceder con las enfermedades raras.
La calidad del sistema también está relacionada con una adaptación muy cuidadosa al español utilizado en la práctica clínica: tratamiento específico de las negaciones, diferenciación entre enfermedades activas y antecedentes familiares, así como la detección de menciones indirectas. Todos estos aspectos resultan esenciales para evitar confundir diagnósticos confirmados con sospechas, descartes o información heredada.
El trabajo abre nuevas líneas de investigación y pone de manifiesto el potencial de estas herramientas para respaldar al personal sanitario en tareas de cribado, lectura y análisis de miles de notas clínicas, que hoy en día exigen una revisión manual, lo que podría ayudar a acortar los tiempos de diagnóstico y optimizar la atención de pacientes con patologías de muy baja prevalencia.
El proyecto se integra en iniciativas como el Registro Regional de Enfermedades Raras (SIERMA), impulsado por la Dirección General de Salud Pública de la Comunidad de Madrid, orientadas a perfeccionar la detección y el seguimiento de casos desde la Atención Primaria.










