CARMEN-I, fruto de la colaboración entre el BSC y el Hospital Clínic de Barcelona, se pondrá a disposición pública de personal clínico, investigadores en IA, academia y la industria en España y globalmente
Los últimos recursos y avances del Plan de Tecnologías del Lenguaje (TL) aplicado al ámbito de la salud y la biomedicina, impulsado por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), fueron presentados en el Infoday "IA y tecnologías del lenguaje aplicado a datos clínicos: CARMEN-I recursos, sistemas y aplicaciones", organizado por el Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) y el Hospital Clínic de Barcelona.
El evento, que supuso un éxito de asistencia con 360 participantes entre presenciales y a distancia, representó una oportunidad de difusión, formación e interacción del Plan TL con el sector tecnológico de Procesamiento del Lenguaje Natural y de Inteligencia Artificial (PLN/IA) y representantes y expertos del sector de la sanidad pública, privada e investigación biomédica.
Entre los presentes destacaron representantes del Clínic y el BSC como organizadores, además de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), de la Agencia Española de Medicamentos y Productos Sanitarios (AEMPS) y del Instituto de Salud Carlos III, junto a una representación de hospitales y sistemas de salud y numerosas compañías del sector.
El interés en el desarrollo de sistemas de inteligencia artificial y procesamiento del lenguaje natural aplicados al dominio de la salud y la biomedicina está en constante crecimiento, y estas tecnologías tienen un impacto socioeconómico relevante en términos de eficiencia y gestión de recursos. El mercado global de PLN en salud y ciencias de la vida se valora en 5.029 millones de euros para el año 2027, con una tasa de crecimiento anual del 19,4%.
“Teniendo en cuenta este potencial impacto de los sistemas de PLN para datos en español y su aplicación al sector asistencial y de investigación biomédica en España y Latinoamérica, el Plan de Tecnologías del Lenguaje de la SEDIA, en el que el BSC juega un papel fundamental, presta especial atención a un sector de vital importancia en términos económicos y con grandes beneficio para la sociedad”, afirma Martin Krallinger, co-líder del equipo de Minería de textos del BSC.
Igualmente, las nuevas tecnologías del lenguaje ofrecen un importante potencial para mejorar no solo la seguridad, calidad de vida y asistencia a los pacientes sino también su privacidad. Disponer de tecnologías robustas para la anonimización y salvaguarda de los datos clínicos ayudaría a evitar casos como el reciente ciberataque sufrido por el propio Hospital Clínic, que ha afectado a los sistemas de información del centro y ha obligado a desprogramar cirugías y citas no urgentes.
El corpus anonimizado de informes clínicos CARMEN-I
El Infoday fue una oportunidad para presentar los últimos recursos y avances del Plan TL en el ámbito de la salud, incluyendo el corpus anonimizado más completo de informes clínicos reales en lengua castellana, conocido como CARMEN-I (acrónimo de Corpus of Anonymized Records for Medical information Extraction). Además de los detalles técnicos, se discutieron aspectos relacionados con la accesibilidad conforme a la normativa de protección de datos y la transferencia de conocimiento a otros agentes técnicos y sanitarios interesados en el desarrollo tecnológico de IA en salud.
CARMEN-I se pondrá a disposición pública de clínicos, investigadores en IA, académicos y la industria en España y globalmente, bajo el cumplimiento de condiciones específicas, con el objetivo de servir como conjunto o base de datos de salud de libre acceso que permita la aplicación de la IA en salud, y que sirva como recurso con una adecuada estructura de información (modelo de extensiones, conformidad y versionado) para la creación de componentes de PLN clínicos debidamente documentados, evaluados y licenciados. En su elaboración han participado expertos en especialidades médicas, informática clínica, documentación clínica, Machine Learning, Inteligencia Artificial, lingüistas y ética médica.
Como parte de la colaboración entre el BSC y el Clínic, el hospital barcelonés ha compartido informes de pacientes con Covid-19 ingresados en el hospital desde el inicio de la pandemia. “El procesamiento de centenares de historias, que además de aspectos relacionados con el Covid-19 incluyen todo tipo de patologías subyacentes, comorbilidades y complicaciones del Covid-19, ha generado un corpus muy rico en menciones de enfermedades infecciosas, geriátricas, oncológicas, reumatológicas, cardíacas, pulmonares, neurológicas, inmunológicas, etc.”, asegura Krallinger, encargado de la anotación y normalización de los textos, así como del entrenamiento de sistemas de Machine Learning e IA para facilitar la computarización de los procesos de anotación y normalización.
Entre los principales retos de la iniciativa destaca la disparidad que existe entre los casos clínicos publicados en revistas científicas y la realidad de las historias clínicas reales, que suelen contener faltas de ortografía, formatos irregulares, saltos de idioma entre castellano y catalán, abreviaturas muy dependientes de contexto, etc. Resolver estos desafíos ayudará a la investigación e industria del lenguaje en IA a desarrollar métodos de procesamiento automático para el aprovechamiento de datos que en este momento no están normalizados y, por tanto, no se utilizan.
Entorno de comunicación y difusión de alto impacto
El evento, con su carácter y estructura (presentaciones, mesas redondas e intervenciones de representantes de instituciones públicas y privadas), atrajo a asistentes de una amplia variedad de sectores, incluyendo tecnología, investigación biomédica y sanidad. El Infoday permitió un entorno de comunicación y difusión de alto impacto para los últimos avances y resultados del Plan TL en el dominio de la salud.
“El Infoday sirvió como mecanismo para dar visibilidad e interactuar con los expertos para maximizar el uso, difusión y aplicación de las componentes de PLN de anonimización y de anotación semántica de información clínica de relevancia. Se han presentado resultados generados para un conjunto muy diverso de informes clínicos anonimizados relacionados con pacientes no solo con covid, representativos de distintas etapas de la pandemia, así como una diversidad de tipos de informes de alto impacto para el desarrollo de sistemas de PLN clínico”, añade Krallinger.
El evento incluyó una mesa redonda con expertos de la industria y representantes de la sanidad pública y privada, que debatieron sobre las implicaciones y desafíos éticos y regulatorios relacionados con el uso de sistemas de IA y PLN en la salud. La mesa redonda permitió a los asistentes entender mejor los aspectos críticos que deben ser considerados para garantizar la integridad y privacidad de los datos de los pacientes, así como para asegurar una aplicación justa y equitativa de estas tecnologías.
En resumen, el Infoday "IA y tecnologías del lenguaje aplicado a datos clínicos: CARMEN-I recursos, sistemas y aplicaciones" fue un éxito en términos de difusión, formación e interacción en el sector de la sanidad y la investigación biomédica, y reflejó el creciente interés y compromiso con el uso de sistemas de IA y PLN en la salud y la biomedicina para mejorar la atención médica y la investigación.
Los resultados de este evento y los recursos presentados han despertado también el interés de responsables de iniciativas americanas como PhysioNet (MIMIC-IV), muy interesados en el mecanismo de anonimización usado y la ampliación de recursos de PLN clínico más allá de recursos en inglés. En el ámbito nacional, entre los actores interesados se encuentra por ejemplo el Centro Nacional de Epidemiología, que quiere explorar el uso de IA y sistemas avanzados de PLN para procesar historias clínicas para aplicaciones relacionadas con vigilancia de infecciones virales.