El BSC presenta models d´IA, protocols i el corpus anonimitzat més complet d´històries clíniques en espanyol

15 Març 2023

CARMEN-I, fruit de la col·laboració entre el Barcelona Supercomputing Center i l'Hospital Clínic de Barcelona, es posarà a disposició pública de clínics, investigadors en IA, acadèmics i la indústria a Espanya i globalment.

Els darrers recursos i avenços del Pla de Tecnologies del Llenguatge (TL) aplicat a l'àmbit de la salut i la biomedicina, impulsat per la Secretaria d'Estat de Digitalització i Intel·ligència Artificial (SEDIA), van ser presentats a l'Infoday "IA i tecnologies del llenguatge aplicat a dades clíniques: CARMEN-I recursos, sistemes i aplicacions", organitzat pel Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) i l'Hospital Clínic de Barcelona.

L´esdeveniment, que va suposar un èxit d´assistència amb 360 participants entre presencials i a distància, va representar una oportunitat de difusió, formació i interacció del Pla TL amb el sector tecnològic de Processament del Llenguatge Natural i d´Intel·ligència Artificial (PLN/IA) i representants i experts del sector de la sanitat pública, privada i investigació biomèdica.

Entre els presents van destacar representants del Clínic i el BSC com a organitzadors, a més de la Societat Espanyola de Digitalització i Intel·ligència Artificial (SEDIA), de l'Agència Espanyola de Medicaments i Productes Sanitaris (AEMPS) i de l'Institut de Salut Carles III, juntament amb una representació d’hospitals i sistemes de salut i nombroses companyies del sector.

L'interès en el desenvolupament de sistemes d'intel·ligència artificial i processament del llenguatge natural aplicats al domini de la salut i la biomedicina està en creixement constant, i aquestes tecnologies tenen un impacte socioeconòmic rellevant en termes d'eficiència i gestió de recursos. El mercat global de PLN en salut i ciències de la vida es valora en 5.029 milions d'euros per a l'any 2027 amb una taxa de creixement anual del 19,4%.

“Tenint en compte aquest potencial impacte dels sistemes de PLN per a dades en espanyol i la seva aplicació al sector assistencial i de recerca biomèdica a Espanya i Llatinoamèrica, el Pla de Tecnologies del Llenguatge de la SEDIA, en què el BSC juga un paper fonamental , presta especial atenció a un sector de vital importància en termes econòmics i amb grans beneficis per a la societat”, afirma Martin Krallinger, col·líder de l'equip de Mineria de textos del BSC.

Igualment, les noves tecnologies del llenguatge ofereixen un important potencial per millorar no només la seguretat, qualitat de vida i assistència als pacients sinó també la seva privadesa. Disposar de tecnologies robustes per a l'anonimització i salvaguarda de les dades clíniques ajudaria a evitar casos com el ciberatac recent patit pel mateix Hospital Clínic, que ha afectat els sistemes d'informació del centre i ha obligat a desprogramar cirurgies i cites no urgents.

El corpus anonimitzat d’informes clínics CARMEN-I

L'Infoday va ser una oportunitat per presentar els darrers recursos i avenços del Pla TL en l'àmbit de la salut, incloent-hi el corpus anonimitzat més complet d'informes clínics reals en llengua castellana, conegut com a CARMEN-I (acrònim de Corpus of Anonymized Records for Medical information Extraction). A més dels detalls tècnics, es van discutir aspectes relacionats amb l'accessibilitat d'acord amb la normativa de protecció de dades i la transferència de coneixement a altres agents tècnics i sanitaris interessats en el desenvolupament tecnològic d'IA en salut.

CARMEN-I es posarà a disposició pública de clínics, investigadors a IA, acadèmics i la indústria a Espanya i globalment, sota el compliment de condicions específiques, amb l'objectiu de servir com a conjunt o base de dades de salut de lliure accés que permeti la aplicació de la IA en salut, i que serveixi com a recurs amb una estructura d'informació adequada (model d'extensions, conformitat i versionat) per a la creació de components de PLN clínics degudament documentats, avaluats i llicenciats. En la seva elaboració hi han participat experts en especialitats mèdiques, informàtica clínica, documentació clínica, Machine Learning, Intel·ligència Artificial, lingüística i ètica mèdica.

Com a part de la col·laboració entre el BSC i el Clínic, l’hospital barceloní ha compartit informes de pacients amb Covid-19 ingressats a l’hospital des de l’inici de la pandèmia. “El processament de centenars d'històries, que a més d'aspectes relacionats amb el Covid-19 inclouen tota mena de patologies subjacents, comorbiditats i complicacions del Covid-19, ha generat un corpus molt ric en mencions de malalties infeccioses, geriàtriques, oncològiques, reumatològiques , cardíaques, pulmonars, neurològiques, immunològiques, etc.”, assegura Krallinger, encarregat de l'anotació i normalització dels textos, així com de l'entrenament de sistemes de Machine Learning i IA per facilitar la computarització dels processos d'anotació i normalització.

Entre els reptes principals de la iniciativa destaca la disparitat que hi ha entre els casos clínics publicats en revistes científiques i la realitat de les històries clíniques reals, que solen contenir faltes d'ortografia, formats irregulars, salts d'idioma entre castellà i català, abreviatures molt dependents de context, etc. Resoldre aquests desafiaments ajudarà a la investigació i indústria del llenguatge en IA a desenvolupar mètodes de processament automàtic per a l'aprofitament de dades que en aquest moment no estan normalitzats i, per tant, no es fan servir.

Entorn de comunicació i difusió d'alt impacte

L'esdeveniment, amb caràcter i estructura (presentacions, taules rodones i intervencions de representants d'institucions públiques i privades), va atreure assistents d'una àmplia varietat de sectors, incloent-hi tecnologia, investigació biomèdica i sanitat. L'Infoday va permetre un entorn de comunicació i difusió d'alt impacte per als darrers avenços i resultats del Pla TL en el domini de la salut.

“L'Infoday va servir com a mecanisme per donar visibilitat i interactuar amb els experts per maximitzar l'ús, la difusió i l'aplicació dels components de PLN d'anonimització i d'anotació semàntica d'informació clínica de rellevància. S'han presentat resultats generats per a un conjunt molt divers d'informes clínics anonimitzats relacionats amb pacients no només amb covid, representatius de diferents etapes de la pandèmia, així com una diversitat de tipus d'informes d'alt impacte per al desenvolupament de sistemes de PLN clínic”, afegeix Krallinger.

L'esdeveniment va incloure una taula rodona amb experts de la indústria i representants de la sanitat pública i privada, que van debatre sobre les implicacions i els desafiaments ètics i reguladors relacionats amb l'ús de sistemes d'IA i PLN en la salut. La taula rodona va permetre als assistents entendre millor els aspectes crítics que han de ser considerats per garantir la integritat i la privadesa de les dades dels pacients, així com per assegurar una aplicació justa i equitativa d'aquestes tecnologies.

En resum, l'Infoday "IA i tecnologies del llenguatge aplicat a dades clíniques: CARMEN-I recursos, sistemes i aplicacions" va ser un èxit en termes de difusió, formació i interacció al sector de la sanitat i la investigació biomèdica, i va reflectir el creixent interès i compromís amb l'ús de sistemes d'IA i PLN a la salut i la biomedicina per millorar l'atenció mèdica i la investigació.

Els resultats d‟aquest esdeveniment i els recursos presentats han despertat també l’interès de responsables d’iniciatives americanes com PhysioNet (MIMIC-IV), molt interessats en el mecanisme d’anonimització usat i l’ampliació de recursos de PLN clínic més enllà de recursos en anglès. En l'àmbit nacional, entre els actors interessats hi ha el Centre Nacional d'Epidemiologia, que vol explorar l'ús d'IA i sistemes avançats de PLN per processar històries clíniques per a aplicacions relacionades amb vigilància d'infeccions virals.