Investigadors del BSC lideren la iniciativa europea de resiliència en supercomputació

03 Desembre 2020

La resiliència és un dels reptes més importants per als supercomputadors a exaescala perquè requereix de solucions que inclouen el maquinari, programari i les aplicacions. Els investigadors de l'BSC - juntament amb un grup d'investigadors i empreses europees - lideren la iniciativa europea de resiliència, recentment creada, que pretén consolidar col·laboracions entre diverses comunitats en matèria de resiliència. Un dels primers passos ha estat la seva publicació en anglès Towards Resilient EU HPC Systems: A Blueprint que compta amb la participació de centres de recerca europeus, laboratoris nord-americans, empreses relacionades amb la supercomputació així com projectes europeus de recerca. L'objectiu d'aquest document és difondre la rellevància de resiliència a Europa així com definir bones pràctiques dirigides a la comunitat de supercomputació.

La resiliència representa un gran desafiament per als supercomputadors, com a resultat de la creixent complexitat dels mateixos, tant a nivell de component individual en maquinari i programari com per a la configuració de sistemes heterogenis. La resiliència en aquest tipus de sistemes és un pilar fonamental en la investigació i desenvolupament: inclou fonaments teòrics, detecta i prediu errors de sistema. Per a una major efectivitat de el risc i el seu millor control, també s'han de tenir en compte les operacions de les infraestructures i el seu cost.

"L'objectiu d'aquesta iniciativa europea és crear un full de ruta cap a sistemes de computació resilients així com sincronitzar el desenvolupament de solucions integrals de pila completa dut a terme en diversos projectes de recerca europeus", afirma Petar Radojković, líder d'l'equip de sistemes de memòria en el departament de Ciències de Computació de l'BSC.

El document analitza una àmplia gamma de mecanismes de resiliència i ofereix bones pràctiques en sistemes de computació a gran escala. Aquestes pautes són útils per l'assignació de recursos disponibles, així com per orientar als investigadors i institucions de recerca, i millorar en l'àmbit de resiliència. Encara que aquest treball es centra en les necessitats de prototips, pilots i sistemes de producció de supercomputadors de pròxima generació europeus, els principis definits també es poden aplicar a nivell mundial. L'actual versió de el document recull nodes de supercomputació individuals, CPU, memòria, interconnexions entre nodes i acceleradors basats en FPGA. En un futur, es preveu incloure també GPUs, acceleradors vectorials, interconnexió de xarxes i emmagatzematge.

Les recomanacions recollides en el document ja s'han utilitzat per definir característiques de resiliència en sistemes Testbed que seran un dels resultats de el projecte europeu EuroEXA. Altres projectes europeus involucrats en la iniciativa europea de resiliència HPC també seguiran aquesta tendència.

Sobre la iniciativa europea de resiliència

La iniciativa europea de resiliència en supercomputació, llançada recentment, encapçala un debat a Europa sobre la resiliència en supercomputació. Reuneix experts acadèmics i industrials que cobreixen un ampli espectre de tecnologies de sistemes informàtics per a investigar i implementar la resiliència en la computació d'altes prestacions. El principal objectiu d'aquesta iniciativa és fomentar la col·laboració entre diverses comunitats. més informació: https://resilienthpc.eu/