El BSC trabaja en soluciones proactivas para el comportamiento temporal y la fiabilidad de los sistemas HPC en el proyecto RECIPE

30 Junio 2020

Estimulado por nuevos dominios de aplicación (es decir, análisis computacional intensivo de datos), como son las nuevas aplicaciones de computación masivamente paralelas, y por la creciente habilidad para entrar en el mercado de nuevos clientes, el mercado de la computación de alto rendimiento (HPC, por sus siglas en inglés) está evolucionando rápidamente. Investigadores del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC) están trabajando para afrontar este reto en el proyecto europeo RECIPE, cuyo objetivo es proporcionar soluciones para gestionar esta complejidad y para hacer que el sistema sea fiable.

 

Gestor de recursos multinivel de RECIPE, con modelos de fiabilidad innovadores para una mejor distribución de la carga de trabajo y una optimización de los recursos computacionales

El BSC ha desarrollado una solución para predecir el peor tiempo de ejecución de las aplicaciones de HPC en supercomputadores y centros de procesamiento de datos, ya sea con arquitecturas homogéneas o heterogéneas, haciendo uso de su experiencia en predicción del tiempo de ejecución en sistemas empotrados críticos de tiempo real. Esta solución ha cristalizado en una herramienta flexible y portable presentada como parte de un número especial sobre computación y matemáticas en la prestigiosa revista científica MDPI Mathematics.

Proceso para predecir la distribución de los peores tiempos de ejecución en aplicaciones HPC

El BSC también ha desarrollado un marco para predecir la degradación - y por tanto la fiabilidad - de plataformas de HPC heterogéneas basado en sus características físicas y su utilización. Este marco, que es conceptualmente aplicable a cualquier elemento informático o de almacenamiento como CPUs, GPUs, FPGAs, y cualquier tipo de memoria, ha sido implementado específicamente para CPUs y FPGAs de alto rendimiento con resultados prometedores.

Las soluciones proactivas para el comportamiento temporal y la fiabilidad de los sistemas HPC, más que las reactivas, son la clave para gestionar de manera efectiva sus recursos durante toda su vida útil”, dijo Ramon Canal, Líder Técnico del BSC en RECIPE, Investigador Asociado del Departamento de Arquitectura Computacional - Sistemas Operativos (CAOS), y Profesor Titular de la UPC.

El BSC prevé la integración de tecnologías para la predicción del tiempo de ejecución y la fiabilidad en un gestor de ejecución dinámico para la optimización de diferentes parámetros (como el tiempo de ejecución, la fiabilidad y la temperatura) en plataformas HPC heterogéneas incluyendo CPUs, GPUs y FPGAs. Además, las tecnologías del BSC también serán ampliamente evaluadas en relación a las aplicaciones de los usuarios finales, extendiendo los ya prometedores resultados de estas tecnologías en extractos de aplicaciones HPC.

Artículo: On the Use of Probabilistic Worst-Case Execution Time Estimation for Parallel Applications in High Performance Systems

DOI: https://doi.org/10.3390/math8030314

Enlace: https://www.mdpi.com/2227-7390/8/3/314

 

Sobre RECIPE

RECIPE (REliable power and time-ConstraInts-aware Predictive management of heterogeneous Exascale systems) es un proyecto europeo financiado con un presupuesto de 3,2 millones de euros, que empezó el 1 de mayo de 2018 y acaba el 30 de abril de 2021. Coordinado por el Politecnico di Milano (Italia), el proyecto reúne un consorcio multidisciplinar compuesto por Universitat Politècnica de València (España), Centro Regionale Information Communication Technology (Italia), Barcelona Supercomputing Center - Centro Nacional de Supercomputación (España), Poznań Supercomputing and Networking Center (Polonia), École polytechnique fédérale de Lausanne (Suiza), IBT Solutions (Italia) y Centre Hospitalier Universitaire Vaudois (Suiza).

Para más información, consultar la web del proyecto: http://www.recipe-project.eu/

 

Este proyecto ha recibido financiación del programa de investigación e innovación Horizonte 2020 de la Unión Europea según el acuerdo no. 801137