Nuevo consorcio internacional para crear modelos generativos de IA fiables y de confianza para la ciencia

10 Noviembre 2023

El Trillion Parameter Consortium se pone en marcha con docenas de socios fundadores de todo el mundo, entre ellos el BSC.

Se ha constituido un consorcio mundial formado por equipos científicos de laboratorios federales, institutos de investigación, universidades y empresas para abordar los retos que plantea la creación de sistemas de inteligencia artificial (IA) a gran escala y el avance de una IA fiable para el descubrimiento científico.

El Trillion Parameter Consortium (TPC) reúne a equipos de investigadores dedicados a la creación de modelos de IA generativa a gran escala con el fin de abordar los principales retos que plantea el avance de la IA para la ciencia. Estos retos incluyen el desarrollo de arquitecturas de modelos escalables y estrategias de entrenamiento, la organización y conservación de datos científicos para modelos de entrenamiento, la optimización de bibliotecas de IA para plataformas de computación exaescala actuales y futuras, y el desarrollo de plataformas de evaluación profunda para evaluar el progreso en el aprendizaje de tareas científicas y la fiabilidad y confianza.

Para ello, TPC

- Construirá una comunidad abierta de investigadores interesados en crear modelos de IA generativa a gran escala de última generación con el objetivo general de avanzar en los problemas científicos y de ingeniería compartiendo métodos, enfoques, herramientas, conocimientos y métodos de trabajo.

- Incubar, lanzar y coordinar proyectos de forma voluntaria para evitar la duplicación de esfuerzos y maximizar el impacto de los proyectos en la comunidad científica y de IA en general.

- Crear una red mundial de recursos y conocimientos para facilitar la próxima generación de IA y reunir a los investigadores interesados en desarrollar y utilizar la IA a gran escala para la ciencia y la ingeniería.

El consorcio ha formado un conjunto dinámico de áreas de trabajo fundamentales que abordan tres facetas de las complejidades de construir modelos de IA a gran escala:

- Identificación y preparación de datos de entrenamiento de alta calidad, con equipos organizados en torno a las complejidades únicas de diversos dominios científicos y fuentes de datos.

- Diseño y evaluación de arquitecturas de modelos, rendimiento, formación y aplicaciones posteriores.

- Desarrollo de capacidades transversales y fundacionales, como innovaciones en las estrategias de evaluación de modelos con respecto al sesgo, la fiabilidad y la alineación de objetivos, entre otras.

El objetivo del TPC es proporcionar a la comunidad un lugar en el que múltiples iniciativas de creación de grandes modelos puedan colaborar para aprovechar los esfuerzos globales, con flexibilidad para adaptarse a los diversos objetivos de las iniciativas individuales. TPC incluye equipos que están llevando a cabo iniciativas para aprovechar las plataformas emergentes de computación a exaescala para entrenar LLMs -o arquitecturas de modelos alternativos- en investigación científica, incluyendo artículos, códigos científicos y datos observacionales y experimentales para avanzar en innovación y descubrimientos.

Los modelos de billones de parámetros representan la frontera de la IA a gran escala y sólo los mayores sistemas comerciales de IA se acercan actualmente a esta escala.

Para entrenar LLM con esta cantidad de parámetros se necesitan recursos informáticos de clase exascale, como los que están desplegando varios laboratorios nacionales del Departamento de Energía de Estados Unidos (DOE) y múltiples socios fundadores de TPC en Japón, Europa y otros lugares. Incluso con estos recursos, el entrenamiento de un modelo de última generación con un billón de parámetros requerirá meses de tiempo dedicado, algo imposible de conseguir en todos los sistemas excepto en los más grandes. Por consiguiente, en estos proyectos participarán grandes equipos multidisciplinares e interinstitucionales. El TPC se concibe como un vehículo de colaboración y cooperación entre estos equipos y dentro de ellos.

"En nuestro laboratorio y en un número cada vez mayor de instituciones asociadas de todo el mundo, los equipos están empezando a desarrollar modelos de IA de vanguardia para uso científico y están preparando enormes colecciones de datos científicos sin explotar previamente para el entrenamiento", dijo Rick Stevens, director asociado del laboratorio de informática, medio ambiente y ciencias de la vida en el Laboratorio Nacional Argonne del DOE y profesor de informática en la Universidad de Chicago. "Hemos creado TPC en colaboración para acelerar estas iniciativas y crear rápidamente los conocimientos y herramientas necesarios para crear modelos de IA con capacidad no sólo para responder a preguntas específicas de un dominio, sino también para sintetizar conocimientos de todas las disciplinas científicas."

Los socios fundadores de TPC pertenecen a las siguientes organizaciones (enumeradas por orden alfabético organizativo, con un punto de contacto):

AI Singapore: Leslie Teo

Allen Institute For AI: Noah Smith

AMD: Michael Schulte

Argonne National Laboratory: Ian Foster

Barcelona Supercomputing Center: Mateo Valero

Brookhaven National Laboratory: Shantenu Jha

CalTech: Anima Anandkumar

CEA: Christoph Calvin

Cerebras Systems: Andy Hock

CINECA: Laura Morselli

CSC - IT Center for Science: Per Öster

CSIRO: Aaron Quigley

ETH Zürich: Torsten Hoefler

Fermilab National Accelerator Laboratory: Jim Amundson

Flinders University: Rob Edwards

Fujitsu: Koichi Shirahata HPE: Nic Dube

Intel: Koichi Yamada

Jeülich Supercomputing Center: Jenia Jitsev

Kotoba Technologies, Inc.: Jungo Kasai

LAION: Jenia Jitsev

Lawrence Berkeley National Laboratory: Stefan Wild

Lawrence Livermore National Laboratory: Brian Van Essen

Leibniz Supercomputing Centre: Dieter Kranzlmüller

Los Alamos National Laboratory: Jason Pruet

Microsoft: Shuaiwen Leon Song

National Center for Supercomputing Applications: Bill Gropp

National Renewable Energy Laboratory: Juliane Mueller

National Supercomputing Centre, Singapore: Tin Wee Tan

NCI Australia: Jingbo Wang

New Zealand eScience Infrastructure: Nick Jones

Northwestern University: Pete Beckman

NVIDIA: Giri Chukkapalli

Oak Ridge National Laboratory: Prasanna Balaprakash

Pacific Northwest National Laboratory: Neeraj Kumar

Pawsey Institute: Mark Stickells

Princeton Plasma Physics Laboratory: William Tang

RIKEN Center for Biosystems Dynamics Research: Makoto Taiji

Rutgers University: Shantenu Jha

SambaNova: Marshall Choy

Sandia National Laboratories: John Feddema Seoul

National University, South Korea: Jiook Cha

SLAC National Accelerator Laboratory: Daniel Ratner

Stanford University: Sanmi Koyejo

STFC Rutherford Appleton Laboratory, UKRI: Jeyan Thiyagalingam

Texas Advanced Computing Center: Dan Stanzione

Thomas Jefferson National Accelerator Facility: David Dean

Together AI: Ce Zhang

Tokyo Institute of Technology: Rio Yokota

Université de Montréal: Irina Rish

University of Chicago: Rick Stevens

University of Delaware: Ilya Safro

University of Illinois Chicago: Michael Papka

University of Illinois Urbana-Champaign: Lav Varshney

University of New South Wales: Tong Xie

University of Tokyo: Kengo Nakajima

University of Utah: Manish Parashar