NVIDIA anunció que Meta y Oracle impulsarán sus redes de centros de datos de IA con conmutadores de red Ethernet NVIDIA Spectrum-X. Meta y Oracle se están estandarizando en los conmutadores Ethernet Spectrum-X como una arquitectura de red abierta y acelerada que acelera la implementación a escala, desbloquea ganancias exponenciales en la eficiencia del entrenamiento de IA y acorta el tiempo de obtención de información.
«Los modelos de un billón de parámetros están transformando los centros de datos en fábricas de IA a gigaescala, y los líderes de la industria como Meta y Oracle se están estandarizando en Spectrum-X Ethernet para impulsar esta revolución industrial», dijo Jensen Huang, fundador y CEO de NVIDIA. «Spectrum-X no es solo Ethernet más rápido, es el sistema nervioso de la fábrica de IA, que permite a los hiperescaladores conectar millones de GPU en una sola computadora gigante para entrenar los modelos más grandes jamás construidos».
Oracle construirá fábricas de IA a escala giga, aceleradas por la arquitectura NVIDIA Vera Rubin e interconectadas por Spectrum-X Ethernet.
«Oracle Cloud Infrastructure está diseñado desde cero para cargas de trabajo de IA, y nuestra asociación con NVIDIA amplía ese liderazgo en IA», dijo Mahesh Thiagarajan, vicepresidente ejecutivo de Oracle Cloud Infrastructure. «Al adoptar Spectrum-X Ethernet, podemos interconectar millones de GPU con una eficiencia innovadora para que nuestros clientes puedan entrenar, implementar y beneficiarse más rápidamente de la próxima ola de IA generativa y de razonamiento».
Meta integrará los conmutadores Spectrum Ethernet en su infraestructura de red para el Sistema de Conmutación Abierta de Facebook («FBOSS»), una plataforma de software desarrollada para administrar y controlar conmutadores de red a gran escala. Esta integración acelerará la implementación a escala para desbloquear ganancias en la eficiencia del entrenamiento de IA y acortar el tiempo de obtención de información.
«La infraestructura de IA de próxima generación de Meta requiere redes abiertas y eficientes a una escala que la industria nunca antes había visto», dijo Gaya Nagarajan, vicepresidente de ingeniería de redes de Meta. «Al integrar NVIDIA Spectrum Ethernet en el conmutador Minipack3N y FBOSS, podemos ampliar nuestro enfoque de red abierta al tiempo que desbloqueamos la eficiencia y la previsibilidad necesarias para entrenar modelos cada vez más grandes y llevar aplicaciones de IA generativa a miles de millones de personas».
Plataforma Ethernet NVIDIA Spectrum-X
Diseñada para la era de los modelos de billones de parámetros, la plataforma NVIDIA Spectrum-X Ethernet, que consta de conmutadores Ethernet Spectrum-X y SuperNIC Spectrum-X Ethernet, es la primera plataforma Ethernet diseñada específicamente para IA, lo que permite a los hiperescaladores interconectar millones de GPU con una eficiencia y escala sin precedentes.
Los modelos de billones de parámetros y la IA generativa están redefiniendo la escala de los centros de datos. Spectrum-X Ethernet permite la IA a escala, ofreciendo el rendimiento y la escalabilidad necesarios para construir la infraestructura de IA más avanzada del mundo.
Spectrum-X Ethernet ya ha demostrado una eficiencia récord, lo que permite que la supercomputadora de IA más grande del mundo logre un rendimiento de datos del 95% con su tecnología de control de congestión. Por el contrario, Ethernet listo para usar a escala sufre miles de colisiones de flujo, lo que limita el rendimiento a aproximadamente el 60%.
Este salto en la eficiencia marca un gran avance en la economía y el rendimiento de las redes a escala de IA. La tecnología NVIDIA Spectrum-XGS Ethernet, parte de la plataforma de red Ethernet Spectrum-X, permite capacidades escalables para vincular centros de datos en ciudades, naciones y continentes en vastas superfábricas de IA a escala giga.
Spectrum-X se basa en la plataforma de pila completa de NVIDIA, que incluye GPU, CPU, NVIDIA NVLink y software, para ofrecer un rendimiento perfecto desde la computación hasta la red. Su control avanzado de congestión, enrutamiento adaptativo y capacidades de telemetría impulsadas por IA garantizan la eficiencia y la previsibilidad para clústeres masivos de inferencia y entrenamiento de IA.