AMD y Oracle han ampliado su asociación en curso con el objetivo de hacer crecer la infraestructura de IA a través de grandes clústeres de GPU en Oracle Cloud Infrastructure (OCI). OCI albergará el primer superclúster de IA disponible para el público que se ejecuta en GPU AMD Instinct serie MI450. El plan es comenzar con 50,000 unidades en el tercer trimestre de 2026 y expandirse aún más en 2027. Los nuevos sistemas se basarán en las ofertas existentes basadas en AMD de Oracle, incluidas las instancias de GPU Instinct MI300X y MI355X, e introducirán el diseño de rack «Helios» de próxima generación de AMD. Cada rack combina GPU Instinct MI450, CPU EPYC «Venice» y DPU Pensando «Vulcano» que utilizan configuraciones refrigeradas por líquido para aumentar el rendimiento y reducir los costos.
La próxima serie de aceleradores MI450 de AMD cuenta con hasta 432 GB de memoria HBM4 y 20 TB/s de ancho de banda para cada GPU. Esto permite el entrenamiento de modelos de IA mucho más grandes en memoria, mientras que los estándares de interconexión UALink y UALoE de AMD hacen posible que las GPU se comuniquen con coherencia de hardware. Esto reduce la latencia y el enrutamiento de la CPU. Cada GPU también puede asociarse con hasta tres NIC de IA Pensando «Vulcano» de 800 Gbps. Estos son compatibles con los estándares de red avanzados RoCE y UEC para permitir un entrenamiento distribuido de alto rendimiento. Las CPU AMD EPYC «Venice» con características para computación confidencial y la pila de software de código abierto ROCm de AMD complementarán las nuevas unidades.
Las GPU AMD Instinct serie MI450 en el clúster de Oracle ofrecerán:
- Computación y memoria innovadoras: ayuda a los clientes a lograr resultados más rápidos, abordar cargas de trabajo más complejas y reducir la necesidad de partición de modelos al aumentar el ancho de banda de memoria para los modelos de entrenamiento de IA. Cada GPU AMD Instinct serie MI450 proporcionará hasta 432 GB de HBM4 y 20 TB/s de ancho de banda de memoria, lo que permitirá a los clientes entrenar e inferir modelos que son un 50 por ciento más grandes que las generaciones anteriores completamente en memoria.
- Diseño de rack «Helios» optimizado por AMD: permite a los clientes operar a escala mientras optimizan la densidad de rendimiento, el costo y la eficiencia energética a través de racks densos, refrigerados por líquido y de 72 GPU. El diseño de rack «Helios» de AMD integra la conectividad de escalabilidad vertical UALoE y las redes de escalamiento horizontal alineadas con Ultra Ethernet Consortium (UEC) basadas en Ethernet para minimizar la latencia y maximizar el rendimiento en pods y racks.
- Potente nodo principal: ayuda a los clientes a maximizar la utilización del clúster y optimizar los flujos de trabajo a gran escala al acelerar la orquestación de trabajos y el procesamiento de datos en una arquitectura que consta de CPU AMD EPYC de próxima generación, con nombre en código «Venice». Además, estas CPU EPYC ofrecerán capacidades informáticas confidenciales y funciones de seguridad integradas para ayudar a proteger las cargas de trabajo sensibles de IA de extremo a extremo.
- Redes convergentes aceleradas por DPU: potencia la ingesta de datos de velocidad de línea para mejorar el rendimiento y mejorar la postura de seguridad para la infraestructura de nube e inteligencia artificial a gran escala. Basadas en la tecnología AMD Pensando DPU totalmente programable, las redes convergentes aceleradas por DPU ofrecen la seguridad y el rendimiento necesarios para que los centros de datos ejecuten la próxima era de entrenamiento de IA, inferencia y cargas de trabajo en la nube.
- Redes escalables para IA: permite a los clientes aprovechar el entrenamiento distribuido ultrarrápido y la comunicación colectiva optimizada con una estructura de red abierta preparada para el futuro. Cada GPU puede equiparse con hasta tres NIC de IA AMD Pensando «Vulcano» de 800 Gbps, lo que brinda a los clientes una conectividad programable, de alta velocidad y sin pérdidas que admite estándares avanzados de RoCE y UEC.
- Estructura UALink y UALoE innovadora: ayuda a los clientes a expandir de manera eficiente las cargas de trabajo, reducir los cuellos de botella de memoria y orquestar grandes modelos de parámetros multimillonarios. La arquitectura escalable minimiza los saltos y la latencia sin enrutar a través de CPU y permite redes directas y coherentes con el hardware y el uso compartido de memoria entre GPU dentro de un bastidor a través del protocolo UALink transportado a través de una estructura UALoE. UALink es un estándar de interconexión abierto y de alta velocidad diseñado específicamente para aceleradores de IA y respaldado por un amplio ecosistema industrial. Como resultado, los clientes obtienen la flexibilidad, escalabilidad y confiabilidad necesarias para ejecutar sus cargas de trabajo de IA más exigentes en una infraestructura basada en estándares abiertos.
- Pila de software AMD ROCm de código abierto: permite una rápida innovación, ofrece libertad de elección de proveedor y simplifica la migración de cargas de trabajo de IA y HPC existentes al proporcionar a los clientes un entorno de programación abierto y flexible, que incluye marcos, bibliotecas, compiladores y tiempos de ejecución populares.
- Particionamiento y virtualización avanzados: permite a los clientes compartir clústeres y asignar GPU de forma segura en función de las necesidades de la carga de trabajo al facilitar el uso seguro y eficiente de los recursos a través de la partición detallada de GPU y pods, la virtualización SR-IOV y la tenencia múltiple sólida.