OpenAI, en colaboración con AMD, Microsoft y otros líderes tecnológicos, ha anunciado la contribución del protocolo Multipath Reliable Connection (MRC) al Open Compute Project (OCP). Este movimiento busca transformar el networking de IA en una base abierta, programable y resistente para infraestructuras masivas.
¿Por qué es importante MRC? A medida que los modelos de IA como ChatGPT escalan, el networking se convierte en el principal cuello de botella. Los sistemas actuales dependen de que cientos de miles de GPUs trabajen sincronizadas; cualquier interrupción mínima puede frenar el progreso del entrenamiento.
Características clave del protocolo:
- Multipath (Rutas múltiples): A diferencia de los modelos tradicionales de una sola ruta, MRC distribuye los paquetes de datos por múltiples caminos simultáneamente, reduciendo la congestión y la latencia.
- Resiliencia en tiempo real: Funciona como un «amortiguador» para la infraestructura, permitiendo que el tráfico se redirija casi en tiempo real ante fallos inevitables del hardware.
- Rendimiento del mundo real: El éxito ya no se define solo por el ancho de banda pico, sino por mantener la capacidad de los aceleradores productiva bajo condiciones variables de red.
El rol estratégico de AMD AMD no solo co-lideró la creación de la especificación, sino que también aportó tecnología avanzada de control de congestión. La compañía ya ha validado e implementado MRC en clústeres de prueba a gran escala con proveedores de la nube, utilizando su NIC de IA AMD Pensando Pollara 400. Gracias a la programabilidad de su hardware, AMD asegura una transición fluida hacia su futura solución «Vulcano» de 800G, posicionándose a la vanguardia del despliegue de infraestructura de IA lista para producción.

