Para entrenar e implementar de forma eficaz la IA generativa, los modelos de lenguaje de gran tamaño o la IA agentica, es crucial crear una infraestructura informática paralela que ofrezca el mejor rendimiento para satisfacer las demandas de las cargas de trabajo de IA/ML, pero que también ofrezca el tipo de flexibilidad que exige el futuro de la IA. Un aspecto clave a tener en cuenta es la capacidad de escalar horizontalmente la red de comunicación GPU-GPU dentro del nodo en el centro de datos.
En AMD, creemos en preservar las opciones del cliente al proporcionarles soluciones fácilmente escalables que funcionan en un ecosistema abierto, reduciendo el costo total de propiedad, sin sacrificar el rendimiento. Manteniéndonos fieles a ese espíritu, el pasado mes de octubre anunciamos el próximo lanzamiento de la nueva AMD Pensando Pollara 400 AI NIC. Hoy, nos complace compartir que la primera NIC de IA totalmente programable de la industria, diseñada con el desarrollo de estándares y características del Ultra Ethernet Consortium (UEC), ya está disponible para su compra. Entonces, ¿cómo se ha diseñado la NIC de IA Pensando Pollara 400 para acelerar las cargas de trabajo de IA a escala?
Creación de infraestructura de IA de alto rendimiento
Los proveedores de servicios en la nube, los hiperescaladores y las empresas buscan maximizar el rendimiento de sus clústeres de IA. Sin embargo, la red ha sido citada por muchos como un cuello de botella principal para los problemas de utilización de la GPU. La velocidad de transferencia de datos solo importa si la red está correctamente optimizada para aprovecharla.
A medida que las cargas de trabajo de IA continúan creciendo a un ritmo asombroso, las organizaciones no pueden permitirse infrautilizar los recursos informáticos y de red. Los tres atributos principales de las redes con las tasas de utilización más altas son el equilibrio de carga inteligente, la gestión de la congestión, la conmutación por error rápida y la recuperación de pérdidas. Las redes de alto rendimiento también deben optimizarse continuamente para aumentar el tiempo de actividad, los tiempos de finalización de trabajos, la confiabilidad, la disponibilidad y la capacidad de servicio, a escala.
Infraestructura extensible y preparada para el futuro,
programabilidad de hardware que impulsa las hojas de ruta de los clientes
Impulsada por nuestra arquitectura P4, la NIC de IA Pensando Pollara 400 ofrece una canalización de hardware totalmente programable. Esto impulsa la máxima flexibilidad del cliente, desde la adición de nuevas capacidades, como las emitidas por el UEC y/o el desarrollo de protocolos de transporte personalizados, diseñados para acelerar las hojas de ruta de la empresa. Ahora, a medida que surgen nuevos estándares, iniciativas de la empresa o cargas de trabajo de IA, los clientes no tienen que esperar a que el hardware de NIC de IA de próxima generación acelere sus cargas de trabajo.
Desarrollo de funciones de UEC para acelerar las cargas de trabajo de próxima generación
- Protocolo de transporte de elección: acceda a RoCEv2, UEC RDMA o cualquier protocolo Ethernet de su elección.
- Intelligent Packet Spray: una función para aumentar la utilización del ancho de banda de la red con una pulverización de paquetes adaptativa avanzada, que es fundamental para gestionar el alto ancho de banda y la baja latencia que requieren los grandes modelos de IA.
- Manejo de paquetes fuera de servicio y entrega de mensajes en pedido: diseñado para reducir el tiempo de búfer mediante la gestión inteligente de las llegadas de paquetes fuera de servicio, un desafío común asociado con las técnicas de múltiples rutas y pulverización de paquetes, esta característica minimiza los errores y mejora la eficiencia durante el entrenamiento y la inferencia de IA, todo sin depender de la estructura de conmutación de escalabilidad horizontal.
- Retransmisión selectiva: mejore el rendimiento de la red reenviando solo los paquetes perdidos o dañados a través de la entrega de mensajes en orden y la retransmisión de reconocimiento selectivo (SACK).
- Control de congestión consciente de rutas: optimice el rendimiento de la red con equilibrio de carga inteligente que evita automáticamente las rutas congestionadas y ayuda a mantener el rendimiento cercano a la velocidad de cable durante la congestión transitoria.
- Detección rápida de fallos: acelere los tiempos de finalización de trabajos de IA por problemas en milisegundos, con monitoreo de ACK basado en el remitente, monitoreo de paquetes basado en el receptor y verificación basada en sondas, lo que permite una conmutación por error casi instantánea y minimiza el tiempo de inactividad de la GPU.
La ventaja del ecosistema abierto
Al ofrecer compatibilidad independiente del proveedor, las organizaciones pueden crear una infraestructura de IA que satisfaga las demandas de las cargas de trabajo actuales y ofrezca una fácil escalabilidad y programabilidad para los requisitos futuros. Con este enfoque de ecosistema abierto, la NIC AI de AMD ayuda a reducir los gastos de capital sin sacrificar el rendimiento y sin tener que depender de la implementación de costosas estructuras de conmutación de búfer grandes basadas en celdas.
Validado en algunos de los mayores centros de datos de escalabilidad horizontal
Por último, pero no menos importante, la NIC de IA Pensando Pollara 400 está configurada para impulsar algunas de las infraestructuras de escalabilidad horizontal más grandes, y los primeros envíos a clientes han ido y han sido probados por algunos de los proveedores de servicios en la nube (CSP) más grandes del mundo. Los CSP eligieron la NIC de IA Pensando Pollara 400 debido a su distintiva capacidad de programación, alto ancho de banda, rendimiento de baja latencia, amplio conjunto de funciones y compatibilidad con una infraestructura verdaderamente extensible en un ecosistema abierto.