MLCommons ha publicado sus últimos resultados de las pruebas de rendimiento MLPerf Inference v6.0, mostrando resultados en cuatro pruebas clave para los sistemas de GPU de Intel. Los sistemas de IA de Intel contaron con procesadores Intel Xeon 6 y gráficos Intel Arc Pro B70, demostrando soluciones accesibles para cargas de trabajo de IA en estaciones de trabajo de gama alta, centros de datos y aplicaciones de edge computing.
Los resultados muestran que un sistema con cuatro GPU Intel Arc Pro B70/B65 ofrece 128 GB de VRAM para ejecutar modelos de 120 mil millones de parámetros con alta concurrencia. La Arc Pro B70 proporciona un rendimiento de inferencia hasta 1.8 veces superior al de la Arc Pro B60. Las optimizaciones de software, configuradas en una pila de software abierta y en contenedores, escalan eficientemente el rendimiento de la inferencia desde implementaciones de un solo nodo hasta implementaciones empresariales con múltiples GPU, mejorando el rendimiento y ofreciendo ganancias hasta 1.18 veces superiores en el mismo hardware Intel Arc Pro B60 en comparación con MLPerf v5.1.
“La combinación del procesador Intel Xeon 6 y las GPU Intel Arc Pro Serie B representa nuestra inversión para ampliar las opciones y el valor para el cliente, ofreciendo soluciones para el mundo real que abordan tanto los modelos LLM como las cargas de trabajo de aprendizaje automático tradicional, con un rendimiento líder y un valor increíble para los profesionales de gráficos y desarrolladores de IA de todo el mundo.”- Anil Nanduri, vicepresidente de Productos de IA y GTM, Grupo de Centros de Datos de Intel
A medida que crece la demanda de inferencia de IA, el mercado de la computación profesional está experimentando una transición importante en la que los creadores de gráficos y los desarrolladores de IA buscan rendimiento y valor, sin comprometer la privacidad de los datos ni incurrir en elevados costos de suscripción ligados a modelos de IA propietarios.
Los sistemas de GPU de Intel, que incluyen las recién lanzadas GPU Intel Arc Pro B70/B65, están diseñados para satisfacer las necesidades de la inferencia de IA moderna y proporcionar una plataforma de inferencia todo en uno que combina hardware y software validados en toda la pila (full-stack). Con una capacidad de memoria mejorada, su objetivo es simplificar la adopción y la facilidad de uso con una solución en contenedores creada para entornos Linux, optimizada para ofrecer un increíble rendimiento de inferencia con escalado multi-GPU y transferencias de datos PCIe P2P, y diseñada para incluir características de fiabilidad y gestionabilidad de clase empresarial como ECC, SRIOV, telemetría y actualizaciones de firmware remotas. Por ejemplo, en comparación con soluciones de GPU de la competencia, la Intel Arc Pro B70 puede manejar modelos y ventanas de contexto significativamente más grandes en configuraciones multi-GPU, ofreciendo hasta 1.6 veces más capacidad de caché KV al ejecutar modelos de mayor tamaño.
La inferencia de IA se define cada vez más no solo por el rendimiento de la GPU, sino también por el rendimiento del sistema acelerado por la CPU. La CPU, que influye en la eficiencia general del clúster y en el costo total de propiedad, también es responsable de funciones críticas como la gestión de memoria, la orquestación de tareas y la distribución de cargas de trabajo, al tiempo que garantiza la seguridad, la fiabilidad y la continuidad operativa esenciales para la infraestructura de IA moderna.
Intel sigue siendo el único proveedor de procesadores para servidores que presenta resultados de CPU independientes para las pruebas de rendimiento de inferencia de MLPerf, lo que subraya su liderazgo y su firme compromiso con el avance de la inferencia de IA tanto en plataformas de computación como en las centradas en aceleradores. Como la CPU anfitriona más utilizada en sistemas acelerados por IA —con más de la mitad de las presentaciones de MLPerf 6.0 impulsadas por Xeon—, Intel refuerza aún más su posición en el núcleo de la infraestructura de IA de la industria. Este liderazgo se extiende al propio silicio: los procesadores Intel Xeon 6 con P-cores ofrecieron una ganancia de rendimiento generacional de hasta 1.9 veces en MLPerf Inference v5.1, mientras que las tecnologías de aceleración de IA integradas, como AMX y AVX512, permiten que cargas de trabajo como la inferencia de LLM, el ajuste fino (fine-tuning) y el aprendizaje automático clásico se ejecuten de manera eficiente sin necesidad de hardware de aceleración dedicado.

