Intel continúa avanzando con Project Battlematrix

Intel anunció el Proyecto Battlematrix, el cual consiste en nuevas estaciones de trabajo de inferencia escalables y accesibles. Este proyecto tiene como objetivo acelerar la estrategia de GPU e IA de Intel simplificando la adopción de las GPU Intel Arc Pro serie B con una nueva pila de software optimizada para la inferencia.

La nueva pila de software se ha diseñado teniendo en cuenta su facilidad de uso y los estándares del sector. Dicho de otra manera, es una nueva solución en contenedores creada para el entorno Linux, optimizada para ofrecer un rendimiento de inferencia increíble con escalabilidad multi-GPU y transferencias de datos PCIe P2P. Además, ha sido diseñada para incluir características de fiabilidad y capacidades de gestión a nivel empresarial, como ECC, SRIOV, telemetría y actualizaciones remotas de firmware.

Estos avances se comparten de la mano con el lanzamiento de la versión 1.0 del contenedor LLM Scaler, la cual es fundamental para la habilitación temprana de los clientes e incluye:

Optimizaciones de vLLM:
- Las optimizaciones de rendimiento de TPOP para longitudes de entrada largas (>4K) permiten conseguir hasta 1,8 veces más rendimiento para longitudes de secuencia de 40K en el modelo KPI de 32B, y hasta 4,2 veces más rendimiento para longitudes de secuencia de 40K en el modelo KPI de 70B
- Optimizaciones de rendimiento con una mejora del rendimiento de salida de aproximadamente un 10 % para modelos KPI de 8B-32B en comparación con la última versión.
- Cuantificación en línea por capas para reducir la memoria GPU necesaria.
- Compatibilidad con el paralelismo de canalización en vLLM (experimental).
- Antorcha compilación (experimental)
- Decodificación especulativa (experimental).
- Soporte para incrustación y reordenamiento de modelos
- Compatibilidad mejorada con modelos multimodales.
- Detección automática de la longitud máxima.
- Compatibilidad con el paralelismo de datos.

Habilitación de la herramienta de referencia OneCCL.

XPU Manager:
- Potencia de la GPU.
- Actualización del firmware de la GPU.
- Diagnóstico de la GPU.
- Medición de ancho de banda de la memoria de la GPU.

Próximamente, Intel lanzará una versión reforzada de LLM Scaler con funcionalidades adicionales para finales del tercer trimestre. A su vez, está trabajando activamente para lanzar el conjunto completo de funciones a finales del cuarto trimestre.