NoticiasTecnología

Gaudi2 de Intel es mejor que el NVIDIA H100 en Stable Diffusion 3

Gaudi2 de Intel es mejor que el NVIDIA H100 en Stable Diffusion 3

Stability AI, los desarrolladores del popular modelo de IA generativa Stable Diffusion, han realizado algunas pruebas de rendimiento de Stable Diffusion 3 utilizando GPU de IA para centros de datos, entre las que se incluyen la NVIDIA H100 «Hopper» de 80 GB, la A100 «Ampere» de 80 GB y el acelerador Gaudi2 de 96 GB de Intel. A diferencia de la H100, que es una GPU superescalar con núcleo CUDA+Tensor, la Gaudi2 está diseñada específicamente para acelerar IA generativa y LLM. Stability AI ha publicado sus resultados de rendimiento en una entrada de blog, en la que revela que Intel Gaudi2 de 96 GB ofrece un rendimiento aproximadamente un 56% superior al de H100 de 80 GB.

Con 2 nodos, 16 aceleradores y un tamaño de lote constante de 16 por acelerador (256 en total), la matriz Intel Gaudi2 es capaz de generar 927 imágenes por segundo, frente a las 595 imágenes de la matriz H100 y las 381 imágenes por segundo de la matriz A100, manteniendo constante el número de aceleradores y nodos. Si aumentamos el número a 32 nodos y 256 aceleradores, o un tamaño de lote de 16 por acelerador (tamaño total de lote de 4.096), la matriz Gaudí2 genera 12.654 imágenes por segundo, o 49,4 imágenes por segundo por dispositivo, frente a las 3.992 imágenes por segundo o 15,6 imágenes por segundo por dispositivo de la matriz A100 «Ampere» de la generación anterior.

Stability AI admite que, con la optimización TensorRT, los chips A100 producen imágenes hasta un 40% más rápidas que Gaudi2. «En las pruebas de inferencia con el modelo de parámetros Stable Diffusion 3 8B, los chips Gaudi2 ofrecen una velocidad de inferencia similar a los chips Nvidia A100 utilizando PyTorch base. Sin embargo, con la optimización de TensorRT, los chips A100 producen imágenes un 40% más rápidas que Gaudi2. Prevemos que, con una mayor optimización, Gaudi2 pronto superará a los A100 en este modelo. En pruebas anteriores en nuestro modelo SDXL con PyTorch base, Gaudi2 genera una imagen de 1024×1024 en 30 pasos en 3,2 segundos, frente a los 3,6 segundos de PyTorch en A100s y los 2,7 segundos de una generación con TensorRT en un A100». Stability AI atribuye la competitividad de los chips Intel a la mayor velocidad de interconexión y al mayor tamaño de la memoria de 96 GB.

Carlos Cantor

Carlos Cantor

GeekAdicto
Ingeniero industrial apasionado por la tecnología. Colombiano amante de la cerveza. Adicto a los E-sports.