Meta ha anunciado la próxima generación de su chip Meta Training and Inference Accelerator (MTIA), diseñado para entrenar e inferir modelos de IA a escala. El nuevo chip MTIA es un diseño de segunda generación del silicio personalizado de Meta para IA, y se está fabricando en la tecnología de 5 nm de TSMC. El nuevo chip, que funciona a una frecuencia de 1,35 GHz, tiene un TDP de 90 vatios por paquete, frente a los 25 vatios del diseño de primera generación. El procesamiento de subprogramas de álgebra lineal básica (BLAS) es donde brilla el chip, e incluye multiplicación de matrices y procesamiento vectorial/SIMD. En el procesamiento matricial GEMM, cada chip puede procesar 708 TeraFLOPS en INT8 (presumiblemente se refería a FP8 en la especificación) con sparsity, 354 TeraFLOPS sin sparsity, 354 TeraFLOPS en FP16/BF16 con sparsity y 177 TeraFLOPS sin sparsity.
El procesamiento vectorial clásico es algo más lento: 11,06 TeraFLOPS en INT8 (FP8), 5,53 TeraFLOPS en FP16/BF16 y 2,76 TFLOPS en FP32 de precisión simple. El chip MTIA está diseñado específicamente para ejecutar el entrenamiento y la inferencia de IA en el marco de IA PyTorch de Meta, con un backend Triton de código abierto que produce código compilador para un rendimiento óptimo. Meta lo utiliza para todos sus modelos Llama y, con Llama3 a la vuelta de la esquina, podría entrenarse en estos chips. Para empaquetarlo en un sistema, Meta coloca dos de estos chips en una placa y los combina con 128 GB de memoria LPDDR5. La placa se conecta mediante PCIe Gen 5 a un sistema en el que se apilan densamente 12 placas. Este proceso se repite seis veces en un solo bastidor para 72 placas y 144 chips en un solo bastidor para un total de 101,95 PetaFLOPS, suponiendo un escalado lineal con precisión INT8 (FP8). Por supuesto, el escalado lineal no es del todo posible en sistemas scale-out, lo que podría reducirlo a menos de 100 PetaFLOPS por rack.