MLCommons anunció nuevos resultados para su suite de pruebas MLPerf Inference v5.0 estándar de la industria, que ofrece pruebas comparativas del rendimiento del sistema de aprendizaje automático (ML) de una manera neutral en cuanto a la arquitectura, representativa y reproducible. Los resultados ponen de manifiesto que la comunidad de IA está centrando gran parte de su atención y esfuerzos en escenarios de IA generativa, y que la combinación de los recientes avances de hardware y software optimizados para la IA generativa ha dado lugar a mejoras drásticas en el rendimiento durante el último año.
El conjunto de pruebas de referencia MLPerf Inference, que abarca tanto el centro de datos como los sistemas perimetrales, está diseñado para medir la rapidez con la que los sistemas pueden ejecutar modelos de IA y ML en una variedad de cargas de trabajo. El conjunto de referencias de código abierto y revisado por pares crea un campo de juego nivelado para la competencia que impulsa la innovación, el rendimiento y la eficiencia energética para toda la industria. También proporciona información técnica crítica para los clientes que están adquiriendo y ajustando sistemas de IA. Esta ronda de resultados de MLPerf Inference también incluye pruebas para cuatro nuevos puntos de referencia: Llama 3.1 405B, Llama 2 70B Interactive para aplicaciones de baja latencia, RGAT y Automotive PointPainting para la detección de objetos en 3D.
La prueba de IA generativa Llama 2 70B ocupa un lugar central
Los resultados de Inference v5.0 muestran que los escenarios de IA generativa han ganado impulso. Durante el último año, las presentaciones se han multiplicado por 2,5 en la prueba de referencia Llama 2 70B, que implementa una gran carga de trabajo de inferencia de IA generativa basada en un modelo de código abierto ampliamente referenciado. Con el lanzamiento de la versión 5.0, Llama 2 70B ha suplantado a Resnet50 como la prueba de tasa de envío más alta.
Los resultados de rendimiento de Llama 2 70B también se han disparado desde hace un año: la puntuación media enviada se ha duplicado y la mejor puntuación es 3,3 veces más rápida en comparación con Inference v4.0.
«Ahora está claro que gran parte del ecosistema se centra directamente en el despliegue de la IA generativa, y que el bucle de retroalimentación de evaluación comparativa del rendimiento está funcionando», dijo David Kanter, jefe de MLPerf en MLCommons. «Estamos asistiendo a una avalancha sin precedentes de nuevas generaciones de aceleradores. El hardware se combina con nuevas técnicas de software, incluido el soporte alineado entre hardware y software para el formato de datos FP4. Con estos avances, la comunidad está estableciendo nuevos récords para el rendimiento de la inferencia de IA generativa».
Los resultados de referencia para esta ronda incluyen los resultados de seis procesadores recién disponibles o que se enviarán pronto:
- AMD Instinct MI325X
- Intel Xeon 6980P «Granite Rapids»
- Google TPU Trillium (TPU v6e)
- NVIDIA B200
- NVIDIA Jetson AGX Thor 128
- NVIDIA GB200
Benchmarking del estado del arte de la IA generativa: se introducen dos nuevas pruebas
En sintonía con los avances en la comunidad de IA, MLPerf Inference v5.0 presenta un nuevo punto de referencia que utiliza el modelo Llama 3.1 405B, lo que marca un nuevo estándar para la escala de un modelo de inferencia de IA generativa en un punto de referencia de rendimiento. Llama 3.1 405B incorpora 405 mil millones de parámetros en su modelo, al tiempo que admite longitudes de entrada y salida de hasta 128,000 tokens (en comparación con solo 4,096 tokens para Llama 2 70B). El punto de referencia prueba tres tareas separadas: respuesta a preguntas generales, matemáticas y generación de código.
«Este es nuestro punto de referencia de inferencia más ambicioso hasta la fecha», dijo Miro Hodak, copresidente del grupo de trabajo de inferencia MLPerf. «Refleja la tendencia de la industria hacia modelos más grandes, que pueden aumentar la precisión y respaldar un conjunto más amplio de tareas. Es una prueba más difícil y que requiere más tiempo, pero las organizaciones están tratando de implementar modelos del mundo real de este orden de magnitud. Los resultados de referencia confiables y relevantes son fundamentales para ayudarlos a tomar mejores decisiones sobre la mejor manera de aprovisionarlos».
La suite Inference v5.0 también añade un nuevo giro a su benchmark existente para Llama 2 70B con una prueba adicional que añade requisitos de baja latencia: Llama 2 70B Interactive. Reflejando las tendencias de la industria hacia los chatbots interactivos, así como los sistemas de razonamiento y agentes de próxima generación, el punto de referencia requiere que los sistemas bajo prueba (SUT) cumplan con las métricas de respuesta del sistema más exigentes para el tiempo hasta el primer token (TTFT) y el tiempo por token de salida (TPOT).
«Una medida crítica del rendimiento de un sistema de consulta o un chatbot es si se siente receptivo a una persona que interactúa con él. ¿Con qué rapidez comienza a responder a una pregunta y a qué ritmo entrega toda su respuesta?», dijo Mitchelle Rasquinha, copresidenta del grupo de trabajo de Inferencia de MLPerf. «Al imponer requisitos más estrictos para la capacidad de respuesta, esta versión interactiva de la prueba Llama 2 70B ofrece nuevos conocimientos sobre el rendimiento de los LLM en escenarios del mundo real».
Nuevo banco de pruebas del centro de datos de Graph Neural Network para modelar gráficos de relaciones
Otra novedad de Inference v5.0 es una prueba comparativa de centro de datos que implementa un modelo de red neuronal de grafos (GNN). Las GNN son útiles para modelar enlaces y relaciones entre nodos de una red y se utilizan habitualmente en sistemas de recomendación, respuestas a grafos de conocimiento, sistemas de detección de fraudes y otros tipos de aplicaciones basadas en grafos.
El banco de pruebas del centro de datos GNN implementa el modelo RGAT, basado en el conjunto de datos Illinois Graph Benchmark Heterogeneous (IGBH) que contiene 547.306.935 nodos y 5.812.005.639 bordes.
Puede encontrar más información sobre la construcción del índice de referencia RGAT aquí.
Nuevo punto de referencia de bordes: prueba de PointPainting automotriz para la detección de objetos en 3D
El benchmark Inference v5.0 presenta un nuevo benchmark Automotive PointPainting para dispositivos de edge computing, concretamente para automóviles. Mientras el grupo de trabajo de MLPerf Automotive continúa desarrollando el benchmark de Producto Mínimo Viable anunciado por primera vez el verano pasado, esta prueba proporciona un proxy para un importante escenario de edge computing: la detección de objetos 3D en las cámaras de aplicaciones como los coches autónomos.
Puede encontrar más información sobre el punto de referencia Automotive PointPainting aquí.
A medida que la industria eleva el listón de los sistemas de IA, el benchmark MLPerf Inference sigue su ejemplo
«Rara vez introducimos cuatro pruebas nuevas en una sola actualización de la suite de referencia», dijo Miro Hodak, «pero sentimos que era necesario para servir mejor a la comunidad. El rápido ritmo de avance en el aprendizaje automático y la amplitud de las nuevas aplicaciones son asombrosos, y las partes interesadas necesitan datos relevantes y actualizados para informar su toma de decisiones».
MLPerf Inference v5.0 incluye 17.457 resultados de rendimiento de 23 organizaciones presentadoras: AMD, ASUSTeK, Broadcom, Cisco, CoreWeave, CTuning, Dell, FlexAI, Fujitsu, GATEOverflow, Giga Computing, Google, HPE, Intel, Krai, Lambda, Lenovo, MangoBoost, NVIDIA, Oracle, Quanta Cloud Technology, Supermicro y Sustainable Metal Cloud.
«Nos gustaría dar la bienvenida a los cinco participantes por primera vez en el benchmark de inferencia: CoreWeave, FlexAI, GATEOverflow, Lambda y MangoBoost», dijo David Kanter. El continuo crecimiento de la comunidad de remitentes es un testimonio de la importancia de contar con métricas de rendimiento precisas y fiables para la comunidad de IA. También me gustaría destacar el amplio conjunto de presentaciones de referencia de energía para centros de datos de Fujitsu y las presentaciones de energía de borde de GateOverflow en esta ronda, lo que nos recuerda que la eficiencia energética en los sistemas de IA es un tema cada vez más crítico que necesita datos precisos para guiar la toma de decisiones».
«El ecosistema de aprendizaje automático continúa brindando a la comunidad capacidades cada vez mayores. Estamos aumentando la escala de los modelos de IA que se entrenan e implementan, logrando nuevos niveles de capacidad de respuesta interactiva y desplegando la computación de IA de manera más amplia que nunca», dijo Kanter. «Estamos entusiasmados de ver que las nuevas generaciones de hardware y software ofrecen estas capacidades, y MLCommons se enorgullece de presentar resultados emocionantes para una amplia gama de sistemas y varios procesadores novedosos con este lanzamiento del punto de referencia MLPerf Inference. Nuestro trabajo para mantener el conjunto de referencias actualizado, completo y relevante en un momento de cambios rápidos es un verdadero logro y garantiza que continuaremos brindando datos valiosos de rendimiento a las partes interesadas».