Al utilizar este sitio, acepta la Política de privacidad y Terms y Condiciones.
Aceptar
MastekHwMastekHwMastekHw
  • Noticias
  • Tecnología
    Tecnología
    Todas las noticias más importantes de la tecnología la encuentras aquí en MastekHw, Categoría Tecnología, noticias, lanzamientos, entrevistas y más.
    Ver más
    Noticias Destacadas
    Rivers y Kesto celebran el regreso de Verdansk a Warzone
    Rivers y Kesto celebran el regreso de Verdansk a Warzone
    hace 1 año
    Nuvei amplía su alianza con Microsoft
    Nuvei amplía su alianza con Microsoft
    hace 4 meses
    DiDi anuncia nuevas funciones de seguridad en Colombia
    DiDi anuncia nuevas funciones de seguridad en Colombia
    hace 12 meses
    Últimas Noticias
    Sony y TCL formalizan su asociación estratégica
    hace 14 horas
    Cómo mantener los datos de los menores seguros y protegidos
    hace 16 horas
    NVIDIA y Marvell Technology anuncian alianza estratégica
    hace 14 horas
    Chery gana 14 premios J.D. Power y marca un hito en calidad
    hace 16 horas
  • Móviles
    MóvilesVer más
    Samsung incorpora soporte de AirDrop para Quick Share con la línea Galaxy S26
    Samsung incorpora soporte de AirDrop para Quick Share con la línea Galaxy S26
    1 Min en Leer
    Xiaomi anunciará la llegada de la Serie Xiaomi 17 el 9 de abril en Colombia
    Xiaomi anunciará la llegada de la Serie Xiaomi 17 el 9 de abril en Colombia
    6 Min en Leer
    Mejora la productividad del regreso a clase con el botón IA del HONOR X8d
    3 Min en Leer
    IA agéntica redefine el mercado de celulares con la llegada del Robot Phone
    IA agéntica redefine el mercado de celulares con la llegada del Robot Phone
    7 Min en Leer
    realme 15T es el mejor aliado en la temporada de festivales
    realme 15T es el mejor aliado en la temporada de festivales
    4 Min en Leer
  • PC
  • Gaming
  • Reviews
  • Guardados
  • Contacto
Buscar
  • Contacto
  • Blog
  • Publicidad
© 2018 MastekHw Service International. LLc. Todos los derechos reservados.
Leyendo: AMD Instinct MI355X superan el millón de tokens por segundo en MLPerf 6.0
Compartir
Notificación
Tamaño TextoAa
MastekHwMastekHw
Tamaño TextoAa
  • Noticias
  • Tecnología
  • Móviles
Buscar
  • Categorias
    • Noticias
    • Tecnología
    • PC
    • Móviles
    • Entretenimiento
    • Gaming
    • Reviews
Síguenos
  • Contacto
  • Blog
  • Publicidad
© 2018 MastekHw Service International. LLc. Todos los derechos reservados.
MastekHw > Noticias > Noticias > AMD Instinct MI355X superan el millón de tokens por segundo en MLPerf 6.0
NoticiasTecnología

AMD Instinct MI355X superan el millón de tokens por segundo en MLPerf 6.0

Carlos Cantor
Última actualización: abril 1, 2026 6:42 pm
Carlos Cantor
Compartir
AMD Instinct MI355X superan el millón de tokens por segundo en MLPerf 6.0
Compartir

En su presentación MLPerf Inference 6.0, AMD no se limitó a revisitar benchmarks conocidos con una GPU más rápida. Se expandió a cargas de trabajo por primera vez, superó el umbral de 1 millón de tokens por segundo a escala multinodo y demostró que los socios pueden reproducir los resultados en un ecosistema más amplio. Esa combinación es importante porque nuestros clientes ya no evalúan las plataformas de inferencia solo con una métrica. Quieren un rendimiento competitivo en un solo nodo, una escalabilidad eficiente, una puesta en marcha más rápida de nuevos modelos, resultados reproducibles entre sistemas socios y confianza en que la pila de software pueda seguir el ritmo. MLPerf Inference 6.0 nos permitió mostrar todo eso en una sola publicación.

Igualmente importante, demostramos que estos resultados no están aislados. Un amplio ecosistema de socios, presentado a través de cuatro tipos de GPUs AMD Instinct que reproducían de cerca los números enviados por AMD, y la primera presentación heterogénea de MLPerf con tres GPUs, demostró que el hardware de AMD y el software AMD ROCm pueden orquestar un rendimiento de inferencia significativo incluso entre sistemas en diferentes geografías.

GPUs AMD Instinct MI355X: diseñadas para la inferencia desde cero

Las GPUs AMD Instinct MI355X están construidas sobre arquitectura AMD CDNA 4 con un proceso de 3 nm, incorporan 185.000 millones de transistores, añaden soporte para FP4 y FP6, y combinan todo eso con hasta 288 GB de memoria HBM3E.

Con hasta 10 petaflops de rendimiento FP4 y FP6, soporte para modelos de hasta 520 mil millones de parámetros en una sola GPU y un nodo UBB8 estándar de la industria disponible tanto en configuración refrigerada por aire como refrigerada por líquido directo, las GPUs AMD Instinct MI355X están diseñadas para ofrecer más que velocidad. También están diseñados para ofrecer capacidad de gran modelo y preparación para el despliegue en una sola plataforma.

Momentos definitorios de la presentación AMD MLPerf Inference 6.0

Los resultados de la Inferencia 6.0 de MLPerf de AMD van mucho más allá de un único punto de prueba, revelando avances significativos en rendimiento, cobertura del modelo, escala y reproducibilidad. Destacan varios avances:

1. AMD supera la barrera de 1M tokens/seg en la inferencia MLPerf

Uno de los mayores hitos de esta ronda es que, por primera vez, AMD superó el millón de tokens por segundo en el benchmark MLPerf Inference. AMD superó ese umbral en Llama 2 70B tanto en benchmarks de servidor como offline, y en GPT-OSS-120B en Offline, todo a escala multinodo en GPUs AMD Instinct MI355X.

La industria evalúa cada vez más la inferencia a escala de clúster, donde el rendimiento agregado y el tiempo de servicio determinan si la infraestructura está lista para su despliegue. Superar el millón de tokens por segundo demuestra el rendimiento de inferencia de clase producción.

Para los clientes, este hito tiene beneficios claros:

  • Mayor rendimiento agregado para atender grandes poblaciones de usuarios y modelos más grandes.
  • Una prueba clara de que las GPUs AMD Instinct MI355X pueden mantener el rendimiento cuando los despliegues van más allá de una sola caja.
  • Validación de que cargas de trabajo primerizas como GPT-OSS pueden activarse rápidamente y aún así escalar hacia una producción significativa.
  • Una base más sólida para la próxima generación de despliegues de inferencia a escala multinodo y rack.

2. Las GPUs AMD Instinct MI355X ofrecen un salto generacional claro respecto a la generación anterior

AMD también demostró un importante aumento generacional en el servidor Llama 2 70B. La GPU AMD Instinct MI355X entregaba 100.282 tokens por segundo, mostrando un rendimiento 3,1 veces mayor que los resultados previamente presentados de la GPU AMD Instinct MI325X.

Uno de los mayores hitos de esta ronda es que, por primera vez, AMD superó el millón de tokens por segundo en el benchmark MLPerf Inference. AMD superó ese umbral en Llama 2 70B tanto en benchmarks de servidor como offline, y en GPT-OSS-120B en Offline, todo a escala multinodo en GPUs AMD Instinct MI355X.

La industria evalúa cada vez más la inferencia a escala de clúster, donde el rendimiento agregado y el tiempo de servicio determinan si la infraestructura está lista para su despliegue. Superar el millón de tokens por segundo demuestra el rendimiento de inferencia de clase producción.

Eso supone un salto significativo en seis meses, y refleja el poder de la pila completa: arquitectura AMD CDNA 4, alta densidad de cálculo, soporte para FP4 y FP6, gran capacidad de HBM3E y optimizaciones de software AMD ROCm ajustadas para la inferencia moderna de grandes modelos de lenguaje.

3. Llama 2 70B muestra una amplia competitividad en un solo nodo

En Llama 2 70B, el benchmark de modelos de lenguaje grandes más reconocido en MLPerf, la plataforma AMD Instinct MI355X ofreció resultados altamente competitivos en un solo nodo frente a las GPUs NVIDIA B200 y B300. Frente a B200, la plataforma AMD Instinct MI355X se vinculó en Offline, ofreció el 97% del rendimiento del servidor y alcanzó el 119% del rendimiento en benchmarks interactivos. Frente a la plataforma B300 de un solo nodo, la plataforma AMD Instinct MI355X alcanzó el 93% en servidor, el 92% en offline y el 104% en interactivo.

Especialmente importante es la amplitud de los resultados. Esta no es una historia de un solo escenario. AMD muestra competitividad en el rendimiento por lotes en Offline, rendimiento sostenido en Server y capacidad de respuesta en Interactive.

4. GPT-OSS-120B demuestra un modelo rápido a la primera vez

GPT-OSS-120B es una de las partes más emocionantes de esta entrega de Inferencia 6.0 porque fue una carga de trabajo ejecutada en MLPerf por primera vez. La habilitación por primera vez del modelo es difícil: el modelo debe ser activado, optimizado, validado para su precisión y llevado a un rendimiento competitivo dentro del timing de MLPerf.

A pesar de esa complejidad, la plataforma AMD Instinct MI355X ofrecía el 111% del rendimiento B200 Offline y el 115% del rendimiento de un solo nodo del servidor B200 de NVIDIA. Frente a NVIDIA B300 de un solo nodo, la plataforma AMD Instinct MI355X alcanzó un 91% competitivo en Offline y un 82% en Servidor.

5. Wan-2.2-t2v extiende AMD hacia una inferencia completamente nueva de texto a vídeo

MLPerf Inference 6.0 también permitió a AMD expandirse más allá de los grandes modelos de lenguaje (LLM) hacia la generación texto a vídeo con una primera presentación en Wan-2.2-t2v. Este benchmark tiene dos pruebas: Offline y Single Stream. Para esta entrega centramos nuestro esfuerzo en el escenario de Flujo Único y, como resultado, nuestra propuesta está en la categoría Abierta en lugar de Cerrada (que requiere tanto Offline como Flujo Único). Sin embargo, nuestra carrera en Single Stream sí cumplió las reglas de envío cerrado y, por tanto, puede compararse directamente con las puntuaciones de la división cerrada.

Aun así, el resultado es impresionante para un primer esfuerzo de AMD en una categoría de carga de trabajo completamente nueva: la plataforma AMD Instinct MI355X logró el 93% del rendimiento NVIDIA B200 en un solo nodo y el 87% del rendimiento en un solo nodo del NVIDIA B300 en Single Stream. Tras la fecha límite, un ajuste adicional llevó a Single Stream al 108% de B200 y a paridad con B300, mientras que los resultados no oficiales de Offline alcanzaron el 111% de B200 y el 88% de B300. Las cifras posteriores a la fecha límite no formaban parte de la presentación oficial de MLPerf ni fueron verificadas por MLCommons, pero muestran claramente lo rápido que mejoró el rendimiento una vez que tuvimos más tiempo para ajustar.

Para los clientes, la importancia de este resultado va más allá de los propios porcentajes. Demuestra que AMD está ampliando la cobertura de modelos desde los LLMs hacia cargas de trabajo multimodales y generativas de vídeo más recientes, y lo hace con un rendimiento competitivo desde el primer día.

Eso importa porque la IA generativa no está quieta. Los modelos que los clientes quieren desplegar se están volviendo más amplios, multimodales, más especializados, y AMD está demostrando que puede mantenerse al día.

6. La inferencia multinodo muestra un escalamiento eficiente

El interés por la inferencia multinodo está en aumento a medida que los modelos crecen, los despliegues se vuelven más exigentes y la industria sienta las bases para sistemas a escala de rack como la solución AMD Helios. Nuestra presentación MLPerf Inference 6.0 muestra que el AMD Instinct MI355X está listo para esa transición.

En Llama 2 70B, escalamos de un nodo a 11 nodos y nos mantuvimos sorprendentemente cerca de la escala lineal ideal.

Con 11 nodos y 87 GPUs AMD Instinct MI355X, entregamos 1.042.110 tokens por segundo en Offline, 1.016.380 tokens por segundo en Server y 785.522 tokens por segundo en Interactive. La eficiencia de escalabilidad alcanzó el 93% en Offline, 93% en Servidor y 98% en Interactivo. La escalabilidad offline es el camino más estándar, pero Server e Interactive son más difíciles porque deben cumplir los requisitos de latencia a medida que crece el clúster, lo que hace que estos resultados sean especialmente atractivos.

Este es exactamente el tipo de trampolín que necesitamos a medida que la inferencia avanza hacia AMD Helios y futuros despliegues a escala de rack.Los

resultados multinodo continúan en GPT-OSS-120B. Estos resultados se vuelven aún más interesantes ya que esta fue nuestra primera presentación multinodo GPT-OSS. La cuestión no era solo si podíamos habilitar el modelo, sino si podríamos escalarlo eficientemente a través de un clúster real. Con 12 nodos y 94 GPUs AMD Instinct MI355X, entregamos 1.031.070 tokens por segundo en Offline y 900.054 tokens por segundo en Server. Igualmente importante, nos mantuvimos cerca de la escala ideal de 12x, con un 92% de eficiencia en Offline y un 93% en Servidor. Eso convirtió a GPT-OSS en el segundo modelo en el que superamos la marca del millón de tokens por segundo a escala multinodo.

Para los clientes, estos resultados escalados proporcionan puntos de prueba importantes:

  • La escalada multinodo predecible hace crecer los clústeres de inferencia sin perder eficiencia a medida que aumentan las cargas de trabajo y el tamaño del modelo.
  • Una alta eficiencia a escala de servidor genera confianza para la inferencia en tiempo real, no solo para el procesamiento por lotes de alto rendimiento.
  • Una mayor eficiencia en la escalabilidad mejora la utilización de la GPU, ayudando a reducir el coste por token y maximizando la inversión en infraestructura.
  • El rendimiento multinodo probado ofrece a los clientes un camino más sólido desde despliegues piloto hasta infraestructuras de IA a escala de producción

Escala del ecosistema y reproducibilidad entre las propuestas de socios

Otro punto destacado para AMD en la presentación de MLPerf Inference 6.0 es el impulso del ecosistema. Esta ronda resultó en un empate con el número de socios que enviaron en hardware AMD Instinct con nueve: Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro y Red Hat.

Esas propuestas abarcaban cuatro tipos de GPU AMD Instinct: MI300X, MI325X, MI350X y MI355X. Demuestra que el ecosistema no está limitado a una configuración insignia; abarca múltiples generaciones y múltiples modelos de despliegue en plataformas OEM, ODM y de estilo cloud.

Esta reproducibilidad es especialmente poderosa. En las GPUs AMD Instinct MI355X, los resultados de los socios se situaron dentro del 4% de la presentación realizada por AMD, y algunos dentro del 1%, incluso en cargas de trabajo ejecutadas por primera vez. Eso es una señal muy clara de que estos números no son artefactos frágiles de laboratorio; son reproducibles en sistemas socios reales gracias al hardware predecible de AMD y al software AMD ROCm.

Para los clientes, eso significa más que la elección. Significa confianza en que el rendimiento que demuestra AMD puede recrearse en todo el ecosistema, reduciendo el riesgo de despliegue y acelerando el tiempo hasta la producción.

La primera presentación heterogénea de 3 GPUs demuestra una inferencia flexible entre geografías

Uno de los resultados más visionarios es la primera presentación heterogénea MLPerf construida en tres tipos de GPU AMD Instinct: MI300X, MI325X y MI355X. Enviada por Dell y MangoBoost, la configuración alcanzó 141.521 tokens por segundo en el servidor Llama 2 70B y 151.843 tokens por segundo en Llama 2 70B Offline.

Un detalle especialmente importante es la geografía. La plataforma AMD Instinct MI355X estaba ubicada en el laboratorio de Dell en Estados Unidos, mientras que las plataformas Instinct MI300X y MI325X estaban en Corea. Eso hace que esto sea más que una historia de inferencia mixta, también es un punto de prueba para la orquestación entre sistemas de diferentes geografías.

Para los clientes, el valor es evidente:

  • Los despliegues existentes de la GPU AMD Instinct pueden ampliarse en lugar de ser eliminados y reemplazados.
  • El hardware de generación mixta puede orquestarse de forma inteligente para preservar la utilización y el rendimiento.
  • El software AMD ROCm ayuda a que los entornos no uniformes sean más prácticos, predecibles y rentables.
  • AMD está demostrando un camino hacia una infraestructura flexible y preparada para el futuro en lugar de ciclos de actualización de un solo momento.

Cómo el software AMD ROCm impulsa el rendimiento, la escala y la habilitación del modelo

Cada resultado importante en la presentación de la Inferencia 6.0 de AMD MLPerf está conectado por un hilo común: el software AMD ROCm. Convirtió el hardware AMD Instinct MI355X en una plataforma desplegable para inferencia competitiva de una sola GPU, rendimiento a escala de clúster, orquestación heterogénea y puesta en marcha por primera vez de modelos.

En la presentación, el software AMD ROCm ayudó a permitir una ejecución eficiente de FP4, una comunicación optimizada GPU a GPU para escalar multinodos, una distribución dinámica de cargas de trabajo para inferencias heterogéneas y una preparación de modelos para el día cero en modelos como Llama, Wan y GPT-OSS.

Para los clientes, el software AMD ROCm ofrece varias ventajas prácticas:

  • Rendimiento optimizado del modelo para tipos de datos modernos de IA generativa y núcleos de inferencia.
  • Escalabilidad multinodo fluida con comunicación y orquestación eficientes.
  • Distribución heterogénea de la carga de trabajo entre generaciones de GPUs AMD Instinct.
  • Preparación más rápida para modelos emergentes y nuevas categorías de carga de trabajo.

Por eso el software ROCm es una parte tan importante de la historia de AMD. No solo ayuda a AMD a conseguir un resultado sólido en benchmark, sino que permite rendimiento, escalabilidad, flexibilidad y reproducibilidad en toda la cartera de Instinct.

Annual Cadence se está preparando hacia las soluciones AMD Instinct MI400 Series y Helios Rack-Scale

El contexto más amplio detrás de estos resultados es el impulso. AMD está ejecutando una cadencia anual para las GPUs Instinct, y esa consistencia importa. Las GPUs AMD Instinct MI300X establecieron una sólida base en IA generativa en 2023. Las GPUs AMD Instinct MI325X ampliaron esa base en 2024 con mayor capacidad de cálculo y HBM3E. En 2025, la serie AMD Instinct MI350, incluida la GPU MI355X, impulsó la plataforma de nuevo con nuevos tipos de datos de IA, mayor capacidad de modelos y las mejoras de inferencia mostradas a lo largo de esta presentación.

Y en 2026, AMD planea avanzar a las GPUs AMD Instinct MI400 Series basadas en la arquitectura AMD CDNA 5 de próxima generación, extendiendo esta cadencia anual a la próxima era de la IA a escala de rack y sentando las bases para la solución AMD Helios a escala de rack. Para los clientes, eso proporciona confianza en que AMD no solo está entregando un resultado sólido hoy, sino que está construyendo una plataforma de inferencia a largo plazo que puede escalar con el tamaño del modelo, la diversidad de carga de trabajo y los requisitos de despliegue en producción.

Conclusión final

La presentación de AMD MLPerf Inference 6.0 supone un gran avance para AMD y su historia de IA generativa. En cargas de trabajo completamente nuevas, las GPUs AMD Instinct MI355X ofrecieron resultados altamente competitivos en un solo nodo, un rendimiento escalable multinodo increíblemente eficiente, una puesta en marcha por primera vez en GPT-OSS-120B y Wan-2.2-t2v, y un hito de entregar más de 1 millón de tokens por segundo a escala de clúster.

En el centro de todo esto está el software AMD ROCm y una disciplina anual de hoja de ruta. Desde la GPU AMD Instinct MI300X hasta la GPU MI325X y la serie MI350 con la GPU AMD Instinct MI355X, AMD avanza rápidamente, ampliando el soporte de modelos y construyendo la base de software y sistemas necesaria para futuros despliegues de IA a escala de rack. Con la solución AMD Helios a escala de rack impulsada por la serie AMD Instinct MI400 y futuras generaciones de AMD Instinct en el horizonte, MLPerf Inference 6.0 refuerza un mensaje claro: AMD no solo participa en la transición de la inferencia generativa de IA, sino que ayuda a definir cómo es la infraestructura GenAI lista para producción.

Para los lectores interesados en la historia técnica más profunda detrás de estos resultados, dos nuevos blogs de AMD ROCm ofrecen detalles adicionales sobre la presentación de MLPerf Inference v6.0. «AMD Instinct GPUs MLPerf Inference v6.0 Submission» explora el trabajo de hardware y software detrás de estos resultados, mientras que «Reproducing the AMD MLPerf Inference v6.0 submission result» explica cómo replicar los benchmarks en hardware AMD Instinct, reforzando el compromiso de AMD con la apertura, transparencia y reproducibilidad en la inferencia de IA.

Epson y Deltron abren primer centro de experiencia en el Perú
Resident Evil Survival Unit supera el millón de descargas
RTX Remix ha salido de su fase beta
Kaspersky reporta crecimiento de ataques al sector empresarial
Wildgate ya está disponible en todas las plataformas
ETIQUETADO:AMDAMD CDNA 4AMD Instinct MI355XAMD MLPerf Inference 6.0AMD ROCmbenchmarkciscoDellFP4FP6Giga ComputingGPT-OSS-120BGPUs Instinct MI350XHBM3eHPELlama 2 70BMangoBoostMI300XMI325XMI350XMI355XMiTACMLPerfMLPerf Inference 6.0multinodoNVIDIA B200oraclered hatSupermicroWan-2.2-t2v
Comparte este artículo
Facebook Copiar enlace
Compartir
Artículo anterior MSI anuncia soporte completo para el nuevo AMD Ryzen 9 9950X3D2 Dual Edition MSI anuncia soporte completo para el nuevo AMD Ryzen 9 9950X3D2 Dual Edition
Siguiente Artículo Chery gana 14 premios J.D. Power y marca un hito en calidad Chery gana 14 premios J.D. Power y marca un hito en calidad
- Publicidad -
Ad imageAd image

Síguenos

FacebookSeguir Fb
XSeguir
InstagramSeguir
YouTubeSuscríbete
TikTokSeguir
LinkedInSeguir

Últimas noticias

Sony Y TCL formalizan su asociación estratégica
Sony y TCL formalizan su asociación estratégica
Noticias Tecnología
Cómo mantener los datos de los menores seguros y protegidos
Cómo mantener los datos de los menores seguros y protegidos
Noticias Tecnología
NVIDIA y Marvell Technology anuncian alianza estratégica
NVIDIA y Marvell Technology anuncian alianza estratégica
Noticias Tecnología
Chery gana 14 premios J.D. Power y marca un hito en calidad
Chery gana 14 premios J.D. Power y marca un hito en calidad
Noticias Tecnología

Te puede interesar...

Samsung Colombia abre convocatorias del Programa de Talento Joven 2026-1
NoticiasTecnología

Samsung Colombia abre convocatorias del Programa de Talento Joven 2026-1

Carlos Cantor
Carlos Cantor
5 Min en Leer
vivo sobre el impacto de la tecnología en las relaciones actuales
MóvilesNoticiasTecnología

vivo sobre el impacto de la tecnología en las relaciones actuales

Carlos Cantor
Carlos Cantor
6 Min en Leer
El Ecosistema Galaxy y Samsung Health mejoran nuestro bienestar
MóvilesNoticiasTecnología

El Ecosistema Galaxy y Samsung Health ayuda a mejorar nuestro bienestar

Carlos Cantor
Carlos Cantor
6 Min en Leer
//

Somos el portal donde obtendrás las novedades sobre tecnología y entretenimiento digital

Enlaces Rápido

  • Contacto
  • Blog
  • Publicidad

Soporte

  • Términos y Condiciones
  • Política de cookies
  • Política de Privacidad

Suscríbete a nuestro boletín

Suscríbase a nuestro boletín para recibir nuestros artículos más recientes.

MastekHwMastekHw
Síguenos
© 2018 MastekHw Service International. LLc. Todos los derechos reservados.
Bienvenido de nuevo!

Accede a tu cuenta

Usuario o Email
Contraseña

¿Ha perdido su contraseña?