En AWS re:Invent, Amazon Web Services, (AWS) anunció hoy la disponibilidad general de las instancias de Amazon Elastic Compute Cloud (Amazon EC2) impulsadas por AWS Trainium2 y presentó nuevos UltraServers Trn2, lo que permite a los clientes entrenar e implementar los modelos de IA más recientes de la actualidad, así como los futuros modelos de lenguaje grande (LLM) y modelos de base (FM) con niveles excepcionales de rendimiento y rentabilidad. y presentó la próxima generación de chips Trainium3.
«Trainium2 está diseñado específicamente para admitir las cargas de trabajo de IA generativa más grandes y de vanguardia, tanto para el entrenamiento como para la inferencia, y para ofrecer la mejor relación precio-rendimiento en AWS», dijo David Brown, vicepresidente de Computación y Redes de AWS. «Con modelos que se acercan a billones de parámetros, entendemos que los clientes también necesitan un enfoque novedoso para entrenar y ejecutar estas cargas de trabajo masivas. Los nuevos UltraServers Trn2 ofrecen el rendimiento de entrenamiento e inferencia más rápido en AWS y ayudan a las organizaciones de todos los tamaños a entrenar e implementar los modelos más grandes del mundo más rápido y a un costo menor».
- Las instancias Trn2 ofrecen una relación precio-rendimiento entre un 30 % y un 40 % mejor que la generación actual de instancias EC2 P5e y P5en basadas en GPU, y cuentan con 16 chips Trainium2 para proporcionar 20,8 petaflops máximos de computación, lo que resulta ideal para entrenar e implementar LLM con miles de millones de parámetros.
- Los UltraServers Trn2 de Amazon EC2 son una oferta de EC2 completamente nueva que cuenta con 64 chips Trainium2 interconectados, que utilizan la interconexión ultrarrápida NeuronLink, para escalar hasta 83,2 petaflops máximos de cómputo, cuadruplicando el cómputo, la memoria y las redes de una sola instancia, lo que permite entrenar e implementar los modelos más grandes del mundo.
- Junto con Anthropic, AWS está construyendo un UltraCluster EC2 de UltraServers Trn2, llamado Project Rainier, que contiene cientos de miles de chips Trainium2 y más de 5 veces la cantidad de exaflops utilizados para entrenar su generación actual de modelos de IA líderes.
- AWS presentó Trainium3, su chip de IA de próxima generación, que permitirá a los clientes crear modelos más grandes más rápido y ofrecer un rendimiento superior en tiempo real al implementarlos.
«Trainium2 está diseñado específicamente para admitir las cargas de trabajo de IA generativa más grandes y de vanguardia, tanto para el entrenamiento como para la inferencia, y para ofrecer la mejor relación precio-rendimiento en AWS», dijo David Brown, vicepresidente de Computación y Redes de AWS. «Con modelos que se acercan a billones de parámetros, entendemos que los clientes también necesitan un enfoque novedoso para entrenar y ejecutar estas cargas de trabajo masivas. Los nuevos UltraServers Trn2 ofrecen el rendimiento de entrenamiento e inferencia más rápido en AWS y ayudan a las organizaciones de todos los tamaños a entrenar e implementar los modelos más grandes del mundo más rápido y a un costo menor».
A medida que los modelos crecen en tamaño, están superando los límites de la infraestructura informática y de red, ya que los clientes buscan reducir los tiempos de entrenamiento y la latencia de inferencia, es decir, el tiempo que transcurre entre el momento en que un sistema de IA recibe una entrada y genera la salida correspondiente. AWS ya ofrece la selección más amplia y profunda de instancias EC2 aceleradas para IA/ML, incluidas las que funcionan con GPU y chips de ML. Pero incluso con las instancias aceleradas más rápidas disponibles en la actualidad, los clientes quieren más rendimiento y escala para entrenar estos modelos cada vez más sofisticados más rápido y a un costo menor. A medida que crecen la complejidad del modelo y los volúmenes de datos, el simple hecho de aumentar el tamaño del clúster no produce un tiempo de entrenamiento más rápido debido a las restricciones de paralelización. Al mismo tiempo, las demandas de la inferencia en tiempo real empujan a las arquitecturas de una sola instancia más allá de sus capacidades.
Trn2 es la instancia de Amazon EC2 de mayor rendimiento para el aprendizaje profundo y la IA generativa
Trn2 ofrece una relación precio-rendimiento entre un 30 y un 40 % mejor que la generación actual de instancias EC2 basadas en GPU. Una sola instancia Trn2 combina 16 chips Trainium2 interconectados con una interconexión de chip a chip ultrarrápida de alto ancho de banda y baja latencia de NeuronLink para proporcionar 20,8 petaflops máximos de cómputo, ideal para entrenar e implementar modelos de miles de millones de parámetros de tamaño.
Los UltraServers Trn2 satisfacen las necesidades cada vez más exigentes de computación de IA de los modelos más grandes del mundo
Para los modelos más grandes que requieren aún más computación, los UltraServers Trn2 permiten a los clientes escalar el entrenamiento más allá de los límites de una sola instancia Trn2, lo que reduce el tiempo de entrenamiento, acelera el tiempo de comercialización y permite una iteración rápida para mejorar la precisión del modelo. Los UltraServers Trn2 son una oferta EC2 completamente nueva que utiliza la interconexión ultrarrápida NeuronLink para conectar cuatro servidores Trn2 en un servidor gigante. Con los nuevos UltraServer Trn2, los clientes pueden ampliar sus cargas de trabajo de IA generativa en 64 chips Trainium2. En el caso de las cargas de trabajo de inferencia, los clientes pueden utilizar Trn2 UltraServers para mejorar el rendimiento de la inferencia en tiempo real para modelos de billones de parámetros en producción. Junto con Anthropic, AWS está construyendo un EC2 UltraCluster de Trn2 UltraServers, llamado Project Rainier, que ampliará el entrenamiento de modelos distribuidos a través de cientos de miles de chips Trainium2 interconectados con redes EFA de tercera generación a escala de petabits de baja latencia, más de 5 veces la cantidad de exaflops que Anthropic utilizó para entrenar su generación actual de modelos de IA líderes. Cuando esté terminado, se espera que sea el clúster de cómputo de IA más grande del mundo reportado hasta la fecha disponible para que Anthropic construya e implemente sus modelos futuros.
Anthropic es una empresa de investigación y seguridad de IA que crea sistemas de IA fiables, interpretables y dirigibles. El producto estrella de Anthropic es Claude, un LLM en el que confían millones de usuarios en todo el mundo. Como parte de la colaboración ampliada de Anthropic con AWS, han comenzado a optimizar los modelos de Claude para que se ejecuten en Trainium2, el hardware de IA más avanzado de Amazon hasta la fecha. Anthropic utilizará cientos de miles de chips Trainium2, más de cinco veces el tamaño de su clúster anterior, para ofrecer un rendimiento excepcional a los clientes que utilizan Claude en Amazon Bedrock.
Mosaic AI de Databricks permite a las organizaciones crear e implementar sistemas de agentes de calidad. Está construido de forma nativa sobre el data lakehouse, lo que permite a los clientes personalizar de forma fácil y segura sus modelos con datos empresariales y ofrecer resultados más precisos y específicos del dominio. Gracias al alto rendimiento y la rentabilidad de Trainium, los clientes pueden escalar el entrenamiento de modelos en Mosaic AI a bajo costo. La disponibilidad de Trainium2 será un gran beneficio para Databricks y sus clientes, ya que la demanda de Mosaic AI continúa escalando en todos los segmentos de clientes y en todo el mundo. Databricks, una de las empresas de datos e inteligencia artificial más grandes del mundo, planea utilizar Trn2 para ofrecer mejores resultados y reducir el costo total de propiedad hasta en un 30% para sus clientes.
Hugging Face es la plataforma abierta líder para creadores de IA, con más de 2 millones de modelos, conjuntos de datos y aplicaciones de IA compartidos por una comunidad de más de 5 millones de investigadores, científicos de datos, ingenieros de aprendizaje automático y desarrolladores de software. Hugging Face ha colaborado con AWS en los últimos dos años, lo que facilita a los desarrolladores experimentar los beneficios de rendimiento y costos de AWS Inferentia y Trainium a través de la biblioteca de código abierto Optimum Neuron, integrada en los puntos de enlace de inferencia de Hugging Face y ahora optimizada dentro del nuevo servicio de autoimplementación HUGS, disponible en AWS Marketplace. Con el lanzamiento de Trainium2, los usuarios de Hugging Face tendrán acceso a un rendimiento aún mayor para desarrollar e implementar modelos más rápido.
Poolside está preparada para construir un mundo en el que la IA impulsará la mayoría de los trabajos económicamente valiosos y el progreso científico. Poolside cree que el desarrollo de software será la primera gran capacidad en redes neuronales que alcance la inteligencia a nivel humano. Para ello, están creando FM, una API y un asistente para llevar el poder de la IA generativa a las manos de los desarrolladores. Una clave para habilitar esta tecnología es la infraestructura que utilizan para crear y ejecutar sus productos. Con AWS Trainium2, los clientes de poolside podrán escalar su uso a una relación precio-rendimiento diferente a la de otros aceleradores de IA. Además, poolside planea entrenar futuros modelos con Trainium2 UltraServers, con un ahorro esperado del 40% en comparación con las instancias EC2 P5.
Chips Trainium3: diseñados para las necesidades de alto rendimiento de la próxima frontera de las cargas de trabajo de IA generativa
AWS presentó Trainium3, su chip de entrenamiento de IA de próxima generación. Trainium3 será el primer chip de AWS fabricado con un nodo de proceso de 3 nanómetros, estableciendo un nuevo estándar de rendimiento, eficiencia energética y densidad. Se espera que los UltraServers con tecnología Trainium3 tengan un rendimiento 4 veces mayor que los UltraServers Trn2, lo que permitirá a los clientes iterar aún más rápido al crear modelos y ofrecer un rendimiento superior en tiempo real al implementarlos. Se espera que las primeras instancias basadas en Trainium3 estén disponibles a finales de 2025.
Permitir que los clientes desbloqueen el rendimiento de Trainium2 con el software AWS Neuron
El SDK de Neuron incluye compilador, bibliotecas de tiempo de ejecución y herramientas para ayudar a los desarrolladores a optimizar sus modelos para que se ejecuten en Trainium. Proporciona a los desarrolladores la capacidad de optimizar los modelos para obtener un rendimiento óptimo en los chips Trainium. Neuron se integra de forma nativa con marcos populares como JAX y PyTorch para que los clientes puedan continuar usando su código y flujos de trabajo existentes en Trainium con menos cambios en el código. Neuron también es compatible con más de 100.000 modelos en el centro de modelos Hugging Face. Con Neuron Kernel Interface (NKI), los desarrolladores obtienen acceso a chips Trainium bare metal, lo que les permite escribir kernels de cómputo que maximizan el rendimiento para cargas de trabajo exigentes.
El software de Neuron está diseñado para facilitar el uso de marcos populares como JAX para entrenar e implementar modelos en Trainium2, al tiempo que minimiza los cambios de código y la vinculación a soluciones específicas del proveedor. Google está apoyando los esfuerzos de AWS para permitir que los clientes utilicen JAX para el entrenamiento y la inferencia a gran escala a través de su integración nativa de OpenXLA, lo que proporciona a los usuarios una ruta de codificación fácil y portátil para comenzar a usar instancias Trn2 rápidamente. Con la colaboración de código abierto en toda la industria y la disponibilidad de Trainium2, Google espera ver una mayor adopción de JAX en toda la comunidad de ML, un hito importante para todo el ecosistema de ML.
Las instancias Trn2 ya están disponibles de forma general en la región de AWS Este de EE. UU. (Ohio), y pronto estarán disponibles en otras regiones. Los UltraServers Trn2 están disponibles en versión preliminar.