NVIDIA habla del potencial de las fábricas de IA

La IA está creando valor para todos, desde los investigadores en el descubrimiento de fármacos hasta los analistas cuantitativos que navegan por los cambios del mercado financiero. Cuanto más rápido un sistema de IA pueda producir tokens, una unidad de datos utilizada para encadenar salidas, mayor será su impacto. Es por eso que las fábricas de IA son clave, ya que proporcionan el camino más eficiente desde el «tiempo hasta el primer token» hasta el «tiempo hasta el primer valor». Las fábricas de IA están redefiniendo la economía de la infraestructura moderna. Producen inteligencia transformando los datos en productos valiosos, ya sean tokens, predicciones, imágenes, proteínas u otras formas, a gran escala.

Ayudan a mejorar tres aspectos clave del recorrido de la IA: la ingesta de datos, el entrenamiento de modelos y la inferencia de gran volumen. Las fábricas de IA se están construyendo para generar tokens de forma más rápida y precisa, utilizando tres pilas de tecnología críticas: modelos de IA, infraestructura de computación acelerada y software de nivel empresarial. Siga leyendo para saber cómo las fábricas de IA están ayudando a las empresas y organizaciones de todo el mundo a convertir el producto digital más valioso, los datos, en potencial de ingresos.

De la Economía de la Inferencia a la Creación de Valor

Antes de construir una fábrica de IA, es importante comprender la economía de la inferencia: cómo equilibrar los costos, la eficiencia energética y la creciente demanda de IA. El rendimiento se refiere al volumen de tokens que puede producir un modelo. La latencia es la cantidad de tokens que el modelo puede generar en un período de tiempo específico, que a menudo se mide en el tiempo hasta el primer token (cuánto tiempo tarda en aparecer la primera salida) y el tiempo por token de salida, o la rapidez con la que sale cada token adicional. Goodput es una métrica más reciente que mide la cantidad de resultados útiles que un sistema puede ofrecer mientras alcanza los objetivos clave de latencia.

La experiencia del usuario es clave para cualquier aplicación de software, y lo mismo ocurre con las fábricas de IA. El alto rendimiento significa una IA más inteligente, y una menor latencia garantiza respuestas oportunas. Cuando ambas medidas se equilibran correctamente, las fábricas de IA pueden proporcionar experiencias de usuario atractivas mediante la entrega rápida de resultados útiles. Por ejemplo, un agente de servicio al cliente impulsado por IA que responde en medio segundo es mucho más atractivo y valioso que uno que responde en cinco segundos, incluso si ambos generan finalmente la misma cantidad de tokens en la respuesta. Las empresas pueden aprovechar la oportunidad para colocar precios competitivos en su producción de inferencia, lo que resulta en un mayor potencial de ingresos por token. Medir y visualizar este equilibrio puede ser difícil, y ahí es donde entra en juego el concepto de frontera de Pareto.

Salida de fábrica de IA: el valor de los tokens eficientes

La frontera de Pareto, representada en la figura siguiente, ayuda a visualizar las formas más óptimas de equilibrar las compensaciones entre objetivos contrapuestos, como respuestas más rápidas frente a atender a más usuarios simultáneamente, al implementar la IA a escala.

El eje vertical representa la eficiencia del rendimiento, medida en tokens por segundo (TPS), para una cantidad determinada de energía utilizada. Cuanto mayor sea este número, más solicitudes podrá gestionar una fábrica de IA al mismo tiempo. El eje horizontal representa el TPS para un solo usuario, que representa el tiempo que tarda un modelo en dar a un usuario la primera respuesta a una solicitud. Cuanto mayor sea el valor, mejor será la experiencia de usuario esperada. Por lo general, es deseable una latencia más baja y tiempos de respuesta más rápidos para aplicaciones interactivas como chatbots y herramientas de análisis en tiempo real.

El valor máximo de la frontera de Pareto, que se muestra como el valor superior de la curva, representa la mejor salida para conjuntos dados de configuraciones operativas. El objetivo es encontrar el equilibrio óptimo entre el rendimiento y la experiencia del usuario para diferentes cargas de trabajo y aplicaciones de IA. Las mejores fábricas de IA utilizan la computación acelerada para aumentar los tokens por vatio, optimizando el rendimiento de la IA y aumentando drásticamente la eficiencia energética en las fábricas y aplicaciones de IA. Hemos realizado un seguimiento de las experiencias de los usuarios: cuando se ejecutan en GPU NVIDIA H100 configuradas para ejecutarse a 32 tokens por segundo por usuario, en comparación con las GPU NVIDIA B300 que se ejecutan a 344 tokens por segundo por usuario. En la experiencia de usuario configurada, Blackwell Ultra ofrece una experiencia 10 veces mejor y un rendimiento casi 5 veces mayor, lo que permite un potencial de ingresos hasta 50 veces mayor.

Cómo funciona una fábrica de IA en la práctica

Una fábrica de IA es un sistema de componentes que se unen para convertir los datos en inteligencia. No necesariamente toma la forma de un centro de datos local de alta gama, sino que podría ser una nube dedicada a la IA o un modelo híbrido que se ejecuta en una infraestructura de computación acelerada. O podría ser una infraestructura de telecomunicaciones que pueda optimizar la red y realizar inferencias en el borde. Cualquier infraestructura de computación acelerada dedicada junto con software que convierta los datos en inteligencia a través de la IA es, en la práctica, una fábrica de IA.

Los componentes incluyen computación acelerada, redes, software, almacenamiento, sistemas y herramientas y servicios. Cuando una persona solicita un sistema de IA, toda la pila de la fábrica de IA se pone a trabajar. La fábrica tokeniza el mensaje, convirtiendo los datos en pequeñas unidades de significado, como fragmentos de imágenes, sonidos y palabras. Cada token se somete a un modelo de IA impulsado por GPU, que realiza un razonamiento intensivo en computación en el modelo de IA para generar la mejor respuesta. Cada GPU realiza un procesamiento paralelo, habilitado por redes e interconexiones de alta velocidad, para procesar datos simultáneamente. Una fábrica de IA ejecutará este proceso para diferentes indicaciones de usuarios de todo el mundo. Se trata de inferencia en tiempo real, que produce inteligencia a escala industrial.

Debido a que las fábricas de IA unifican el ciclo de vida completo de la IA, este sistema mejora continuamente: se registra la inferencia, se marcan los casos extremos para su reentrenamiento y los bucles de optimización se ajustan con el tiempo, todo ello sin intervención manual, un ejemplo de buena puesta en acción. La empresa líder mundial en tecnología de seguridad, Lockheed Martin, ha construido su propia fábrica de IA para respaldar diversos usos en todo su negocio. A través de su Centro de IA de Lockheed Martin, la compañía centralizó sus cargas de trabajo de IA generativa en NVIDIA DGX SuperPOD para entrenar y personalizar modelos de IA, utilizar toda la potencia de la infraestructura especializada y reducir los costos generales de los entornos en la nube.

«Con nuestra fábrica de IA en las instalaciones, manejamos la tokenización, la capacitación y la implementación internamente», dijo Greg Forrest, director de fundaciones de IA en Lockheed Martin. «Nuestro DGX SuperPOD nos ayuda a procesar más de 1.000 millones de tokens por semana, lo que permite el ajuste, la generación aumentada de recuperación o la inferencia en nuestros grandes modelos de lenguaje. Esta solución evita los costos crecientes y las limitaciones significativas de las tarifas basadas en el uso de tokens».

Tecnologías NVIDIA Full-Stack para AI Factory

Una fábrica de IA transforma la IA de una serie de experimentos aislados en un motor escalable, repetible y fiable para la innovación y el valor empresarial. NVIDIA proporciona todos los componentes necesarios para crear fábricas de IA, incluida la computación acelerada, las GPU de alto rendimiento, las redes de gran ancho de banda y el software optimizado.

Las GPU NVIDIA Blackwell, por ejemplo, se pueden conectar a través de redes, refrigerarse por líquido para mejorar la eficiencia energética y orquestarse con software de IA.

La plataforma de inferencia de código abierto NVIDIA Dynamo ofrece un sistema operativo para fábricas de IA. Está diseñado para acelerar y escalar la IA con la máxima eficiencia y el mínimo costo. Al enrutar, programar y optimizar de manera inteligente las solicitudes de inferencia, Dynamo garantiza que cada ciclo de GPU garantice la utilización completa, impulsando la producción de tokens con el máximo rendimiento.

Los sistemas NVIDIA Blackwell GB200 NVL72 y las redes NVIDIA InfiniBand están diseñados para maximizar el rendimiento de tokens por vatio, lo que hace que la fábrica de IA sea altamente eficiente tanto desde el punto de vista del rendimiento total como de la baja latencia.

Al validar soluciones optimizadas y completas, las organizaciones pueden crear y mantener sistemas de IA de vanguardia de manera eficiente. Una fábrica de IA de pila completa ayuda a las empresas a alcanzar la excelencia operativa, lo que les permite aprovechar el potencial de la IA más rápido y con mayor confianza.