IBM se complace en presentar IBM Granite 4.0 Tiny Preview, una versión preliminar del modelo más pequeño de la próxima familia de modelos de lenguaje Granite 4.0, a la comunidad de código abierto. Granite 4.0 Tiny Preview es extremadamente compacto y eficiente en computación: con precisión FP8, se pueden ejecutar varias sesiones simultáneas que realizan tareas de contexto largo (128K) en hardware de nivel de consumidor, incluidas las GPU comúnmente disponibles por menos de $ 350 USD. Aunque el modelo solo está parcialmente entrenado (solo ha visto 2,5 T de los 15 T planificados o más tokens de entrenamiento), ya ofrece un rendimiento que rivaliza con el de IBM Granite 3.3 2B Instruct a pesar de tener menos parámetros activos y una reducción de aproximadamente el 72% en los requisitos de memoria. Anticipamos que el rendimiento de Granite 4.0 Tiny estará a la par con el de Granite 3.3 8B Instruct para cuando haya completado el entrenamiento y el post-entrenamiento.
Como su nombre indica, Granite 4.0 Tiny será una de las ofertas más pequeñas de la familia de modelos Granite 4.0. Se lanzará oficialmente este verano como parte de una línea de modelos que también incluye Granite 4.0 Small y Granite 4.0 Medium. Granite 4.0 continúa el firme compromiso de IBM de hacer de la eficiencia y la practicidad la piedra angular de su desarrollo empresarial de LLM. Esta versión preliminar de Granite 4.0 Tiny ya está disponible en Hugging Face, aunque aún no recomendamos la versión preliminar para uso empresarial, bajo una licencia estándar de Apache 2.0. Nuestra intención es permitir que incluso los desarrolladores con poca GPU experimenten y jueguen con el modelo en GPU de consumo. La novedosa arquitectura del modelo está pendiente de soporte en los transformadores Hugging Face y vLLM, que anticipamos se completará en breve para ambos proyectos. Se espera que el soporte oficial para ejecutar este modelo localmente a través de socios de plataforma, incluidos Ollama y LMStudio, llegue a tiempo para el lanzamiento completo del modelo a finales de este verano.
Rendimiento empresarial en hardware de consumo
Los requisitos de memoria de LLM a menudo se proporcionan, literal y figurativamente, sin el contexto adecuado. No basta con saber que un modelo se puede cargar con éxito en su(s) GPU(s): debe saber que su hardware puede manejar el modelo en las longitudes de contexto que requiera su caso de uso.
Además, muchos casos de uso empresarial no implican la implementación de un modelo solitario, sino la inferencia por lotes de varias instancias simultáneas. Por lo tanto, IBM se esfuerza por medir e informar sobre los requisitos de memoria teniendo en cuenta el contexto largo y las sesiones simultáneas. Granite 4.0 Tiny es uno de los modelos de lenguaje más eficientes en memoria disponibles en la actualidad. Incluso en contextos muy largos, varias instancias simultáneas de Granite 4.0 Tiny pueden ejecutarse fácilmente en una GPU de consumo modesta.
Una arquitectura MoE híbrida completamente nueva
Mientras que las generaciones anteriores de LLM de Granite utilizaban una arquitectura de transformador convencional, todos los modelos de la familia Granite 4.0 utilizan una nueva arquitectura híbrida Mamba-2/Transformer, que combina la velocidad y la eficiencia de Mamba con la precisión de la autoatención basada en transformadores. Granite 4.0 Tiny-Preview, específicamente, es un modelo híbrido de mezcla de expertos (MoE) de grano fino , con parámetros totales de 7B y solo 1B de parámetros activos en el momento de la inferencia. Muchas de las innovaciones que informan la arquitectura Granite 4 surgieron de la colaboración de IBM Research con los creadores originales de Mamba en Bamba, un modelo híbrido experimental de código abierto cuyo sucesor (Bamba v2) se lanzó a principios de esta semana.
Lo que está sucediendo a continuación
Estamos emocionados de continuar con el entrenamiento previo de Granite 4.0 Tiny, dados los resultados tan prometedores tan temprano en el proceso. También estamos entusiasmados de aplicar nuestros aprendizajes de Granite 3.3 después del entrenamiento, particularmente en lo que respecta a las capacidades de razonamiento y el seguimiento de instrucciones complejas, a los nuevos modelos. Al igual que sus predecesores en Granite 3.2 y Granite 3.3, Granite 4.0 Tiny Preview ofrece una funcionalidad de pensamiento activo y desactivado (aunque su post-entrenamiento centrado en el razonamiento es muy incompleto).