Nexa AI, anunció NexaQuants para dos productos de DeepSeek R1: DeepSeek R1 Distill Qwen 1.5B y DeepSeek R1 Distill Llama 8B. Los métodos de cuantificación populares, como el Q4 K M basado en llama.cpp, permiten que los modelos de lenguaje grandes reduzcan significativamente su huella de memoria y, por lo general, ofrecen una baja pérdida de perplejidad para los modelos densos como compensación. Sin embargo, incluso una pérdida de perplejidad baja puede resultar en un impacto en la capacidad de razonamiento para los modelos (densos o MoE) que utilizan trazas de cadena de pensamiento. Nexa AI ha declarado que NexaQuants es capaz de recuperar esta pérdida de capacidad de razonamiento (en comparación con la precisión completa de 16 bits) mientras mantiene la cuantificación de 4 bits y al mismo tiempo conserva la ventaja de rendimiento. Los puntos de referencia proporcionados por Nexa AI se pueden ver a continuación.
Podemos ver que los destilados DeepSeek R1 cuantificados Q4 K M obtienen una puntuación ligeramente inferior (excepto el banco AIME24 en el destilado Llama 3 8b, que obtiene una puntuación significativamente más baja) en los puntos de referencia de LLM como GPQA y AIME24 en comparación con sus contrapartes completas de 16 bits. Pasar a una cuantificación Q6 o Q8 sería una forma de solucionar este problema, pero daría lugar a que el modelo se volviera un poco más lento de ejecutar y requiriera más memoria. Nexa AI ha declarado que NexaQuants utiliza un método de cuantificación patentado para recuperar la pérdida mientras mantiene la cuantificación en 4 bits. Esto significa que, en teoría, los usuarios pueden obtener lo mejor de ambos mundos: precisión y velocidad.
Puede leer más sobre los destilados NexaQuant DeepSeek R1 aquí.
Los siguientes destilados NexaQuants DeepSeek R1 están disponibles para su descarga:
Cómo ejecutar NexaQuants en sus procesadores AMD Ryzen o tarjeta gráfica Radeon
Recomendamos utilizar LM Studio para todas sus necesidades de LLM.
- 1) Descarga e instala LM Studio desde lmstudio.ai/ryzenai
- 2) Ve a la pestaña descubrir y pega el enlace de huggingface de uno de los nexaquants de arriba.
- 3) Espere a que el modelo termine de descargarse.
- 4) Vuelve a la pestaña de chat y selecciona el modelo en el menú desplegable. Asegúrese de que la opción «elegir parámetros manualmente» esté seleccionada.
- 5) Establezca las capas de descarga de GPU en MAX.
- 6) ¡Carga el modelo y chatea!
De acuerdo con estos datos proporcionados por Nexa AI, los desarrolladores también pueden usar las versiones NexaQuant de los destilados DeepSeek R1 anteriores para obtener un rendimiento generalmente mejorado en aplicaciones basadas en llama.cpp o GGUF.