La Olimpiada Internacional de Matemáticas (IMO) es la competición más prestigiosa del mundo para jóvenes matemáticos, y se celebra anualmente desde 1959. Cada país participante está representado por seis matemáticos preuniversitarios de élite que compiten para resolver seis problemas excepcionalmente difíciles en álgebra, combinatoria, geometría y teoría de números. Las medallas se otorgan a la mitad superior de los concursantes, y aproximadamente el 8% recibe una prestigiosa medalla de oro.
Recientemente, la OMI también se ha convertido en un desafío aspiracional para los sistemas de IA como prueba de sus capacidades avanzadas de razonamiento y resolución de problemas matemáticos. El año pasado, los sistemas combinados AlphaProof y AlphaGeometry 2 de Google DeepMind lograron el estándar de medalla de plata, resolviendo cuatro de los seis problemas y anotando 28 puntos. Haciendo uso de lenguajes formales especializados, este avance demostró que la IA estaba comenzando a acercarse al razonamiento matemático humano de élite.
Este año, formamos parte de una cohorte inaugural en la que los coordinadores de la OMI calificaron y certificaron oficialmente los resultados de nuestro modelo utilizando los mismos criterios que para las soluciones de los estudiantes. Reconociendo los logros significativos de los estudiantes participantes de este año, ahora estamos emocionados de compartir la noticia del gran desempeño de Gemini.
Rendimiento revolucionario en IMO 2025 con Gemini Deep Think
Una versión avanzada de Gemini Deep Think resolvió cinco de los seis problemas de la IMO a la perfección, obteniendo 35 puntos totales y logrando un rendimiento de nivel de medalla de oro.
«Podemos confirmar que Google DeepMind ha alcanzado el hito tan deseado, ganando 35 de 42 puntos posibles: una puntuación de medalla de oro. Sus soluciones fueron asombrosas en muchos aspectos. Los evaluadores de la OMI los encontraron claros, precisos y la mayoría de ellos fáciles de seguir.» – Presidente de la OMI, Prof. Dr. Gregor Dolinar
Este logro es un avance significativo con respecto al resultado decisivo del año pasado. En IMO 2024, AlphaGeometry y AlphaProof requirieron que los expertos primero tradujeran los problemas del lenguaje natural a lenguajes específicos del dominio, como Lean, y viceversa para las pruebas. También tomó dos o tres días de cómputo. Este año, nuestro modelo avanzado de Gemini funcionó de extremo a extremo en lenguaje natural, produciendo rigurosas pruebas matemáticas directamente a partir de las descripciones oficiales de los problemas, todo dentro del límite de tiempo de competencia de 4,5 horas.
Aprovechar al máximo el modo Deep Think
Logramos el resultado de este año utilizando una versión avanzada de Gemini Deep Think, un modo de razonamiento mejorado para problemas complejos que incorpora algunas de nuestras últimas técnicas de investigación, incluido el pensamiento paralelo. Esta configuración permite que el modelo explore y combine simultáneamente múltiples soluciones posibles antes de dar una respuesta final, en lugar de seguir una sola cadena lineal de pensamiento.
Para aprovechar al máximo las capacidades de razonamiento de Deep Think, también entrenamos a esta versión de Gemini en nuevas técnicas de aprendizaje por refuerzo que pueden aprovechar más datos de razonamiento de varios pasos, resolución de problemas y demostración de teoremas. También proporcionamos a Gemini acceso a un corpus seleccionado de soluciones de alta calidad a problemas matemáticos, y agregamos algunas sugerencias y consejos generales sobre cómo abordar los problemas de IMO a sus instrucciones.
Pondremos una versión de este modelo de Deep Think a disposición de un conjunto de evaluadores de confianza, incluidos matemáticos, antes de implementarlo para los suscriptores de Google AI Ultra.
El futuro de la IA y las matemáticas
Google DeepMind tiene colaboraciones continuas con la comunidad matemática, pero todavía estamos solo en el comienzo del potencial de la IA para contribuir a las matemáticas. Al enseñar a nuestros sistemas a razonar de forma más flexible e intuitiva, nos estamos acercando a la construcción de una IA que pueda resolver matemáticas más complejas y avanzadas.
Si bien nuestro enfoque de este año se basó puramente en el lenguaje natural con Gemini, también continuamos progresando en nuestros sistemas formales, AlphaGeometry y AlphaProof. Creemos que los agentes que combinan la fluidez del lenguaje natural con el razonamiento riguroso, incluido el razonamiento verificado en lenguajes formales, se convertirán en herramientas invaluables para matemáticos, científicos, ingenieros e investigadores, lo que nos ayudará a avanzar en el conocimiento humano en el camino hacia AGI.