En marzo, Google anunció Gémini 2.5 Pro, el modelo más inteligente hasta la fecha, y hace dos semanas, presentaron su I/O update early para que los desarrolladores creen aplicaciones web increíbles. Ahora Google, comparte aún más actualizaciones de Gémini 2.5:
- El increíble rendimiento de Beyond 2.5 ProSobre los puntos de referencia académicos, ahora es el modelo líder en el mundo en todo el mundo.WebDev ArenayLMArenatablas de clasificación, y paraAyudar a las personas a aprender.
- Incorporamos nuevas capacidades a 2.5 Pro y 2.5 Flash: salida de audio nativa para una experiencia conversacional más natural, medidas de seguridad avanzadas y las capacidades de uso de la computadora de Project Mariner. 2.5 Pro mejorará aún más con Deep Think, un modo de razonamiento experimental y mejorado para matemáticas y codificación altamente complejas.
- Seguimos invirtiendo en la experiencia de los desarrolladores, introduciendo resúmenes de opinión en la API de Gemini y en Vertex AI para una mayor transparencia, ampliando los presupuestos de pensamiento a 2.5 Pro para un mayor control y añadiendo compatibilidad con herramientas MCP en la API y el SDK de Gemini para acceder a más herramientas de código abierto.
- 2.5 Flash ya está disponible para todos en la aplicación Gemini, y haremos que nuestra versión actualizada esté disponible para el público en general en Google AI Studio para desarrolladores y en Vertex AI para empresas a principios de junio, con 2.5 Pro poco después.
Este notable progreso es el resultado del esfuerzo incansable de los equipos de Google para mejorar nuestras tecnologías, desarrollarlas y lanzarlas de manera segura y responsable. Vamos a sumergirnos.
2.5 Pro rinde mejor que nunca
Recientemente hemos actualizado la versión 2.5 Pro para ayudar a los desarrolladores a crear aplicaciones web más interactivas y enriquecidas. Es genial ver la reacción positiva de los usuarios y desarrolladores, y seguimos haciendo mejoras basadas en los comentarios de los usuarios.
Además de su sólido rendimiento en los puntos de referencia académicos, el nuevo 2.5 Pro ahora lidera la popular tabla de clasificación de codificación,WebDev Arena, con una puntuación ELO de 1415. También lidera en todas las tablas de clasificación de la LMArena, que evalúa la preferencia humana en varias dimensiones. Y, con su ventana de contexto de 1 millón de tokens, 2.5 Pro tiene tecnología de última generación Contexto prolongado y rendimiento de comprensión de video.
Desde la incorporación de LearnLM, nuestra familia de modelos creados con expertos en educación, 2.5 Pro también es ahora el modelo líder para el aprendizaje. En las comparaciones cara a cara que evaluaron su pedagogía y efectividad, los educadores y expertos prefirieron Gemini 2.5 Pro sobre otros modelos en una amplia gama de escenarios. Y superó a los mejores modelos en cada uno de los cinco principios de la ciencia del aprendizaje utilizados para construir sistemas de IA para el aprendizaje.
Pensamiento profundo
A través de la exploración de las fronteras de las capacidades de pensamiento de Gemini, estamos comenzando a probar un modo de razonamiento mejorado llamado Deep Think que utiliza nuevas técnicas de investigación que permiten al modelo considerar múltiples hipótesis antes de responder.
2.5 Pro Deep Think obtiene una puntuación impresionante en USAMO 2025, actualmente uno de los benchmarks matemáticos más difíciles. También conduce a LiveCodeBench, un punto de referencia difícil para la codificación a nivel de competencia, y obtiene una puntuación del 84.0% enMMMU, que pone a prueba el razonamiento multimodal.
Debido a que estamos definiendo la frontera con 2.5 Pro DeepThink, nos estamos tomando más tiempo para realizar más evaluaciones de seguridad fronteriza y obtener más información de los expertos en seguridad. Como parte de eso, lo pondremos a disposición de los evaluadores de confianza a través de la API de Gemini para obtener sus comentarios antes de que esté disponible ampliamente.
Un flash 2.5 aún mejor
2.5 Flash es nuestro modelo más eficiente, diseñado para la velocidad y el bajo costo, y ahora es mejor en muchas dimensiones. Ha mejorado en los puntos de referencia clave para el razonamiento, la multimodalidad, el código y el contexto largo, al tiempo que se ha vuelto aún más eficiente, utilizando entre un 20 y un 30 % menos de tokens en nuestras evaluaciones.
El nuevo 2.5 Flash ya está disponible para su vista previa en Google AI Studio para desarrolladores, en Vertex AI para empresas y en la aplicación Gemini para todos. Y a principios de junio, estará disponible para la producción general.
Nuevas capacidades de Gemini 2.5
Salida de audio nativa y mejoras en la API en vivo
Hoy, la API en vivo presenta una versión preliminar de la entrada audiovisual y el diálogo de salida de audio nativo, para que pueda crear experiencias conversacionales directamente, con un Géminis más natural y expresivo.
También permite al usuario dirigir su tono, acento y estilo de hablar. Por ejemplo, puede decirle al modelo que use una voz dramática al contar una historia. Y admite el uso de herramientas, para poder buscar en su nombre.
Puede experimentar con un conjunto de características tempranas, entre las que se incluyen:
- Diálogo afectivo, en el que el modelo detecta emociones en la voz del usuario y responde adecuadamente.
- Audio proactivo, en el que el modelo ignorará las conversaciones en segundo plano y sabrá cuándo responder.
- Pensar en la API Live, en la que el modelo aprovecha las capacidades de pensamiento de Gemini para respaldar tareas más complejas.
También estamos lanzando nuevas vistas previas para la conversión de texto a voz en 2.5 Pro y 2.5 Flash. Estos tienen el primer soporte de su tipo para múltiples altavoces, lo que permite la conversión de texto a voz con dos voces a través de una salida de audio nativa.
Al igual que el diálogo de audio nativo, la conversión de texto a voz es expresiva y puede capturar matices realmente sutiles, como susurros. Funciona en más de 24 idiomas y cambia sin problemas entre ellos.
Uso de la computadora
Estamos incorporando las capacidades de uso de la computadora de Project Mariner a la API de Gemini y Vertex AI. Empresas como Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company y Cartwheel están explorando su potencial, y estamos entusiasmados de implementarlo más ampliamente para que los desarrolladores experimenten con él este verano.
Mejor seguridad
También hemos aumentado significativamente las protecciones contra las amenazas de seguridad, como las inyecciones indirectas de aviso. Esto es cuando las instrucciones maliciosas se incrustan en los datos que recupera un modelo de IA. Nuestro nuevo enfoque de seguridad ayudó a aumentar significativamente la tasa de protección de Gemini contra ataques indirectos de inyección inmediata durante el uso de la herramienta, lo que convierte a Gemini 2.5 en nuestra familia de modelos más segura hasta la fecha.
Experiencia de desarrollador mejorada
Resúmenes de pensamiento
2.5 Pro y Flash ahora incluirán resúmenes de pensamiento en la API de Gemini y en Vertex AI. Los resúmenes de pensamiento toman los pensamientos brutos del modelo y los organizan en un formato claro con encabezados, detalles clave e información sobre las acciones del modelo, como cuando usan herramientas.
Esperamos que con un formato más estructurado y simplificado en el proceso de pensamiento del modelo, los desarrolladores y usuarios encuentren las interacciones con los modelos de Gemini más fáciles de entender y depurar.
Pensar en los presupuestos
Lanzamos 2.5 Flash con presupuestos pensantes para dar a los desarrolladores más control sobre los costos al equilibrar la latencia y la calidad. Y vamos a ampliar esta capacidad a la versión 2.5 Pro. Esto le permite controlar el número de tokens que usa un modelo para pensar antes de responder, o incluso desactivar sus capacidades de pensamiento.
Gemini 2.5 Pro con presupuestos estará disponible para uso de producción estable en las próximas semanas, junto con nuestro modelo disponible para general.
Compatibilidad con MCP
Agregamos compatibilidad nativa del SDK para las definiciones del Protocolo de contexto modelo (MCP) en la API de Gemini para facilitar la integración con herramientas de código abierto. También estamos explorando formas de implementar servidores MCP y otras herramientas alojadas, lo que facilita la creación de aplicaciones agenticas.
Siempre estamos innovando en nuevos enfoques para mejorar nuestros modelos y nuestra experiencia de desarrollo, lo que incluye hacerlos más eficientes y eficientes, y seguimos respondiendo a los comentarios de los desarrolladores, ¡así que sigan enviándonos! También continuamos redoblando la apuesta por la amplitud y profundidad de nuestra investigación fundamental, ampliando las fronteras de las capacidades de Gemini.