- Gemini 3 waxay soo bandhigaysaa sabab qoto dheer, macnaha guud ee dheer iyo moodooyinka cusub (Pro, Flash iyo Pro Image) iyadoo la adeegsanayo qalab sida aasaaska raadinta, raadinta faylka iyo macnaha URL.
- Xakamaynta API-ga cusub sida thinking_level, media_resolution iyo thoughtSignatures waxay kuu oggolaanayaan inaad hagaajiso qoto dheeraanta sababaynta, daacadnimada multimodal iyo socodka shaqada ee wakiilka.
- Ka guurista Gemini 2.5 waxay u baahan tahay dib u eegis ku saabsan dejimaha heerkulka, qaababka caadiga ah ee warbaahinta, baahiyaha kala qaybinta sawirka iyo iswaafajinta qalabka (tusaale ahaan, Khariidadaha iyo Isticmaalka Kombuyuutarka).
- Natiijooyinka ugu fiican waxay ka yimaadaan tilmaamo cad, ilaalinta Saxiixyada fikirka, ula dhaqanka dhammaan hababka inay yihiin wax-soo-saar heer sare ah iyo su'aalo la gelinayo dhammaadka xaaladaha dheer.
Gemini 3 llega como la generación más potente de modelos Gemini y viene acompañada de un aluvión de cambios en la API diseñados para desarrolladores que quieren más control, más rendimiento y flujos de trabajo realmente agentic, integrados en un IDE centrado iyo wakiilada basado en VS Code. Desde nuevas formas de gestionar el razonamiento y la multimodalidad, hasta herramientas avanzadas para trabajar con archivos, búsqueda y grounding, la plataforma se ha ido puliendo versión tras versión para soportar casos de uso cada vez más complejos.
Este artículo recopila y reordena de forma práctica todas las novedades clave de la API de Gemini relacionadas iyo Gemini 3 y su evolución desde Gemini 1.5 y 2.x, inkluyendo modelos, parámetros, herramientas, precioessoress u daalacashada antigurada. La idea es que tengas en un único lugar una visión amplia: qué hay disponible hoy, qué ha quedado obsoleto, cómo sacar partido a las nuevas capacidades y qué debes tener presente si vienes de generaciones anteriores.
La evolución de la API de Gemini hadda Gemini 3
La historia de la API de Gemini arranca públicamente iyo diciembre de 2023 con la llegada de gemini-pro, gemini-pro-vision y el primer modelo de embeddings embeddings-001, junto con los canales v1 y v1beta de la API. Desde entonces, la plataforma ha ido creciendo en modalidades, contexto, herramientas iyo modelos especializados, preparando el terreno para las capacidades de razonamiento y agentes que hoy vemos iyo Gemini 3.
En 2024, Gemini 1.5 Pro y 1.5 Flash se consolidan como modelos de propósito general con contexto largo (incluyendo versiones de hasta 2M tokens) y variantes compactas como gemini-1.5-flash-8b-001, mientras se vanguerandos como-gabi-1.0. Aragtida. Esta etapa soo bandhig además la API de File, la instrucciones del sistema, el modo de llamada a función, el formato JSON de salida y nuevas opciones de seguridad y control.
A finales de 2024 iyo comienzos de 2025 aparecen los modelos experimentales Gemini 2.0 Flash iyo Gemini 2.0 Flash Thinking, que traen streaming bidireccional vía la API de Live, multimodalidad más rica (texto, imagen y voz) iyo "muuqaal muuqata" En paralelo se lanza gemini-exp-1114 y gemini-exp-1121 como modelos experimentales más potentes, y se actualizan los alias gemini-1.5-pro-latest y gemini-1.5-flash-latest para apuntar a las versiones más recientes.
Durante 2025, la serie Gemini 2.0 y 2.5 amplía el catálogo con modelos optimizados para coste (Flash-Lite), imagen, vídeo, robótica y audio nativo, así como capacidades de grounding con Google Search, herramientas de contexto de URL URLs Live URLs En este contexto se van introduciendo también políticas de retirada de modelos, ajustes de precios y cambios en la configuración por defecto, preparando el salto a Gemini 3.

Qué es Gemini 3 iyo qué modelos waxaa ka mid ah
Gemini 3 es la nueva familia de modelos de Google centrada en razonamiento de última generación, agentes autónomos y comprensión multimodal profunda, diseñada para dar vida a flujos complejos de programación, investigación y generación de contenido. Su objetivo es ir más allá de “jawaab jawaab celin ah” iyo convertirse en el motor de sistema que piensan, planifican, llaman herramientas iyo se adaptan al contexto de forma continua.
Dentro de la serie Gemini 3 encontramos tres modelos principales iyo horu-u-eegis: gemini-3-pro-view, gemini-3-flash-preview y gemini-3-pro-image-fiiri. Cada uno está especializado en un tipo de tarea, pero todos comparten una base de razonamiento avanzado, contexto largo y soporte para nuevas capacidades de la API como think_level, media_resolution y firmas de pensamiento.
Gemini 3 Pro es el modelo más capaz de la familia, pensado para tareas complejas que requieren amplio conocimiento del mundo, razonamiento profundo en múltiples modalidades y una fuerte orientación a agentes y código. Soporta una ventana de contexto de entrada de hasta 1 millón de tokens y hasta 64.000 tokens de salida, con un cutoff de conocimiento en enero de 2025 iyo un precio escalonado según el volumen de tokens.
Gemini 3 Flash es la variante optimizada para velocidad y coste, ofreciendo inteligencia de nivel Pro pero adaptada a aplicaciones de alta demanda, baja laentcia y gran volumen, komo chat de usuario final, extracción estructurada o tareas repetitivas. Comparte el mismo contexto máximo que Pro (1M / 64K), mantiene el mismo cutoff de conocimiento y se ofrece con precios significativamente más bajos por millón de tokens de entrada y salida.
Gemini 3 Pro Image (también denominado internamente como Nano Banana Pro) es el modelo de imagen de duqa calidad de la familia, con capacidades avanzadas de generación y edición, incluyendo renderizado de texto nítido, resoluciones de hasta 4Kles traqueyana fuertemente en las firmas de pensamiento. Dispone de un contexto de entrada de 65.000 tokens y 32.000 tokens de salida, con una estructura de precios diferenciada entre tokens de texto de entrada y generación de imágenes.
Nuevos parámetros de la API iyo taxanaha Gemini 3

Una de las grandes novedades de Gemini 3 es la introducción de parámetros pensados específicamente para controlar el razonamiento interno del modelo, el coste y la fidelidad multimodal: fikirka_level, media_resolution y las thoughtSaxiixyada. Estos cambios buscan que puedas equilibrar lancia, precio y calidad visual o de razonamiento sin recurrir a trucos de Quick engineering excesivamente complejos.
Xakamee del razonamiento con fikirka_level
Los modelos de Gemini 3 utilizan de forma nativa un mecanismo de razonamiento dinámico, y el nuevo parámetro thought_level te permite etablecer el límite máximo de profundidad del “pensamiento interno” antes de que el modelo genere una respuesta. No se trata de un número exacto de tokens, sino de niveles relativos que el modelo translatea como guías de hasta dónde debe pensar.
Si la mid ah ma specifica thinking_level, Gemini 3 Pro iyo Flash usan por defecto el nivel high, que prioriza la calidad del razonamiento sobre la latencia. Cuando tu caso de uso exige respuestas más rápidas y no necesita reflexión profunda (por ejemplo, extracción estructurada, pequeñas transformaciones o resúmenes muy directos), puedes limitar el nivel a low para reducir coste y tiempo de res.
Gemini 3 Pro iyo Flash comparten dos niveles básicos de pensamiento: hoose y sare. El modo low minimiza el coste y el tiempo de inicio de la respuesta, ideal para instrucciones sencillas y aplicaciones de alto throughput; high maximiza la profundidad del razonamiento, lo que puede retrasar la aparición del primer token, pero soo saaro respuestas más elaboradas en tareas como analisis estratégico, debugging complejo o problemas matemáticos avanzados.
Gemini 3 Flash amplía aún más el control ofreciendo niveles adicionales minimal y medium, que no están disponibles en Gemini 3 Pro. El modo minimal se aproxima a un comportamiento “sin pensar” para la mayoría de usos, aunque el modelo puede seguir razonando ligeramente en tareas de programación difíciles, mientras que medium ofrece un equilibrio intermedio entre coste, laentdidami.
Es importante tener en cuenta que no puedes emplear thinking_level y el parámetro heredado thinking_budget en la misma llamada a la API, ya que se producirá un error 400. think_budget se mantiene únicamente por compatibilidad con integraciones antiguas, pero la recomendación es migrar progresivamente a thought_level para lograr un control más claro y preecible.
Xakamaynta fidelidad visual con media_resolution
El parámetro media_resolution introduction un control granular sobre cuántos tokens de contexto se asignan a cada imagen, PDF o fotograma de vídeo, lo que te permite ajustar la calidad de la visión multimodal frente al coste y lalatencia. Las resoluciones más altas allowen leer texto pequeño y detectar detalles finos, pero aumentan el consumo de tokens.
Puedes configurar media_resolution a nivel caalami ah (a través de generation_config) o por cada parte de contenido, con valores como media_resolution_low, media_resolution_medium, media_resolution_high y, para algunos casos, media_resolution_ultra_high. Si aan loo ogaan karin, el modelo aplica valores predeterminados diferentes según el tipo de medio, buscando un equilibrio razonable.
Para imágenes, la configuración recomendada suele ser media_resolution_high, que asigna hasta 1120 tokens por imagen y ofrece una calidad suficiente para la mayoría de tareas de análisis visual. Los niveles más bajos (hoose o dhexdhexaad ah) reparten menos tokens y pueden ser útiles para conjuntos de imágenes grandes donde la prioridad es el volumen y no el detalle fino.
Con PDFs, media_resolution_medium (560 tokens) suele ser el punto óptimo: en la práctica, subir a high rara vez mejora los resultados de OCR en documentos estándar, por lo que acostumbra a ser un mal intercambio en términos de coste. Para documentos especialmente densos o con maquetados complejos, puedes experimentar con high, pero no suele ser necesario.
En vídeo, la lógica cambia: tanto media_resolution_low como media_resolution_medium se comprimen de forma agresiva y asignan unos 70 tokens por fotograma, suficientes para la mayoría de tareas de reconocimiento de acciones o descripción general. Solo cuando waxay u baahan tahay leer mucho texto en pantalla (subtítulos densos, paneles, dashboards) tiene sentido pasar a media_resolution_high, que puede llegar a unos 280 tokens por fotograma para mejorar la lectura.
Heerkulka wuxuu soo jeedinayaa in Gemini 3
Una diferencia relevante respecto a modelos anteriores es que en Gemini 3 se recomienda mantener la temperatura en su valor por defecto de 1.0, incluso en tareas que antes se trabajaban con temperaturas bajas para ganar determinismo. El modelo ha sido optimizado para razonar correctamente con esta configuración, y tocarla puede tener efectos contraintuitivos.
Reducir la temperatura en Gemini 3 (por ejemplo, por debajo de 1.0) puede provocar comportamientos no deseados como bucles, respuestas extrañamente rígidas o degradación del rendimiento en tareas de razonamiento complicado y problemas matemáticos. Si tu código heredado ajusta de forma agresiva la temperatura, conviene revisar y, en muchos casos, eliminar ese ajuste al migrar a Gemini 3.
Firmas de pensamiento (thoughtSignatures) iyo validación etricta
Las firmas de pensamiento son representativeaciones cifradas del proceso de razonamiento interno de Gemini 3 que el modelo emite en determinadas respuestas y que debes reenviar en llamadas posteriores para preservar la cadena de razonamiento. Son un componente clave para agentes de varios pasos, edición de imágenes conversacional y flujos complejos de llamadas a funciones.
En llamadas a funciones, la API aplica validación etricta sobre el “turno actual”: si falta una thoughtSignature requerida, la petición fallará con un error 400. Esto afecta tanto a llamadas simples a una sola herramienta como a secuencias de varios pasos (p. ej., consultar un vuelo, recibir resultados, reservar un taxi) ya escenarios de llamadas en paralelo, donde la primera functionCall suele incluir la firma
En generación de texto o chat estándar, la validación no estricta, e decir, la API no devolverá un error si omites las firmas, pero la calidad del razonamiento y de las respuestas puede disminuir de manera la fahmi karo, especialmente en conversacionual conversaciones las firmas. Por ello, aunque no sea obligatorio, se recomienda devolver cualquier thoughtSignature que recibas para mantener el rendimiento del modelo.
En generación y edición de imágenes con gemini-3-pro-image-preview, la validación vuelve a ser estricta: las firmas están garantizadas en la primera parte tras el razonamiento (texto o inlineData) y en todas las partes inline solicitar ediciones o nuevos pasos del flujo visual. De lo contrario, la API devolverá errores 400 y el modelo perderá el hilo sobre la composición original.
Si utilizas los SDK oficiles (Python, Node, Java) iyo el historial de chat estándar, la buena noticia es que la gestión de thoughtSignatures se realiza de forma automática, por lo que no tendrás que manipularlas manualmente. El trabajo manual solo es necesario cuando construyes wrappers personalizados de bajo nivel o diseñas interacciones fuera de los flujos estándar de los SDK.
En situaciones donde importas un historial de conversación desde otro modelo (por ejemplo, Gemini 2.5) o creas bloques de functionCall a mano sin firmas válidas, puedes desactivar la validación estricta para ese contexto usando un valor ficticio: "conought" "macnaha_ingineering_waa_dariiqa_loo_maro". Esta cadena se reconoce como un bypass controlado para migraciones y contextos artificiales.
Modelos iyo herramientas clave en la transición a Gemini 3
Gemini 3 no llega en el vacío: se apoya en una larga serie de lanzamientos y retiradas de modelos Gemini 1.5, 2.0 y 2.5, así como en un ecosistema de herramientas para grounding, búsqueda en archivos, ejecución de código URL. Entender este contexto te ayuda a decidir qué mantener, qué migrar y qué evitar.
Si la mid ah Gemini 2.5, se lanzan modelos como gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash-lite, versiones de audio nativo para la API de Live, variantes específicas para TTS (Flash y Pro) iyo modelos de imagen y vídeo. modalidades. Paralelamente waxay soo bandhigtay Gemini Robotics-ER 1.5, modelos de embeddings como gemini-embedding-001 iyo se deprecan generaciones anteriores como embedding-001 o text-embedding-004 con fechas límite claras.
En cuanto a herramientas, Gemini 3 soporta Búsqueda de Google para grounding, File Search, ejecución de código y contexto de URL, además de la llamada a función estándar para tus propias herramientas personalizadas. Embargo, funcionalidades como Goojinta Khariidadaha Google o Kombiyuutarka Isticmaal maya están todavía habilitadas para Gemini 3, por lo que seguirán ligadas a modelos anteriores o flujos alternativos.
El pricing de Grounding iyo Google Search también cambia para favorecer flujos agentic dinámicos: se abandona un modelo de tarifa plana de US$35 iyo 1.000 prompts y se pasa a un esquema de tarifa por uso más fino de US$14 por cada 1.000 búsque. Esto encaja mejor con agentes que mezclan llamadas de búsqueda con otros tipos de acciones.
A nivel de retirada de modelos, se han ido desactivando paulatinamente variantes Gemini 1.5 y 2.x, incluyendo gemini-1.5-pro, gemini-1.5-flash, gemini-1.5-flash-8b, horu-u-eegga gemini-2.5-profess Live varios image gemini-2.5-flash-image-preview, con fechas concretas de cierre a finales de 2025 iyo inicios de 2026. Esto waxay ku qasban tahay guuritaanka planificar hacia Gemini 2.5 etables o directamente a la serie Gemini 3.
Migración desde Gemini 2.5 iyo Gemini 3
Al migrar desde Gemini 2.5 a Gemini 3, es importante asumir que estás pasando de modelos poderosos a una familia centrada explícitamente en razonamiento, lo que cambia ciertas prácticas habituales de engineering dhoqso. Si aad u hesho macluumaad dheeraad ah, tusaale ahaan, waxay soo jeedinaysaa extremadamente detallados, iyo kuwa kale.
Si antes necesitabas usar ayaa ku dhiirigeliyay muy elaborados para que Gemini 2.5 razonara paso a paso, prueba Gemini 3 con thought_level: “high” y prompts más concisos y directos. El modelo ya está diseñado para razonar en profundidad cuando se le indica, por lo que no necesita tanta “coreografía” textual.
Revisa también cualquier configuración explícita de temperatura en tu código existente: si fijabas valores muy bajos para obtener respuestas deterministas, es probable que prefieras eliminar ese ajuste y confiar en el valor por defecto de 1.0. rendimiento en tareas complejas. Si de todos modos necesitas controlar parcialmente la variabilidad, hazlo con pequeñas variaciones iyo pruebas exhaustivas.
Si aad u hesho dukumentiyo PDFs, toban en cuenta que la resolución de OCR por defecto ha cambiado, lo que puede alterar el consumo de tokens. La migración a los valores por defecto de Gemini 3 puede incrementar el coste para PDFs (por una mayor resolución) y, a la vez, reducirlo para vídeos gracias a la compresión más agresiva en media_resolution.
Si tus flujos de trabajo dependen de segmentación de imágenes con máscaras a nivel de píxel, debes saber que Gemini 3 Pro iyo Gemini 3 Flash no ofrecen esta funcionalidad. Sidoo kale, la recomendación oficial es seguir usando Gemini 2.5 Flash con el modo de pensamiento desactivado o Gemini Robotics-ER 1.5, que están mejor alineados con esas cargas de trabajo.
Por último, ten presente que las herramientas de grounding con Google Maps y Computer Isticmaal aún no son compatibles con los modelos de Gemini 3, y tampoco está soportada la combinación de herramientas integradas (como Search) con llamadas a funciones personalizadas en una misma in. Esto condiciona cómo diseñas tus agentes híbridos y puede requerir orquestación de varios modelos.
Compatibilidad iyo APIs tipo OpenAI iyo natiijada dhismeedka
Para quienes usan una capa de compatibilidad tipo OpenAI, la transición a Gemini 3 resulta más suave porque parámetros familiares se mapean automáticamente a sus equivalentes en Gemini. El caso más muuqata es reasoning_effort, que se traduce a thought_level en la API de Gemini.
Conviene saber que el nivel medium de reasoning_effort se translatea como una prioridad alta de thinking_level en Gemini, por lo que los cambios de comportamiento pueden ser más marcados si dabas por hecho que medium era un punto intermedio “neutro”. Ajustar explícitamente thinking_level puede darte un control más fino que delegar todo en la capa de compatibilidad.
Los modelos de Gemini 3 también allowen combinar herramientas integradas como grounding iyo Google Search, contexto de URL y ejecución de código con salidas estructuradas (por ejemplo, JSON) definidas en el schema de respuesta. Esto es especialmente útil para agentes que tienen que rascar información en tiempo real y volcarla en estructuras limpias para pipelines posteriores.
En paralelo, Gemini 3 Pro Image aprovecha estas capacidades de grounding para generar imágenes basadas en datos actuales del mundo real (clima, mercados financieros, información noticiosa) antes de producir la imagen de alta fidelidad. De esta forma se la dhimay las alucinaciones visuales en contextos donde la precisión factual es crítica.
Buenas practicas para usar Gemini 3 Pro iyo Flash
La forma de conseguir buen rendimiento con Gemini 3 cambia ligeramente respecto a generaciones anteriores: el modelo prefiere instrucciones claras, razonamiento controlado vía parámetros y un manejo cuidadoso del contexto largo. Forzarle con waxay kicisaa excesivamente rebuscados puede hacer que "sobreanalice" qaybo aan khusayn.
A nivel de temperatura, la recomendación firme es dejarla en 1.0 salvo que tengas un motivo muy específico y controlado para modificarla. Gemini 3 ya equilibra creatividad y precisión a este valor, y los ajustes arbitrarios pueden producir efectos raros que antes se arreglaban ajustando la temperatura pero que ahora se abordan mejor con fikirka_level.
En cuanto a estilo de salida, Gemini 3 tiende a ser menos verboso por defecto y prioriza respuestas directas y eficientes. Si tu caso de uso requiere un tono más conversacional o “charla de café”, debes pedirlo de forma explícita en las instrucciones, indicando el rol, el tono y el nivel de detalle deseado.
Para tareas multimodales, trata texto, imágenes, audio iyo vídeo como entradas de primera clase y haz referencias claras a cada modalidad en tus instrucciones. Esto ayuda a que el modelo fusione la información de todos los medios en lugar de procesarlos como piezas aisladas, lo que se traduce en respuestas más coherentes cuando combinas, por ejemplo, código fuente, diagramas y desscrine.
Cuando trabajes con contextos muy largos (libros completos, bases de código extensas, vídeos de larga duración), coloca tus preguntas o instrucciones específicas al final del degdeg, después del bloque de datos. Es útil anclar el razonamiento con frases como “Basándote en la información anterior…” para que el modelo conecte explícitamente la pregunta con el contexto previo.
Gemini 3 marca un salto importante en la API de Gemini al combinar razonamiento de vanguardia, control fino de cómo piensa y cómo procesa medios, nuevas herramientas para grounding y contexto, y un marco claro de migración desde Gemini 2.5, de modoquer controuques publiques puedes flujos complejos con más estabilidad, menos Quick engineering forzado y un control mucho mayor sobre coste, laentcia y calidad de las respuestas.