Aktualizacje API Gemini 3, modele i przewodnik migracji

Ostatnia aktualizacja: 12/24/2025
  • Gemini 3 wprowadza pogłębione rozumowanie, długi kontekst i nowe modele (Pro, Flash i Pro Image) z narzędziami takimi jak wyszukiwanie ugruntowane, wyszukiwanie plików i kontekst adresu URL.
  • Nowe elementy sterujące API, takie jak thinking_level, media_resolution i thoughtSignatures, umożliwiają dostrojenie głębokości rozumowania, dokładności multimodalnej i przepływów pracy agentów.
  • Migracja z Gemini 2.5 wymaga ponownego skonfigurowania ustawień temperatury, domyślnych ustawień multimediów, potrzeb segmentacji obrazu i kompatybilności narzędzi (np. Map i Użytkowania komputera).
  • Najlepsze wyniki osiąga się dzięki jasnym instrukcjom, zachowaniu sygnatur myślowych, traktowaniu wszystkich modalności jako danych wejściowych najwyższej jakości oraz umieszczaniu pytań na końcu długich kontekstów.

Aktualizacje API Gemini 3

Gemini 3 llega como la generación más potente de modelos Gemini y viene acompañada de un aluvión de cambios en la API diseñados para desarrolladores que quieren más control, más rendimiento y flujos de trabajo realmente agentic, integrados en un Centrum IDE w agentach bazowych w VS Code. Desde nuevas formas de gestionar el razonamiento y la multimodalidad, hasta herramientas avanzadas para trabajar con archivos, búsqueda y uziemienie, la plataforma se ha ido puliendo versión tras versión para soportar casos de uso cada vez más complejos.

Ten artículo recopila y reordena de forma práctica todas las novedades clave de la API de Gemini relacionadas con Gemini 3 y su ewolucja desde Gemini 1.5 i 2.x, w tym modele, parametry, herramientas, precios, retirada de wersje antiguas i mejores prácticas de uso. La idea es que tengas en un único lugar una visión amplia: qué hay disponible hoy, qué ha quedado obsoleto, cómo sacar partido a las nuevas capacidades y qué debes tener presente si vienes de generaciones anteriores.

Ewolucja API Gemini hasta Gemini 3

Historia API Gemini Arranca públicamente en diciembre de 2023 z la llegada de gemini-pro, gemini-pro-vision i podstawowy model osadzania embedding-001, junto con los canales v1 i v1beta de la API. Desde entonces, la plataforma ha ido creciendo en modalidades, konteksto, herramientas y modelos especializados, preparando el terreno para las capacidades de razonamiento y agentes que hoy vemos en Gemini 3.

W wersji 2024, Gemini 1.5 Pro i 1.5 Flash są konsolidowane jako modele proponowane w ogólnym kontekście z większymi wersjami (w tym wersje hasta 2M tokenów) i warianty kompaktowe co gemini-1.5-flash-8b-001, a następnie ponownie używane stopniowo w modelach Gemini 1.0 Pro Wizja. Ten etap wprowadza además la API de File, las instrucciones del sistema, el modo de llamada a función, el formato JSON de salida y nuevas opciones de seguridad y control.

Finałami 2024 i 2025 będą modele eksperymentalne Gemini 2.0 Flash i Gemini 2.0 Flash Thinking, które będą przesyłać strumieniowo dwukierunkowo przez API na żywo, multimodalnie más rica (tekst, obraz i voz) i „modo pensamiento” widoczne. Paralelo se Lanza gemini-exp-1114 i gemini-exp-1121 jako eksperymentalne modele dla wielu potencjalnych użytkowników, a także aktualizowanie losowego alias gemini-1.5-pro-latest i gemini-1.5-flash-latest dla innych wersji dla wielu odbiorców.

Durante 2025, seria Gemini 2.0 i 2.5 amplía katalogo z optymalizacją modeli dla kosztów (Flash-Lite), obrazami, wideo, robótkami i natywnym dźwiękiem, jak również z możliwościami uziemienia w wyszukiwarce Google, wyświetlanie kontekstu adresów URL i nowych interfejsów API jako wyszukiwanie plików, interakcje i na żywo. En este kontekstu se van introduciendo también políticas de retirada de modelos, ajustes de precios y cambios en la configuración por defekto, preparando el salto a Gemini 3.

Modele Gemini 3

Qué es Gemini 3 y qué modelos incluye

Gemini 3 to nowa rodzina modeli Google centralada en razonamiento de última generación, agenci autónomos y comprensión multimodal profunda, diseñada para dar vida a flujos complejos de programación, dochodzenie i generowanie treści. Su objetivo es ir más allá de „responder podpowiedzi” y konwertuj en el motor de sistemas que piensan, planifican, llaman herramientas y se adaptan al konteksto de forma continua.

Seria Gemini 3 obejmuje główne modele w wersji podglądu: gemini-3-pro-preview, gemini-3-flash-preview i gemini-3-pro-image-preview. Cada jest jednym ze specjalnych typów tarei, które można porównać z bazą razonamiento avanzado, kontekstem i wsparciem dla nowych możliwości API na poziomie Thinking_level, Media_Resolution i firmami Pensamiento.

Gemini 3 Pro jest modelem más capaz de la familia, pensado para tareas complejas que requieren amplio conocimiento del mundo, razonamiento profundo en múltiples modalidades y una fuerte orientación a agentes y código. Soporta una ventana de konteksto de entrada de hasta 1 milion tokenów i hasta 64.000 tokens de salida, con una conocimiento enero de 2025 y un precio escalonado según el tokens tokens.

Gemini 3 Flash to wariant zoptymalizowany dla szybkości i kosztów, ofreciendo inteligencia de nivel Pro do adaptacji do aplikacji na inne żądanie, baja latencia i wielka objętość, como chat de zwyczaj final, ekstrakcja estructurada lub tareas powtarzalne. Porównaj mismo kontekstu maksimo que Pro (1M / 64K), mantiene el mismo odcięcia de conocimiento y se ofrece con precios znaczące más bajos por millón de tokens de entrada y salida.

Gemini 3 Pro Image (w tym między innymi jako Nano Banana Pro) jest modelem obrazu burmistrza rodziny, z możliwościami generowania i edycji, w tym renderowania tekstu, rozdzielczości hasta 4K i flujos de trabajo konwersacji que se apoyan fuertemente en las firmas de pensamiento. Dysponuj kontekstem wprowadzenia 65 000 tokenów i 32 000 tokenów salida, z wykorzystaniem struktury cenowej różnicowania entre tokenów tekstu wpisu i generowania obrazów.

Nowe parametry API w serii Gemini 3

Parametry API Gemini 3

Jedna z wielkich nowości Gemini 3 jest wprowadzeniem parametrów pensados ​​specjalnie dla kontroli razonamento interno del modelo, koszt i multimodalność: poziom myślenia, rozdzielczość_media i las thinkSignatures. Estos cambios buscan que puedas równorzędne latencia, precio y calidad wizualne lub razonamiento sin recurrir a trucos de szybkiej inżynierii excesivamente complejos.

Kontroluj razonamento na poziomie myślenia

Los modelos de Gemini 3 wykorzystuje formę nativa un mecanismo de razonamiento dinámico, y el nuevo parámetro think_level te pozwalają na ustalenie limitu maksymalizacji głębokości „pensamiento interno” antes de que el modelo genere una respuesta. No se trata de un número valido de tokens, sino de niveles relativos que el modelo interpreta como guías de hasta dónde debe pensar.

Nie ma specjalnego Thinking_level, Gemini 3 Pro i Flash przy użyciu wadliwego poziomu Nivel High, que prioriza la calidad del razonamiento sobre latencia. Cuando tu caso de uso exige respuestas más rápidas y no necesita reflexión profunda (por ejemplo, extracción estructurada, pequeñas transformaciones o resúmenes muy directos), puedes limitar el nivel a low para reducir coste y tiempo de respuesta.

Gemini 3 Pro i Flash porównują podstawowe podstawowe funkcje: niskie i wysokie. El modo low minimiza el coste y el tiempo de inicio de la respuesta, ideal para instrucciones sencillas y aplicaciones de alto przepustowość; high maximiza la profundidad del razonamiento, lo que puede retrasar la aparición del primer token, aby wygenerować odpowiedzi más elaboradas en tareas como análisis estratégico, debugowanie kompletne lub problemy matemáticos avanzados.

Gemini 3 Flash Amplía jest más el control ofreciendo niveles adicionales minimal i medium, que no istán disposibles en Gemini 3 Pro. El modo minimal se aproxima a un comportamiento „sin pensar” para la mayoría de usos, aunque el modelo puede seguir razonando ligeramente en tareas de programación difíciles, mientras que medium ofrece un równowaga intermedio entre coste, latencia y profundidad de razonamiento.

Tener en cuenta que no puedes emplearthink_level y el parámetro hereedado think_budget en la misma lalamada a la API, ya que se wyproducirá un error 400. Think_budget se mantiene únicamente por compatibilidad con integraciones antiguas, pero la recomendación es migrar progresivamente a think_level para lograr un control más claro y predecible.

Kontrola wiernego obrazu wizualnego z rozdzielczością medialną

El parámetro media_registro wprowadza kontrolę granularną, dzięki czemu tokeny kontekstu można przypisać do obrazu cada, PDF lub fotogramu wideo, które pozwalają na dostosowanie la calidad de la visión multimodal frente al coste y latencia. Las resoluciones más altas pozwolenien leer texto pequeño y Detectar detalles finos, pero aumentan el consumo de tokens.

Można skonfigurować rozdzielczość_medialną na poziomie globalnym (w trybie Generation_config) lub w części zawartości, z wartościami jak media_activate_low, media_activate_medium, media_registration_high i media_activated_ultra_high. Si no se establece explícitamente, el modelo aplica valores predeterminados diferentes según el tipo de medio, buscando un równowaga razonable.

Dla obrazów, konfiguracja polecana przez serwer media_registration_high, przydzielona do 1120 tokenów przez obraz, który jest wystarczający dla burmistrza Tareas de análisis Visual. Los niveles más bajos (niski lub średni) reparten menos tokens y pueden ser útiles para conjuntos de imagenes grandes donde la priorytetidad es el Volumen y no el detalle fino.

Z plikami PDF, nośnikiem rozdzielczości_medium (560 tokenów) suele ser punto óptimo: en la práctica, subir a high rara vez mejora los Results de OCR en documentos estándar, por lo que acostumbra a ser un mal intercambio en términos de coste. Para documentos especialmente densos o con maquetados complejos, puedes expert con high, pero no suele ser necesario.

En vídeo, la lógica cambia: tanto media_activate_low como media_registration_medium se comprimen de forma agresiva y asignan unos 70 tokens por fotograma, wystarczające dla la Mayoría de tareas de recocimiento de acciones lub opis ogólny. Samodzielnie musisz przeczytać wiele tekstów w pantalla (napisy gęste, panele, dashboardy) wysłać wiadomość do media_registration_high, que puede llegar do unos 280 tokenów por fotograma dla mejorar la lectura.

Zalecana temperatura w Gemini 3

Różnica istotna w odniesieniu do modelu przedniego es que w Gemini 3 jest rekomendowana przez mantener la temperatura en su valor por defekto de 1.0, w tym en tareas que antes se trabajaban con temperaturas bajas para ganar determinismo. El modelo ha sido optimizado para razonar fixamente con esta configuración, y tocarla puede tener efectos contraintuitivos.

Reducir la temperatura en Gemini 3 (por ejemplo, por debajo de 1.0) puede provocar comportamientos no deseados como bucles, respuestas extrañamente rígidas o degradación del rendimiento en tareas de razonamiento complicado y problemas matemáticos. Si tu código heredado ajusta de forma agresiva la temperatura, conviene revisar y, en muchos casos, eliminar ese ajuste al migrar a Gemini 3.

Firmas de pensamiento (thoughtSignatures) y validación estricta

Las firmas de pensamiento son reenviar en llamadas posteriores para preservar la cadena de razonamiento. Son un Componente clave para agentes de varios pasos, edición de imagenes conversacional y flujos complejos de llamadas a funciones.

En llamadas a funciones, la API aplica validación estricta sobre el „turno current”: si falta una thinkSignature requerida, la petición fallará con un error 400. Esto afecta tanto a llamadas simples a una sola herramienta como a secuencias de varios pasos (s. ej., Consultar un vuelo, recibir Resultsados, Reservar un Taxi) ya escenarios de llamadas en paralelo, Donde la Primera FunctionZadzwoń suele incluir la firma.

En generación de texto o chat estándar, la validación no es estricta, es decir, la API no devolverá un error si pomija las firmas, pero la calidad del razonamiento y de las respuestas puede disminuir de manera perceptible, specialmente en conversaciones largas con muchas zależna kontekstuales. Por ello, aunque no sea obligatorio, se recomienda devolver cualquier thinkSignature que recibas para mantener el rendimiento del modelo.

Generowane i edytowane obrazy z gemini-3-pro-image-preview, la validación vuelve a ser estricta: las firmas están garantizadas en la primera parte tras el razonamiento (tekst lub inlineData) i tedas las partes inlineData posteriores, i deben incluirse integramente al solicitar edycje o nuevos pasos del flujo wizualne. De lo contrario, la API devolverá errores 400 y el modelo perderá el hilo sobre la composición Original.

Korzysta z oficjalnych narzędzi SDK (Python, Node, Java) i historii czatu, a nowe powiadomienia są que la gestión de thinkSignatures realizowane w formie automatycznej, która nie ma tendencji do manipulacji ręcznych. El trabajo manual solo es necesario cuando konstruuje opakowania personalizados de bajo nivel lub diseñas interacciones fuera de los flujos estándar de los SDK.

En situaciones donde importas un historyl de conversación desde otro modelo (por ejemplo, Gemini 2.5) o crease bloques defunctionCall a mano sin firmas validas, puedes desactivar la validación estricta para ese konteksto usando un valor ficticio concreto: „thoughtSignature”: „context_engineering_is_the_way_to_go”. Esta cadena se reconoce como un bypass controlado para migraciones y kontekstos sztuczne.

Modelos y herramientas clave en la transición a Gemini 3

Gemini 3 nie działa w trybie: se apoya en duża seria Lanzamientos i retiradas de modelos Gemini 1.5, 2.0 i 2.5, así como en un ecosistema de herramientas paragrounding, búsqueda en archivos, ejecución de codeigo y konteksto de URL. Entender este konteksto te ayuda a decidir qué mantener, qué migrar y qué evitar.

Na etapie Gemini 2.5, w różnych modelach jak gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash-lite, wersjach natywnych audio dla API de Live, specjalnych wariantach dla TTS (Flash i Pro) i modelach obrazów i wideo w Veo 3.xe Imagen 4 w różnych modalidady. Równocześnie wprowadzono Gemini Robotics-ER 1.5, modele osadzania como gemini-embedding-001 i mogą być generowane poprzednio como embedding-001 lub osadzanie tekstu-004 z innymi wyjaśnieniami.

En cuanto a herramientas, Gemini 3 soporta Búsqueda de Google forgrounding, File Search, wyrzucanie kodu i kontekstu adresu URL, además de la lalamada a función estándar for tus propias herramientas personalizadas. Zakaz korzystania z funkcji, uziemienie z Google Maps lub korzystanie z komputera nie jest już dostępne dla Gemini 3, może być używane w modelach przednich lub alternatywnych.

Ceny uziemienia z wyszukiwarką Google służą do preferowania flujos agentic dinámicos: porzuć model tarifa plana de US$35 za 1.000 monitów i wyjdź za tarifę za pomocą más fino de US$14 za cada 1.000 Consultas de búsqueda. Esto encaja mejor con agentes que mezclan llamadas de búsqueda con otros tipos de acciones.

Poziom retirada modeli, które można aktywować w różnych wariantach Gemini 1.5 i 2.x, w tym gemini-1.5-pro, gemini-1.5-flash, gemini-1.5-flash-8b, różne podglądy gemini-2.5-pro i flash, jak również różne modele na żywo i obrazy como gemini-2.5-flash-image-preview, z konkretnymi danymi do finałów w 2025 r. i początków 2026 r. To obliga a planificar migraciones hacia Gemini 2.5 osiedli lub directamente a la serie Gemini 3.

Migracja desde Gemini 2.5 do Gemini 3

Al migrar desde Gemini 2.5 do Gemini 3, jest ważny, ponieważ jest to pasando de modelos poderosos, a una familia centrala explícitamente en razonamiento, lo que cambia ciertas prácticas habituales szybkiej inżynierii. Muchas técnicas utilizadas para forzar cadenas de pensamiento, como monit extremadamente detallados, pueden ser contraproducentes o redundantes.

Si antes necesitabas usar monituje muy elaborados para que Gemini 2.5 razonara paso a paso, prueba Gemini 3 con think_level: „high” y monit más concisos y directos. El modelo ya está diseñado para razonar en profundidad cuando se le indica, por lo que no necesita tanta „coreografía” tekstowy.

Revisa tam cualquier configuración explícita de temperatura en tu codigo egzystencjente: si fijabas valores muy bajos para get respuestas deterministas, es probable que prefieras eliminar ese ajuste y confiar en el valor por defekto de 1.0 para evitar ciclos extraños o pérdida de rendimiento en tareas complejas. Si de todos modos necesitas controlar parcialmente la variabilidad, hazlo con pequeñas variaciones y pruebas wyczerpujący.

W odniesieniu do dokumentów i plików PDF, dziesięć en cuenta que la resolución de OCR por defekto ha cambiado, lo que puede alterar el consumo de tokens. La migración a los valores por devez de Gemini 3 przyrostowe koszty dla plików PDF (przez burmistrza) y, a la vez, reducirlo para vídeos gracias a la kompresja más agresiva en media_activate.

Si tus flujos de trabajo zależne od segmentacji obrazów z tuszem do poziomu pikseli, debes saber que Gemini 3 Pro i Gemini 3 Flash nie są często używane. To oficjalne rekomendacje, które są używane przez Gemini 2.5 Flash z trybem aktywacji oprogramowania Gemini Robotics-ER 1.5, które są głównymi alineados z tych pojazdów.

Możesz teraz skorzystać z dziesięciu wskazówek dotyczących uziemienia z Google Maps i komputera. Użyj żadnego kompatybilnego oprogramowania z modelami Gemini 3, a następnie użyj kombinacji herramientas integradas (como Search) z funkcjami personalizacji i invocación misma. Esto condiciona cómo diseñas tus agentes híbridos y puede requerir orquestación de varios modelos.

Kompatybilność z API OpenAI i wynikami konstrukcji

Aby skorzystać z funkcji kompatybilności z OpenAI, przenieś się do Gemini 3 w wyniku más suave porque parámetros znajomych se mapean automáticamente a sus odpowiedników Gemini. El caso más widoczny jest wysiłek rozumowania, który można przetłumaczyć na poziomie myślenia w API Gemini.

Conviene saber que el nivel medium de Reasoning_effort se interpreta como una prioridad alta dethink_level en Gemini, por lo que los cambios de comportamiento pueden ser más marcados si dabas por hecho que medium era unto intermedio „neutro”. Ajustar explícitamente think_level puede darte un control más fino que delegar todo en la capa de compatybilidad.

Los Modelos de Gemini 3 pozwala na łączenie łączonych herramientas como uziemienia z wyszukiwarką Google, kontekst adresu URL i wyrzucanie kodu za pomocą struktur estrukcyjnych (przez wyrzucanie, JSON) zdefiniowanych w schemacie odpowiedzi. Esto es especialmente útil para agentes que tienen que rascar información en tiempo real y volcarla en estructuras limpias para rurociągów posteriores.

Paralelo, Gemini 3 Pro Image aprovecha estas capacidades degrounding para genelar images basadas en datos currentes del mundo real (klimat, mercados financieros, información noticiosa) antes de producer la imagen de alta fidelidad. De esta forma se zredukowane las alucinaciones Visuales en kontekstos donde la precisión factual es crítica.

Ćwiczenia praktyczne dla Gemini 3 Pro i Flash

La forma de conseguir buen rendimiento con Gemini 3 cambia ligeramente respekto a generaciones anteriores: el modelo prefiere instrucciones claras, razonamiento controlado vía parametros y un manejo cuidadoso del konteksto largo. Forzarle con wywołuje excesivamente rebuscados puede hacer que „sobreanalice” partes nieistotne.

A nivel de temperatura, la recomendación firme es dejarla en 1.0 salvo que tengas un motivo muy específico y controlado para modificarla. Gemini 3 ya równowaga kreatywności i precyzja a este valor, y los ajustes arbitrarios pueden producir efectos raros que antes se arreglaban ajustando the temperatura pero que ahora se abordan mejor conthink_level.

En cuanto a estilo de salida, Gemini 3 tiende a ser menos verboso por defekto y prioriza respuestas directas y eficientes. Si tu caso de uso requiere un tono más conversacional o „charla de cafe”, debes pedirlo de forma explícita en las instrucciones, indicando el rol, el tono y el nivel de detalle deseado.

Para tareas multimodales, trata tekst, obrazy, audio i wideo como entradas de primera clase y haz referencias claras a cada modalidad en tus instrucciones. Esto ayuda a que el modelo fusione la información de todos los medios en lugar de procesarlos como piezas aisladas, lo que se tłumacz en respuestas más spójnych cuandocombins, por ejemplo, código fuente, diagramas y descripciones textuales.

Cuando trabajes con kontekstos muy largos (libros completos, bases de código extensas, vídeos de larga duración), coloca tus preguntas o instrucciones específicas al final del Prompt, después del bloque de datos. Es útil anclar el razonamiento con frases como „Basándote en la información anterior…” para que el modelo conecte explícitamente la pregunta con el konteksto previo.

Gemini 3 marca un salto valide en la API de Gemini alcombinar razonamiento de vanguardia, control fino de como piensa y como procesa medios, nuevas herramientas para uziemienie y konteksto, marco claro de migración desde Gemini 2.5, de modo que puedas construir agentes, aplicaciones multimodales flujos complejos con más estabilidad, menos szybka inżynieria forzado y un control mucho burmistrz sobre coste, latencia y calidad de las respuestas.

diseño y constucción de ekwipos de agentes de m.in
Podobne artykuł:
Diseño y construcción de ekwipos de agentes de IA: de la estrategia a la puesta en producción
Powiązane posty: