Çfarë ka të re në Gemini 3.5 Flash

Gemini 3.5 Flash është përgjithësisht i disponueshëm (GA) , i qëndrueshëm dhe gati për përdorim në prodhim të shkallëzuar. Si modeli ynë më inteligjent i Flash, ai ofron performancë të qëndrueshme dhe të nivelit të lartë në ekzekutimin e agjentëve, kodimin dhe detyrat afatgjata në shkallë të gjerë.

Ky udhëzues përmban një përmbledhje të përmirësimeve, ndryshimeve të API-t dhe udhëzimeve për migrimin për Gemini 3.5 Flash.

Model i ri

Model ID e modelit Përshkrimi
Binjakët 3.5 Flash gemini-3.5-flash Modeli ynë më inteligjent për performancë të qëndrueshme në kufijtë e detyrave agjentike dhe të kodimit.

Gemini 3.5 Flash mbështet dritaren e kontekstit prej 1 milion tokenësh, 65 mijë tokenësh daljeje maksimale, të menduarit dhe të njëjtin grup mjetesh dhe veçorish të platformës si Gemini 3 Flash. Përdorimi i kompjuterit nuk mbështetet për momentin.

Për specifikimet e plota, shihni përmbledhjen e modeleve . Për çmimet, shihni faqen e çmimeve .

Nisje e shpejtë

Të gjitha shembujt në këtë udhëzues përdorin API-në e Ndërveprimeve. API-ja e GenerateContent mbështetet gjithashtu; zbatohen të njëjtat opsione dhe rekomandime konfigurimi.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Explain how parallel agentic execution works in three sentences."
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "Explain how parallel agentic execution works in three sentences.",
  });
  console.log(interaction.output_text);
}

main();

PUSHTIM

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Explain how parallel agentic execution works in three sentences."
  }'

Çfarë ka të re

  • Performancë e qëndrueshme në nivel të lartë: Modeli ynë më inteligjent Flash, i optimizuar për detyra agjentike dhe kodimi në shkallë të gjerë.
  • Ekzekutimi agjentik: Vendosja e nënagjentëve, zgjidhja e problemeve dhe sythe të shpejta agjentike në shkallë të gjerë.
  • Kodimi: Ciklet e kodimit përsëritës, eksplorimi i shpejtë dhe prototipimi për të testuar shtigje alternative dhe për të eksploruar në mënyrë dinamike zgjidhjet.
  • Horizont i gjatë: Rrjedha pune me shumë hapa dhe përdorim i mjeteve në shkallë të gjerë.
  • Ruajtja e mendimit: Modeli ruan automatikisht arsyetimin e ndërmjetëm në bisedat me shumë kthesa. Nuk nevojiten ndryshime në API.
  • Niveli i ri i parazgjedhur i përpjekjes: Përpjekja e parazgjedhur e të menduarit ndryshoi nga highmedium . Shihni Niveli i ri i parazgjedhur i përpjekjes për detaje.
  • Përmirësim i të menduarit low : low tani është përmirësuar ndjeshëm për detyrat e kodit dhe ato agjentike që kërkojnë më pak hapa, duke ofruar cilësi të fortë me vonesë dhe kosto më të ulët.
  • Publikimi i GA: Model i qëndrueshëm për përdorim në prodhim të shkallëzuar.

Zgjedhja e modelit të duhur të flash-it

Gemini 3.5 Flash është modeli ynë më inteligjent dhe më i aftë i Flash-it. Megjithatë, raste të ndryshme përdorimi mund të kenë kërkesa të ndryshme për kosto dhe vonesë.

  • Gemini 3.1 Flash-Lite : Për detyra me kosto të ulët dhe me vëllim të lartë që nuk kërkojnë thellësinë e arsyetimit të avancuar të 3.5 Flash, ne rekomandojmë përdorimin e Gemini 3.1 Flash-Lite . Është një model i qëndrueshëm dhe afatgjatë i optimizuar për efikasitet. Shihni udhëzuesin e zhvilluesit të Flash-Lite për më shumë detaje.
  • Pamja paraprake e Flash-it Gemini 3 : Ndërsa ne rekomandojmë migrimin në Flash 3.5 për stabilitet GA dhe arsyetim të përmirësuar, Gemini 3 Flash (Paraparje) mbetet i disponueshëm për zhvilluesit që duan të vazhdojnë testimin me modelin e parapamjes.

Ndryshime në sjellje

Niveli i ri i parazgjedhur i përpjekjes: medium

Përpjekja e parazgjedhur e të menduarit tani është medium , e ndryshuar nga high në Gemini 3 Flash Preview. medium jep rezultate shumë të mira në një gamë të gjerë detyrash, ndërkohë që është më e shpejtë dhe më ekonomike nga ana e kostos. Për problemet komplekse, high e inkurajon modelin të mendojë më thellë.

Niveli i përpjekjes Kur të përdoret
minimal I optimizuar për shpejtësinë e përgjigjes. Raste përdorimi të ngjashme me bisedën, përgjigje të shpejta faktike, thirrje mjetesh më të thjeshta.
low Detyra kodi dhe agjentësh që kërkojnë vonesë më të ulët dhe më pak hapa. Gjithashtu funksionon mirë për detyrat e analizës dhe shkrimit që kërkojnë pak mendim.
medium (parazgjedhur) Cilësia më e mirë për shumicën e detyrave. Rekomandohet për raste komplekse përdorimi të kodit dhe agjentëve.
high Maksimizon aftësinë e modelit për të menduar dhe përdorur mjete. Më e mira për arsyetim kompleks, matematikë të vështirë dhe detyrat më të vështira të kodit ose agjentit. Lejon mendime të zgjeruara dhe thirrje funksionesh.

Për të anashkaluar vlerën e parazgjedhur, vendosni thinking_level në konfigurimin tuaj:

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Prove that the square root of 2 is irrational.",
    generation_config={"thinking_level": "high"},
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const client = new GoogleGenAI({});

async function main() {
  const interaction = await client.interactions.create({
    model: "gemini-3.5-flash",
    input: "Prove that the square root of 2 is irrational.",
    generationConfig: { thinkingLevel: "high" },
  });
  console.log(interaction.output_text);
}

main();

PUSHTIM

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Prove that the square root of 2 is irrational.",
    "generation_config": {"thinking_level": "high"}
  }'

Tabela e mëposhtme tregon se cilat nivele të të menduarit mbështeten për secilin model:

Niveli i të menduarit Binjakët 3.5 Flash Gemini 3.1 Pro Gemini 3.1 Flash-Lite Binjakët 3 Blic Përshkrimi
minimal Mbështetur Nuk mbështetet Mbështetur (Parazgjedhur) Mbështetur Përputhet me cilësimin "pa menduar" për shumicën e pyetjeve. Vini re, minimal nuk garanton që të menduarit është i çaktivizuar, modeli mund të arsyetojë shumë minimalisht për detyra komplekse.
low Mbështetur Mbështetur Mbështetur Mbështetur Minimizon vonesën dhe koston.
medium Mbështetur (Parazgjedhur) Mbështetur Mbështetur Mbështetur Të menduarit e ekuilibruar për shumicën e detyrave.
high Mbështetur (Dinamike) Mbështetur (Parazgjedhur, Dinamik) Mbështetur (Dinamike) Mbështetur (Parazgjedhur, Dinamik) Maksimizon thellësinë e arsyetimit.

Ruajtja e mendimit

Modeli ruan automatikisht arsyetimin e ndërmjetëm në bisedat me shumë kthesa. Kur është i pranishëm në historikun e bisedës, konteksti i arsyetimit vazhdon përpara, gjë që përmirëson performancën në detyra komplekse me shumë hapa, si debugging përsëritës dhe rifaktorizim i kodit. Nuk nevojiten ndryshime në API:

  • API-ja e Ndërveprimeve : Mendimet ruhen automatikisht. Asnjë ndryshim në sjellje.
  • GenerateContent API : Duke filluar me Gemini 3.5 Flash, modeli përdor kontekstin e arsyetimit nga të gjitha kthesat e mëparshme kur nënshkrimet e mendimit janë të pranishme në historikun e bisedës. Për ta aktivizuar këtë, kaloni historikun e plotë dhe të pamodifikuar të bisedës (duke përfshirë nënshkrimet e mendimit ) në contents . SDK-të e trajtojnë këtë automatikisht.

Përditësimet e parametrave dhe praktikat më të mira në Gemini 3.x

Sa vijon vlen për të gjitha modelet Gemini 3.x , përfshirë Gemini 3.5 Flash.

  • temperature , top_p , top_k : ne rekomandojmë fuqimisht të mos ndryshoni vlerat fillestare. Aftësitë e arsyetimit të Gemini 3 janë të optimizuara për cilësimet fillestare.
  • Përdorni thinking_level në vend të thinking_budget .
  • Përputhja e përgjigjes që thirr funksionin : id , name dhe response count duhet të përputhen me thirrjet paraprake.
  • Përgjigjet e funksionit multimodal : përfshijnë përmbajtje multimodale brenda përgjigjes së funksionit, jo jashtë saj.
  • Udhëzime të brendshme në përgjigjet e funksionit : shtohen në tekstin e përgjigjes së funksionit, jo si pjesë të ndara.
  • Zvogëloni thirrjet e panevojshme të mjeteve : Përdorni nivele më të ulëta të të menduarit ose eksperimentoni me udhëzimet e sistemit për të zvogëluar thirrjet e mjeteve në rrjedhat e punës të agjentëve.

Shihni seksionet më poshtë për mënyrën e përditësimit të kodit tuaj.

Parametrat e marrjes së mostrave (nuk rekomandohen më)

temperature , top_p dhe top_k nuk rekomandohen më për të gjitha modelet Gemini 3.x. Aftësitë e arsyetimit të Gemini 3 janë optimizuar për cilësimet fillestare. Hiqni këto parametra nga të gjitha kërkesat.

# ⚠️ Remove these parameters (not recommended)
generation_config = {
    "temperature": 0.7,
    "top_p": 0.9,
    "top_k": 40,
}

Për të siguruar determinizëm, ne rekomandojmë përcaktimin e një udhëzimi sistemi me rregulla të qarta për rastin tuaj specifik të përdorimit.

thinking_budget (nuk rekomandohet më)

Parametri numerik i papërpunuar thinking_budget nuk rekomandohet më në të gjitha modelet Gemini 3.x. Në vend të kësaj, përdorni enum-in e vargut thinking_level .

# ⚠️ Before (not recommended)
generation_config = {
    "thinking": {"thinking_budget": 7500},
}

# ✅ After
generation_config = {
    "thinking": {"thinking_level": "medium"},
}

Vlerat e disponueshme: minimal , low , medium (parazgjedhur) dhe high .

Thirrja e funksionit: përputhje e rreptë e përgjigjes

API-ja e Interactions tashmë gabon në përgjigjet e funksioneve që nuk përputhen. API-ja e GenerateContent ende nuk gabon, por përgjigjet e papërputhshme bëjnë që modeli të kthejë përgjigje boshe me finish_reason: STOP në shumicën e rasteve. Ndiqni gjithmonë këto konventa:

Kërkesë Detajet
Përfshi id Çdo FunctionResponse duhet të përfshijë id nga FunctionCall përkatëse.
name i përputhjes name në përgjigje duhet të përputhet me name në thirrje
Numërimi i ndeshjeve Kthen saktësisht një FunctionResponse për çdo FunctionCall të marrë

Python

# ✅ Include matching call_id and name in the function_result
final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    tools=[my_tool],
    input=[{
        "type": "function_result",
        "name": fc_step.name,
        "call_id": fc_step.id,
        "result": [{"type": "text", "text": json.dumps(result)}],
    }],
)

JavaScript

// ✅ Include matching call_id and name in the function_result
const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  tools: [myTool],
  input: [{
    type: "function_result",
    name: fcStep.name,
    call_id: fcStep.id,
    result: [{ type: "text", text: JSON.stringify(result) }],
  }],
});

PUSHTIM

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "previous_interaction_id": "<INTERACTION_ID>",
    "tools": [...],
    "input": [{
      "type": "function_result",
      "name": "my_function",
      "call_id": "<CALL_ID>",
      "result": [{"type": "text", "text": "..."}]
    }]
  }'

Përgjigjet e funksionit multimodal

Shpesh shohim klientë që ofrojnë imazhe jashtë përgjigjes së funksionit. Kjo mund të çojë në sjellje të papritur të modelit (p.sh. rrjedhje mendimi) dhe të rezultojë në rezultate me cilësi më të ulët. Në vend të kësaj, ndiqni rekomandimin në dokumentet e API-t të Përgjigjeve të Funksionit Multimodal dhe përfshini përmbajtje multimodale në pjesët e përgjigjes së funksionit që i dërgoni modelit. Modeli mund ta përpunojë këtë përmbajtje multimodale në kthesën e tij të radhës për të prodhuar një përgjigje më të informuar.

Python

# ✅ Include multimodal content in the function response
final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    input=[
        {
            "type": "function_result",
            "name": tool_call.name,
            "call_id": tool_call.id,
            "result": [
                {"type": "text", "text": "instrument.jpg"},
                {
                    "type": "image",
                    "mime_type": "image/jpeg",
                    "data": base64_image_data,
                },
            ],
        }
    ],
)

JavaScript

// ✅ Include multimodal content in the function response
const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  input: [{
    type: "function_result",
    name: toolCall.name,
    call_id: toolCall.id,
    result: [
      { type: "text", text: "instrument.jpg" },
      {
        type: "image",
        mime_type: "image/jpeg",
        data: base64ImageData,
      },
    ],
  }],
});

Udhëzime të integruara në përgjigjet e funksioneve

Shpesh shohim klientë që ofrojnë udhëzime shtesë së bashku me përgjigjet e funksionit si Parts pasuese. Kjo mund të çojë në sjellje të papritur të modelit (p.sh. rrjedhje mendimi) dhe të rezultojë në rezultate me cilësi më të ulët. Në vend të kësaj, shtoni çdo udhëzim shtesë në fund të tekstit të përgjigjes së funksionit të ndarë nga dy rreshta të rinj.

Python

# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"

final_interaction = client.interactions.create(
    model="gemini-3.5-flash",
    previous_interaction_id=interaction.id,
    tools=[my_tool],
    input=[{
        "type": "function_result",
        "name": fc_step.name,
        "call_id": fc_step.id,
        "result": [{"type": "text", "text": result_text}],
    }],
)

JavaScript

// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;

const finalInteraction = await client.interactions.create({
  model: "gemini-3.5-flash",
  previousInteractionId: interaction.id,
  tools: [myTool],
  input: [{
    type: "function_result",
    name: fcStep.name,
    call_id: fcStep.id,
    result: [{ type: "text", text: resultText }],
  }],
});

Zvogëlimi i thirrjeve të panevojshme për mjetet

Nëse përjetoni një përdorim të tepruar të thirrjeve të mjeteve, dy teknika ndihmojnë në minimizimin e tyre:

  1. Filloni duke ulur nivelin e të menduarit ( medium , low ose minimal ): Nivelet më të larta të të menduarit e inkurajojnë modelin të përdorë më shumë mjete për të eksploruar dhe verifikuar, kështu që ulja e nivelit mund të zvogëlojë thirrjet e mjeteve.

  2. Shtoni një udhëzim sistemi: Nëse përdorimi i tepërt vazhdon pas rregullimit të nivelit të të menduarit, merrni në konsideratë një kërkesë që kufizon përdorimin e mjetit. Për shembull:

    You have a limited action budget of <n> tool calls. Use them efficiently.
    

Lista e kontrollit të migrimit për migrimin

Ne rekomandojmë fuqimisht përditësimin në google-genai SDK v2.0.0 ose më të ri. Ky version sjell ndryshime të rëndësishme në Interactions API. Shihni udhëzuesin e migrimit të ndryshimeve të rëndësishme për detaje.

Migroni nga Gemini 3 Flash Preview

  • Përditëso emrin e modelit: gemini-3-flash-previewgemini-3.5-flash
  • Rishikoni çmimet. Gemini 3.5 Flash është më i shtrenjtë se Gemini 3 Flash Preview. Nëse rasti juaj i përdorimit është shumë i ndjeshëm ndaj kostos, merrni në konsideratë migrimin në Gemini 3.1 Flash-Lite . Shihni faqen e çmimeve për detaje.
  • Hiqni temperature , top_p , top_k nga konfigurimi juaj (nuk rekomandohet më).
  • Zëvendëso thinking_budget me thinking_level .
  • Shto id dhe name përputhës në të gjitha pjesët e FunctionResponse .
  • Testoni kërkesat tuaja. Përpjekja e parazgjedhur ndryshoi nga highmedium ; verifikoni cilësinë, shpejtësinë dhe koston.
  • Ruajtja e mendimit tani është aktive si parazgjedhje. Konteksti i arsyetimit vazhdon nëpër raunde, gjë që përmirëson performancën, por mund të rrisë përdorimin e tokenëve.
  • Zvogëloni thirrjet e panevojshme të mjeteve: filloni duke ulur nivelin e të menduarit ( medium , low ose minimal ); shtoni një udhëzim sistemi për të kufizuar përdorimin e mjeteve nëse përdorimi i tepërt vazhdon.
  • Përdorimi i kompjuterit nuk mbështetet në Gemini 3.5 Flash për momentin. Për ngarkesat e punës së përdorimit të kompjuterit, vazhdoni të përdorni Gemini 3 Flash Preview.

Migroni nga Binjakët 2.5

Të gjitha sa më sipër, plus:

  • Thjeshtoni pyetjet. Nëse keni përdorur inxhinieri të pyetjeve të zinxhirit të mendimit për të detyruar arsyetimin, provoni thinking_level: "medium" ose "high" me pyetje më të thjeshta në vend të tyre.
  • Testoni ngarkesat e punës në PDF dhe media. Nëse jeni mbështetur në sjellje specifike për analizimin e dendur të dokumenteve, testoni cilësimin media_resolution_high për të siguruar saktësi të vazhdueshme. Migrimi në vlerat fillestare të Gemini 3 mund të rrisë gjithashtu përdorimin e token-ave për PDF-të, por ta ulë atë për videon; nëse kërkesat tejkalojnë dritaren e kontekstit, zvogëloni në mënyrë të qartë media_resolution . Shihni dokumentet e rezolucionit të medias për detaje.
  • Shfrytëzoni përdorimin e kombinuar të mjeteve . Kërkimi në Google, konteksti i URL-së, ekzekutimi i kodit dhe funksionet e personalizuara mund të përdoren në të njëjtën kërkesë.
  • Nëse përdorni përgjigje të funksioneve multimodale, zhvendosni përmbajtjen multimodale brenda pjesëve të përgjigjes së funksionit, jo përgjatë tyre.
  • Nëse përdorni udhëzime brenda rreshtit me përgjigje të funksionit, shtoji ato në tekstin e përgjigjes së funksionit të ndara nga dy rreshta të rinj, jo si pjesë të ndara.
  • Segmentimi i imazhit nuk mbështetet në Gemini 3.x. Për ngarkesat e punës së segmentimit, vazhdoni të përdorni Gemini 2.5 Flash me thinking off ose Gemini Robotics-ER 1.6 .
  • Hiqni candidate_count nga konfigurimi juaj (nuk mbështetet në Gemini 3.x)

Karakteristikat e familjes Binjakët 3

Gemini 3.5 Flash trashëgon të gjitha aftësitë e familjes Gemini 3 përveç Përdorimit të Kompjuterit. Karakteristikat e prezantuara në Gemini 3 që vazhdojnë:

  • Të menduarit : Konteksti i arsyetimit të enkriptuar i ruajtur në të gjitha thirrjet API. Automatik në API-në e Ndërveprimeve; implicit në GenerateContent.
  • Daljet e strukturuara me mjete : Kombinoni modalitetin JSON me mjetet e integruara (Kërkimi, konteksti i URL-së, ekzekutimi i kodit, thirrja e funksionit).
  • Përgjigjet e funksionit multimodal : Kthen imazhe, audio dhe media të tjera në rezultatet e thirrjes së funksionit.
  • Ekzekutimi i kodit me imazhe : Ekzekutoni kodin që përpunon dhe gjeneron imazhe.
  • Përdorimi i kombinuar i mjeteve : Përdorni mjete të integruara dhe thirrje të funksioneve të personalizuara në të njëjtën kërkesë.
  • Rezolucioni i medias : Kontroll i detajuar mbi shpërndarjen e tokenëve për imazhe, video dhe hyrje PDF. Modelet Gemini 3 mbështesin cilësimet e rezolucionit për çdo artikull përmbajtjeje ( low , medium , high , ultra_high ) për kërkesa me besnikëri të përzier.
  • Nënshkrimet e mendimit : Përfaqësime të enkriptuara të arsyetimit të brendshëm të modelit. E nevojshme për thirrjen e funksionit me shumë kthesa në modalitetin pa gjendje; menaxhohet automatikisht nga API-ja e Ndërveprimeve dhe SDK-të zyrtare.

Nxitja e praktikave më të mira

Modelet Gemini 3.x janë modele arsyetimi, të cilat ndryshojnë mënyrën se si duhet të nxitni.

  • Udhëzime të sakta: Jini koncizë. Gemini 3.x i përgjigjet më së miri udhëzimeve të drejtpërdrejta dhe të qarta. Teknikat e hollësishme ose komplekse të inxhinierisë së shpejtë të projektuara për modele më të vjetra mund të shkaktojnë që modeli të mbivlerësohet.
  • Fragmentariteti i rezultatit: Si parazgjedhje, Gemini 3 dhe 3.1 janë më pak të hollësishëm dhe preferojnë përgjigje të drejtpërdrejta dhe efikase. Nëse rasti juaj i përdorimit kërkon një ton bisedor, drejtojeni modelin në mënyrë të qartë në kërkesën tuaj (për shembull, "Shpjegojeni këtë si një asistent miqësor dhe i hapur").
  • Menaxhimi i kontekstit: Kur punoni me grupe të mëdha të dhënash (si libra të tërë, baza kodesh ose video të gjata), vendosni udhëzimet ose pyetjet tuaja specifike në fund të kërkesës, pas kontekstit të të dhënave. Ankoroni arsyetimin e modelit duke e filluar pyetjen tuaj me një frazë si, "Bazuar në informacionin paraprak...".

Mësoni më shumë rreth strategjive të projektimit të shpejtë në udhëzuesin e inxhinierisë së shpejtë .

Kufizime

  • Segmentimi i imazhit nuk mbështetet në Gemini 3.x. Për ngarkesat e punës së segmentimit, vazhdoni të përdorni Gemini 2.5 Flash me thinking off ose Gemini Robotics-ER 1.6 .

Pyetje të shpeshta

  1. Cili është kufiri i njohurive për Gemini 3.5 Flash? Gemini 3.5 Flash ka një kufi njohurish në janar 2025. Për informacione më të fundit, përdorni mjetin Search Grounding .

  2. Cilat janë kufizimet e dritares së kontekstit? Gemini 3.5 Flash mbështet një dritare konteksti hyrëse prej 1 milion tokenësh dhe deri në 65 mijë tokenësh dalës.

  3. A do të funksionojë ende kodi im i vjetër thinking_budget ? Po, thinking_budget mbështetet ende për pajtueshmëri me prapavijë, por ne rekomandojmë migrimin në thinking_level për një performancë më të parashikueshme. Mos i përdorni të dyja në të njëjtën kërkesë.

  4. A e mbështet Gemini 3.5 Flash Batch API? Po. Shihni udhëzuesin e Batch API për detaje.

  5. A mbështetet ruajtja e përkohshme e kontekstit (Context Caching)? Po, mbështetet ruajtja e përkohshme e kontekstit (Context Caching ).

  6. Cilat mjete mbështeten? Gemini 3.5 Flash mbështet Kërkimin në Google , Grounding me Google Maps , Kërkimin e Skedarëve , Ekzekutimin e Kodit , Kontekstin e URL-së dhe Thirrjen standarde të Funksioneve , duke përfshirë përdorimin e kombinuar të mjeteve . Përdorimi i kompjuterit nuk mbështetet në Gemini 3.5 Flash.

Hapat e ardhshëm