Gemini की Deep Research की सुविधा अब झलक के तौर पर उपलब्ध है. इसमें साथ मिलकर प्लान बनाने, विज़ुअलाइज़ेशन, एमसीपी के साथ काम करने की सुविधा वगैरह शामिल है.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Live API की सुविधाओं के बारे में गाइड

यह एक पूरी गाइड है. इसमें Live API के साथ उपलब्ध सुविधाओं और कॉन्फ़िगरेशन के बारे में बताया गया है. लाइव एपीआई के बारे में खास जानकारी और इस्तेमाल के सामान्य उदाहरणों के लिए सैंपल कोड देखने के लिए, लाइव एपीआई का इस्तेमाल शुरू करें पेज पर जाएं.

शुरू करने से पहले

बुनियादी कॉन्सेप्ट के बारे में जानें: अगर आपने अब तक ऐसा नहीं किया है, तो सबसे पहले Live API का इस्तेमाल शुरू करना पेज पढ़ें. इससे आपको Live API के बुनियादी सिद्धांतों, इसके काम करने के तरीके, और लागू करने के अलग-अलग तरीकों के बारे में जानकारी मिलेगी.
AI Studio में Live API आज़माएं: ऐप्लिकेशन बनाना शुरू करने से पहले, Google AI Studio में Live API आज़माएं. इससे आपको मदद मिल सकती है. Google AI Studio में Live API का इस्तेमाल करने के लिए, स्ट्रीम करें को चुनें.

मॉडल की तुलना

यहां दी गई टेबल में, Gemini 3.1 Flash Live Preview और Gemini 2.5 Flash Live Preview मॉडल के बीच के मुख्य अंतर के बारे में बताया गया है:

सुविधा	Gemini 3.1 Flash की लाइव झलक	Gemini 2.5 Flash का लाइव प्रीव्यू
सोच-विचार	यह `thinkingLevel` का इस्तेमाल करके, `minimal`, `low`, `medium`, और `high` जैसी सेटिंग के साथ सोच-विचार की गहराई को कंट्रोल करता है. डिफ़ॉल्ट रूप से, इसे `minimal` पर सेट किया जाता है, ताकि इंतज़ार के समय को कम किया जा सके. सोचने के लेवल और बजट देखें.	यह `thinkingBudget` का इस्तेमाल करके, थिंकिंग टोकन की संख्या सेट करता है. डाइनैमिक थिंकिंग की सुविधा डिफ़ॉल्ट रूप से चालू होती है. इसे बंद करने के लिए, `thinkingBudget` को `0` पर सेट करें. सोचने के लेवल और बजट देखें.
जवाब पाना	किसी एक सर्वर इवेंट में, कॉन्टेंट के कई हिस्से एक साथ शामिल हो सकते हैं. उदाहरण के लिए, `inlineData` और ट्रांसक्रिप्ट. पक्का करें कि आपका कोड, हर इवेंट में सभी हिस्सों को प्रोसेस करता हो, ताकि कोई भी कॉन्टेंट न छूटे.	हर सर्वर इवेंट में, कॉन्टेंट का सिर्फ़ एक हिस्सा होता है. पार्ट अलग-अलग इवेंट में डिलीवर किए जाते हैं.
क्लाइंट का कॉन्टेंट	`send_client_content` का इस्तेमाल सिर्फ़ शुरुआती कॉन्टेक्स्ट के इतिहास को सीड करने के लिए किया जा सकता है. इसके लिए, सेशन कॉन्फ़िगरेशन में `initial_history_in_client_content` को सेट करना ज़रूरी है. बातचीत के दौरान टेक्स्ट अपडेट भेजने के लिए, `send_realtime_input` का इस्तेमाल करें.	`send_client_content` की सुविधा, बातचीत के दौरान कभी भी इस्तेमाल की जा सकती है. इससे कॉन्टेंट के अपडेट भेजे जा सकते हैं और कॉन्टेक्स्ट सेट किया जा सकता है.
मुड़ने की जानकारी	यह डिफ़ॉल्ट रूप से `TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO` पर सेट होता है. मॉडल के जवाब में, ऑडियो से जुड़ी गतिविधि और सभी वीडियो फ़्रेम शामिल होते हैं.	यह डिफ़ॉल्ट रूप से `TURN_INCLUDES_ONLY_ACTIVITY` पर सेट होता है. मॉडल के जवाब में, सिर्फ़ पता लगाई गई गतिविधि शामिल होती है.
कस्टम वीएडी (`activity_start`/`activity_end`)	काम करता है. अपने-आप VAD होने की सुविधा बंद करें. साथ ही, बारी के हिसाब से बोलने की सीमा को कंट्रोल करने के लिए, मैन्युअल तरीके से `activityStart` और `activityEnd` मैसेज भेजें.	काम करता है. अपने-आप VAD होने की सुविधा बंद करें. साथ ही, बारी के हिसाब से बोलने की सीमा को कंट्रोल करने के लिए, मैन्युअल तरीके से `activityStart` और `activityEnd` मैसेज भेजें.
वीएडी का अपने-आप कॉन्फ़िगरेशन होना	काम करता है. `start_of_speech_sensitivity`, `end_of_speech_sensitivity`, `prefix_padding_ms`, और `silence_duration_ms` जैसे पैरामीटर कॉन्फ़िगर करें.	काम करता है. `start_of_speech_sensitivity`, `end_of_speech_sensitivity`, `prefix_padding_ms`, और `silence_duration_ms` जैसे पैरामीटर कॉन्फ़िगर करें.
एसिंक्रोनस फ़ंक्शन कॉलिंग (`behavior: NON_BLOCKING`)	काम नहीं करता है. फ़ंक्शन कॉलिंग सिर्फ़ क्रम से की जा सकती है. जब तक टूल का जवाब नहीं भेजा जाता, तब तक मॉडल जवाब देना शुरू नहीं करेगा.	काम करता है. फ़ंक्शन के एलान पर `behavior` को `NON_BLOCKING` पर सेट करें, ताकि फ़ंक्शन के चलने के दौरान मॉडल इंटरैक्ट करना जारी रख सके. यह कंट्रोल करें कि मॉडल, `scheduling` पैरामीटर (`INTERRUPT`, `WHEN_IDLE` या `SILENT`) के साथ जवाबों को कैसे हैंडल करे.
प्रोऐक्टिव ऑडियो	काम नहीं करता है	काम करता है. इस सुविधा के चालू होने पर, मॉडल यह तय कर सकता है कि अगर इनपुट कॉन्टेंट काम का नहीं है, तो जवाब न दिया जाए. `proactivity` कॉन्फ़िगरेशन में `proactive_audio` को `true` पर सेट करें. इसके लिए, `v1alpha` ज़रूरी है.
अफ़ेक्टिव डायलॉग	काम नहीं करता है	काम करता है. मॉडल, जवाब देने की अपनी स्टाइल को इनपुट के एक्सप्रेशन और टोन के हिसाब से बदलता है. सेशन कॉन्फ़िगरेशन में `enable_affective_dialog` को `true` पर सेट करें. इसके लिए, `v1alpha` की ज़रूरत होती है.

Gemini 2.5 Flash Live से Gemini 3.1 Flash Live पर माइग्रेट करने के लिए, माइग्रेशन गाइड देखें.

कनेक्शन सेट अप करना

यहां दिए गए उदाहरण में, एपीआई पासकोड की मदद से कनेक्शन बनाने का तरीका बताया गया है:

Python

import asyncio
from google import genai

client = genai.Client()

model = "gemini-3.1-flash-live-preview"
config = {"response_modalities": ["AUDIO"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        print("Session started")
        # Send content...

if __name__ == "__main__":
    asyncio.run(main())

JavaScript

import { GoogleGenAI, Modality } from '@google/genai';

const ai = new GoogleGenAI({});
const model = 'gemini-3.1-flash-live-preview';
const config = { responseModalities: [Modality.AUDIO] };

async function main() {

  const session = await ai.live.connect({
    model: model,
    callbacks: {
      onopen: function () {
        console.debug('Opened');
      },
      onmessage: function (message) {
        console.debug(message);
      },
      onerror: function (e) {
        console.debug('Error:', e.message);
      },
      onclose: function (e) {
        console.debug('Close:', e.reason);
      },
    },
    config: config,
  });

  console.debug("Session started");
  // Send content...

  session.close();
}

main();

इंटरैक्शन के तरीके

यहां दिए गए सेक्शन में, Live API में उपलब्ध अलग-अलग इनपुट और आउटपुट मोड के उदाहरण और उनसे जुड़ी जानकारी दी गई है.

ऑडियो भेजना

ऑडियो को रॉ पीसीएम डेटा (रॉ 16-बिट पीसीएम ऑडियो, 16kHz, लिटिल-एंडियन) के तौर पर भेजा जाना चाहिए.

Python

# Assuming 'chunk' is your raw PCM audio bytes
await session.send_realtime_input(
    audio=types.Blob(
        data=chunk,
        mime_type="audio/pcm;rate=16000"
    )
)

JavaScript

// Assuming 'chunk' is a Buffer of raw PCM audio
session.sendRealtimeInput({
  audio: {
    data: chunk.toString('base64'),
    mimeType: 'audio/pcm;rate=16000'
  }
});

ऑडियो फ़ॉर्मैट

Live API में ऑडियो डेटा हमेशा रॉ, लिटिल-एंडियन, 16-बिट पीसीएम होता है. ऑडियो आउटपुट हमेशा 24 किलोहर्ट्ज़ के सैंपल रेट का इस्तेमाल करता है. इनपुट ऑडियो मूल रूप से 16 किलोहर्ट्ज़ का होता है. हालांकि, Live API ज़रूरत पड़ने पर इसे फिर से सैंपल करेगा. इसलिए, किसी भी सैंपल रेट को भेजा जा सकता है. इनपुट ऑडियो की सैंपल दर बताने के लिए, ऑडियो वाले हर Blob के MIME टाइप को audio/pcm;rate=16000 जैसे किसी वैल्यू पर सेट करें.

ऑडियो मिलना

मॉडल से मिलने वाले ऑडियो रिस्पॉन्स, डेटा के हिस्सों के तौर पर मिलते हैं.

Python

async for response in session.receive():
    if response.server_content and response.server_content.model_turn:
        for part in response.server_content.model_turn.parts:
            if part.inline_data:
                audio_data = part.inline_data.data
                # Process or play the audio data

JavaScript

// Inside the onmessage callback
const content = response.serverContent;
if (content?.modelTurn?.parts) {
  for (const part of content.modelTurn.parts) {
    if (part.inlineData) {
      const audioData = part.inlineData.data;
      // Process or play audioData (base64 encoded string)
    }
  }
}

टेक्स्ट भेजा जा रहा है

टेक्स्ट को send_realtime_input (Python) या sendRealtimeInput (JavaScript) का इस्तेमाल करके भेजा जा सकता है.

Python

await session.send_realtime_input(text="Hello, how are you?")

JavaScript

session.sendRealtimeInput({
  text: 'Hello, how are you?'
});

वीडियो भेजा जा रहा है

वीडियो फ़्रेम को अलग-अलग इमेज (जैसे, JPEG या PNG) के तौर पर, एक तय फ़्रेम रेट (ज़्यादा से ज़्यादा एक फ़्रेम प्रति सेकंड) पर भेजा जाता है.

Python

# Assuming 'frame' is your JPEG-encoded image bytes
await session.send_realtime_input(
    video=types.Blob(
        data=frame,
        mime_type="image/jpeg"
    )
)

JavaScript

// Assuming 'frame' is a Buffer of JPEG-encoded image data
session.sendRealtimeInput({
  video: {
    data: frame.toString('base64'),
    mimeType: 'image/jpeg'
  }
});

कॉन्टेंट में धीरे-धीरे किए जाने वाले अपडेट

टेक्स्ट इनपुट भेजने, सेशन का कॉन्टेक्स्ट सेट अप करने या सेशन का कॉन्टेक्स्ट वापस लाने के लिए, इंक्रीमेंटल अपडेट का इस्तेमाल करें. छोटे कॉन्टेक्स्ट के लिए, इवेंट के सटीक क्रम को दिखाने के लिए, बारी-बारी से इंटरैक्शन भेजे जा सकते हैं:

Python

turns = [
    {"role": "user", "parts": [{"text": "What is the capital of France?"}]},
    {"role": "model", "parts": [{"text": "Paris"}]},
]

await session.send_client_content(turns=turns, turn_complete=False)

turns = [{"role": "user", "parts": [{"text": "What is the capital of Germany?"}]}]

await session.send_client_content(turns=turns, turn_complete=True)

JavaScript

let inputTurns = [
  { "role": "user", "parts": [{ "text": "What is the capital of France?" }] },
  { "role": "model", "parts": [{ "text": "Paris" }] },
]

session.sendClientContent({ turns: inputTurns, turnComplete: false })

inputTurns = [{ "role": "user", "parts": [{ "text": "What is the capital of Germany?" }] }]

session.sendClientContent({ turns: inputTurns, turnComplete: true })

बड़े कॉन्टेक्स्ट के लिए, हमारा सुझाव है कि एक मैसेज की खास जानकारी दी जाए, ताकि बाद की बातचीत के लिए कॉन्टेक्स्ट विंडो खाली हो जाए. सेशन के कॉन्टेक्स्ट को लोड करने के किसी अन्य तरीके के लिए, सेशन फिर से शुरू करना देखें.

ऑडियो ट्रांसक्रिप्शन

मॉडल के जवाब के अलावा, आपको ऑडियो आउटपुट और ऑडियो इनपुट, दोनों की ट्रांसक्रिप्ट भी मिल सकती हैं.

मॉडल के ऑडियो आउटपुट को टेक्स्ट में बदलने की सुविधा चालू करने के लिए, सेटअप कॉन्फ़िगरेशन में output_audio_transcription भेजें. बोले जा रहे शब्दों को टेक्स्ट में बदलने के लिए, भाषा का अनुमान मॉडल के जवाब से लगाया जाता है.

Python

import asyncio
from google import genai
from google.genai import types

client = genai.Client()
model = "gemini-3.1-flash-live-preview"

config = {
    "response_modalities": ["AUDIO"],
    "output_audio_transcription": {}
}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        message = "Hello? Gemini are you there?"

        await session.send_client_content(
            turns={"role": "user", "parts": [{"text": message}]}, turn_complete=True
        )

        async for response in session.receive():
            if response.server_content.model_turn:
                print("Model turn:", response.server_content.model_turn)
            if response.server_content.output_transcription:
                print("Transcript:", response.server_content.output_transcription.text)

if __name__ == "__main__":
    asyncio.run(main())

JavaScript

import { GoogleGenAI, Modality } from '@google/genai';

const ai = new GoogleGenAI({});
const model = 'gemini-3.1-flash-live-preview';

const config = {
  responseModalities: [Modality.AUDIO],
  outputAudioTranscription: {}
};

async function live() {
  const responseQueue = [];

  async function waitMessage() {
    let done = false;
    let message = undefined;
    while (!done) {
      message = responseQueue.shift();
      if (message) {
        done = true;
      } else {
        await new Promise((resolve) => setTimeout(resolve, 100));
      }
    }
    return message;
  }

  async function handleTurn() {
    const turns = [];
    let done = false;
    while (!done) {
      const message = await waitMessage();
      turns.push(message);
      if (message.serverContent && message.serverContent.turnComplete) {
        done = true;
      }
    }
    return turns;
  }

  const session = await ai.live.connect({
    model: model,
    callbacks: {
      onopen: function () {
        console.debug('Opened');
      },
      onmessage: function (message) {
        responseQueue.push(message);
      },
      onerror: function (e) {
        console.debug('Error:', e.message);
      },
      onclose: function (e) {
        console.debug('Close:', e.reason);
      },
    },
    config: config,
  });

  const inputTurns = 'Hello how are you?';
  session.sendClientContent({ turns: inputTurns });

  const turns = await handleTurn();

  for (const turn of turns) {
    if (turn.serverContent && turn.serverContent.outputTranscription) {
      console.debug('Received output transcription: %s\n', turn.serverContent.outputTranscription.text);
    }
  }

  session.close();
}

async function main() {
  await live().catch((e) => console.error('got error', e));
}

main();

मॉडल के ऑडियो इनपुट को टेक्स्ट में बदलने की सुविधा चालू करने के लिए, सेटअप कॉन्फ़िगरेशन में input_audio_transcription भेजें.

Python

import asyncio
from pathlib import Path
from google import genai
from google.genai import types

client = genai.Client()
model = "gemini-3.1-flash-live-preview"

config = {
    "response_modalities": ["AUDIO"],
    "input_audio_transcription": {},
}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        audio_data = Path("16000.pcm").read_bytes()

        await session.send_realtime_input(
            audio=types.Blob(data=audio_data, mime_type='audio/pcm;rate=16000')
        )

        async for msg in session.receive():
            if msg.server_content.input_transcription:
                print('Transcript:', msg.server_content.input_transcription.text)

if __name__ == "__main__":
    asyncio.run(main())

JavaScript

import { GoogleGenAI, Modality } from '@google/genai';
import * as fs from "node:fs";
import pkg from 'wavefile';
const { WaveFile } = pkg;

const ai = new GoogleGenAI({});
const model = 'gemini-3.1-flash-live-preview';

const config = {
  responseModalities: [Modality.AUDIO],
  inputAudioTranscription: {}
};

async function live() {
  const responseQueue = [];

  async function waitMessage() {
    let done = false;
    let message = undefined;
    while (!done) {
      message = responseQueue.shift();
      if (message) {
        done = true;
      } else {
        await new Promise((resolve) => setTimeout(resolve, 100));
      }
    }
    return message;
  }

  async function handleTurn() {
    const turns = [];
    let done = false;
    while (!done) {
      const message = await waitMessage();
      turns.push(message);
      if (message.serverContent && message.serverContent.turnComplete) {
        done = true;
      }
    }
    return turns;
  }

  const session = await ai.live.connect({
    model: model,
    callbacks: {
      onopen: function () {
        console.debug('Opened');
      },
      onmessage: function (message) {
        responseQueue.push(message);
      },
      onerror: function (e) {
        console.debug('Error:', e.message);
      },
      onclose: function (e) {
        console.debug('Close:', e.reason);
      },
    },
    config: config,
  });

  // Send Audio Chunk
  const fileBuffer = fs.readFileSync("16000.wav");

  // Ensure audio conforms to API requirements (16-bit PCM, 16kHz, mono)
  const wav = new WaveFile();
  wav.fromBuffer(fileBuffer);
  wav.toSampleRate(16000);
  wav.toBitDepth("16");
  const base64Audio = wav.toBase64();

  // If already in correct format, you can use this:
  // const fileBuffer = fs.readFileSync("sample.pcm");
  // const base64Audio = Buffer.from(fileBuffer).toString('base64');

  session.sendRealtimeInput(
    {
      audio: {
        data: base64Audio,
        mimeType: "audio/pcm;rate=16000"
      }
    }
  );

  const turns = await handleTurn();
  for (const turn of turns) {
    if (turn.text) {
      console.debug('Received text: %s\n', turn.text);
    }
    else if (turn.data) {
      console.debug('Received inline data: %s\n', turn.data);
    }
    else if (turn.serverContent && turn.serverContent.inputTranscription) {
      console.debug('Received input transcription: %s\n', turn.serverContent.inputTranscription.text);
    }
  }

  session.close();
}

async function main() {
  await live().catch((e) => console.error('got error', e));
}

main();

आवाज़ और भाषा बदलना

नेटिव ऑडियो आउटपुट मॉडल, लिखाई को बोली में बदलने (टीटीएस) मॉडल के लिए उपलब्ध किसी भी आवाज़ के साथ काम करते हैं. AI Studio में जाकर, सभी आवाज़ें सुनी जा सकती हैं.

आवाज़ तय करने के लिए, सेशन कॉन्फ़िगरेशन के हिस्से के तौर पर, speechConfig ऑब्जेक्ट में आवाज़ का नाम सेट करें:

Python

config = {
    "response_modalities": ["AUDIO"],
    "speech_config": {
        "voice_config": {"prebuilt_voice_config": {"voice_name": "Kore"}}
    },
}

JavaScript

const config = {
  responseModalities: [Modality.AUDIO],
  speechConfig: { voiceConfig: { prebuiltVoiceConfig: { voiceName: "Kore" } } }
};

Live API, कई भाषाओं में काम करता है. नेटिव ऑडियो आउटपुट वाले मॉडल, सही भाषा को अपने-आप चुनते हैं. साथ ही, ये भाषा कोड को साफ़ तौर पर सेट करने की सुविधा के साथ काम नहीं करते.

नेटिव ऑडियो की क्षमताएं

हमारे नए मॉडल में नेटिव ऑडियो आउटपुट की सुविधा है. इससे, आपको असली लगने वाली स्पीच मिलती है. साथ ही, कई भाषाओं में बेहतर परफ़ॉर्मेंस मिलती है.

सूझ-बूझ वाला मॉडल

Gemini 3.1 मॉडल, thinkingLevel का इस्तेमाल करके यह तय करते हैं कि किसी विषय पर कितनी गहराई से सोच-विचार करना है. इसके लिए, minimal, low, medium, और high जैसी सेटिंग का इस्तेमाल किया जाता है. डिफ़ॉल्ट रूप से, इंतज़ार का समय कम से कम रखने के लिए minimal विकल्प चुना जाता है. Gemini 2.5 मॉडल, थिंकिंग टोकन की संख्या सेट करने के लिए thinkingBudget का इस्तेमाल करते हैं. लेवल और बजट के बारे में ज़्यादा जानने के लिए, लेवल और बजट के बारे में सोचना लेख पढ़ें.

Python

model = "gemini-3.1-flash-live-preview"

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"]
    thinking_config=types.ThinkingConfig(
        thinking_level="low",
    )
)

async with client.aio.live.connect(model=model, config=config) as session:
    # Send audio input and receive audio

JavaScript

const model = 'gemini-3.1-flash-live-preview';
const config = {
  responseModalities: [Modality.AUDIO],
  thinkingConfig: {
    thinkingLevel: 'low',
  },
};

async function main() {

  const session = await ai.live.connect({
    model: model,
    config: config,
    callbacks: ...,
  });

  // Send audio input and receive audio

  session.close();
}

main();

इसके अलावा, अपने कॉन्फ़िगरेशन में includeThoughts को true पर सेट करके, सोच के बारे में खास जानकारी देने वाली सुविधा चालू की जा सकती है. ज़्यादा जानकारी के लिए, सोच के बारे में खास जानकारी देखें:

Python

model = "gemini-3.1-flash-live-preview"

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"]
    thinking_config=types.ThinkingConfig(
        thinking_level="low",
        include_thoughts=True
    )
)

JavaScript

const model = 'gemini-3.1-flash-live-preview';
const config = {
  responseModalities: [Modality.AUDIO],
  thinkingConfig: {
    thinkingLevel: 'low',
    includeThoughts: true,
  },
};

अफ़ेक्टिव डायलॉग

इस सुविधा की मदद से, Gemini अपने जवाब देने के तरीके को इनपुट एक्सप्रेशन और टोन के हिसाब से बदल सकता है.

भावनाओं से जुड़े जवाब देने वाले डायलॉग का इस्तेमाल करने के लिए, एपीआई वर्शन को v1alpha पर सेट करें. साथ ही, सेटअप मैसेज में enable_affective_dialog को true पर सेट करें:

Python

client = genai.Client(http_options={"api_version": "v1alpha"})

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    enable_affective_dialog=True
)

JavaScript

const ai = new GoogleGenAI({ httpOptions: {"apiVersion": "v1alpha"} });

const config = {
  responseModalities: [Modality.AUDIO],
  enableAffectiveDialog: true
};

प्रोऐक्टिव ऑडियो

इस सुविधा के चालू होने पर, Gemini यह तय कर सकता है कि अगर कॉन्टेंट काम का नहीं है, तो जवाब न दिया जाए.

इसका इस्तेमाल करने के लिए, एपीआई वर्शन को v1alpha पर सेट करें. इसके बाद, सेटअप मैसेज में proactivity फ़ील्ड को कॉन्फ़िगर करें और proactive_audio को true पर सेट करें:

Python

client = genai.Client(http_options={"api_version": "v1alpha"})

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity={'proactive_audio': True}
)

JavaScript

const ai = new GoogleGenAI({ httpOptions: {"apiVersion": "v1alpha"} });

const config = {
  responseModalities: [Modality.AUDIO],
  proactivity: { proactiveAudio: true }
}

आवाज़ की गतिविधि का पता लगाने की सुविधा (वीएडी)

आवाज़ का पता लगाने की सुविधा (वीएडी) की मदद से, मॉडल यह पहचान पाता है कि कोई व्यक्ति कब बोल रहा है. यह सुविधा, बातचीत को स्वाभाविक बनाने के लिए ज़रूरी है. इससे उपयोगकर्ता को मॉडल को किसी भी समय रोकने की अनुमति मिलती है.

जब VAD को किसी रुकावट का पता चलता है, तो जनरेट हो रहे कॉन्टेंट को रद्द कर दिया जाता है और उसे खारिज कर दिया जाता है. सेशन के इतिहास में, सिर्फ़ वह जानकारी सेव की जाती है जो क्लाइंट को पहले ही भेजी जा चुकी है. इसके बाद, सर्वर BidiGenerateContentServerContent मैसेज भेजकर, रुकावट की सूचना देता है.

इसके बाद, Gemini का सर्वर फ़ंक्शन कॉल से जुड़े सभी अनुरोधों को खारिज कर देता है. साथ ही, रद्द किए गए कॉल के आईडी के साथ BidiGenerateContentServerContent मैसेज भेजता है.

Python

async for response in session.receive():
    if response.server_content.interrupted is True:
        # The generation was interrupted

        # If realtime playback is implemented in your application,
        # you should stop playing audio and clear queued playback here.

JavaScript

const turns = await handleTurn();

for (const turn of turns) {
  if (turn.serverContent && turn.serverContent.interrupted) {
    // The generation was interrupted

    // If realtime playback is implemented in your application,
    // you should stop playing audio and clear queued playback here.
  }
}

ऑटोमैटिक वीएडी

डिफ़ॉल्ट रूप से, मॉडल लगातार ऑडियो इनपुट स्ट्रीम पर वीएडी की प्रोसेस अपने-आप करता है. वीएडी को सेटअप कॉन्फ़िगरेशन के realtimeInputConfig.automaticActivityDetection फ़ील्ड की मदद से कॉन्फ़िगर किया जा सकता है.

अगर ऑडियो स्ट्रीम को एक सेकंड से ज़्यादा समय के लिए रोका जाता है (उदाहरण के लिए, क्योंकि उपयोगकर्ता ने माइक्रोफ़ोन बंद कर दिया है), तो audioStreamEnd इवेंट भेजा जाना चाहिए, ताकि कैश मेमोरी में सेव किए गए ऑडियो को हटाया जा सके. क्लाइंट, ऑडियो डेटा भेजना किसी भी समय फिर से शुरू कर सकता है.

Python

# example audio file to try:
# URL = "https://storage.googleapis.com/generativeai-downloads/data/hello_are_you_there.pcm"
# !wget -q $URL -O sample.pcm
import asyncio
from pathlib import Path
from google import genai
from google.genai import types

client = genai.Client()
model = "gemini-3.1-flash-live-preview"

config = {"response_modalities": ["AUDIO"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        audio_bytes = Path("sample.pcm").read_bytes()

        await session.send_realtime_input(
            audio=types.Blob(data=audio_bytes, mime_type="audio/pcm;rate=16000")
        )

        # if stream gets paused, send:
        # await session.send_realtime_input(audio_stream_end=True)

        async for response in session.receive():
            if response.text is not None:
                print(response.text)

if __name__ == "__main__":
    asyncio.run(main())

JavaScript

// example audio file to try:
// URL = "https://storage.googleapis.com/generativeai-downloads/data/hello_are_you_there.pcm"
// !wget -q $URL -O sample.pcm
import { GoogleGenAI, Modality } from '@google/genai';
import * as fs from "node:fs";

const ai = new GoogleGenAI({});
const model = 'gemini-3.1-flash-live-preview';
const config = { responseModalities: [Modality.AUDIO] };

async function live() {
  const responseQueue = [];

  async function waitMessage() {
    let done = false;
    let message = undefined;
    while (!done) {
      message = responseQueue.shift();
      if (message) {
        done = true;
      } else {
        await new Promise((resolve) => setTimeout(resolve, 100));
      }
    }
    return message;
  }

  async function handleTurn() {
    const turns = [];
    let done = false;
    while (!done) {
      const message = await waitMessage();
      turns.push(message);
      if (message.serverContent && message.serverContent.turnComplete) {
        done = true;
      }
    }
    return turns;
  }

  const session = await ai.live.connect({
    model: model,
    callbacks: {
      onopen: function () {
        console.debug('Opened');
      },
      onmessage: function (message) {
        responseQueue.push(message);
      },
      onerror: function (e) {
        console.debug('Error:', e.message);
      },
      onclose: function (e) {
        console.debug('Close:', e.reason);
      },
    },
    config: config,
  });

  // Send Audio Chunk
  const fileBuffer = fs.readFileSync("sample.pcm");
  const base64Audio = Buffer.from(fileBuffer).toString('base64');

  session.sendRealtimeInput(
    {
      audio: {
        data: base64Audio,
        mimeType: "audio/pcm;rate=16000"
      }
    }

  );

  // if stream gets paused, send:
  // session.sendRealtimeInput({ audioStreamEnd: true })

  const turns = await handleTurn();
  for (const turn of turns) {
    if (turn.text) {
      console.debug('Received text: %s\n', turn.text);
    }
    else if (turn.data) {
      console.debug('Received inline data: %s\n', turn.data);
    }
  }

  session.close();
}

async function main() {
  await live().catch((e) => console.error('got error', e));
}

main();

send_realtime_input की मदद से, एपीआई वीएडी के आधार पर ऑडियो का जवाब अपने-आप देगा. send_client_content, मॉडल के कॉन्टेक्स्ट में मैसेज जोड़ता है. वहीं, send_realtime_input को जवाब देने के लिए ऑप्टिमाइज़ किया जाता है. हालांकि, इससे जवाबों के क्रम पर असर पड़ता है.

वीएडी को अपने-आप कॉन्फ़िगर होने की सुविधा

वीएडी की गतिविधि को ज़्यादा कंट्रोल करने के लिए, यहां दिए गए पैरामीटर कॉन्फ़िगर किए जा सकते हैं. ज़्यादा जानकारी के लिए, एपीआई के बारे में जानकारी देखें.

Python

from google.genai import types

config = {
    "response_modalities": ["AUDIO"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": types.StartSensitivity.START_SENSITIVITY_LOW,
            "end_of_speech_sensitivity": types.EndSensitivity.END_SENSITIVITY_LOW,
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}

JavaScript

import { GoogleGenAI, Modality, StartSensitivity, EndSensitivity } from '@google/genai';

const config = {
  responseModalities: [Modality.AUDIO],
  realtimeInputConfig: {
    automaticActivityDetection: {
      disabled: false, // default
      startOfSpeechSensitivity: StartSensitivity.START_SENSITIVITY_LOW,
      endOfSpeechSensitivity: EndSensitivity.END_SENSITIVITY_LOW,
      prefixPaddingMs: 20,
      silenceDurationMs: 100,
    }
  }
};

अपने-आप वीएडी की सुविधा बंद करना

इसके अलावा, सेटअप मैसेज में realtimeInputConfig.automaticActivityDetection.disabled को true पर सेट करके, वीएडी की सुविधा को अपने-आप बंद होने से रोका जा सकता है. इस कॉन्फ़िगरेशन में, क्लाइंट की यह ज़िम्मेदारी होती है कि वह उपयोगकर्ता की आवाज़ का पता लगाए और सही समय पर activityStart और activityEnd मैसेज भेजे. इस कॉन्फ़िगरेशन में audioStreamEnd नहीं भेजा जाता है. इसके बजाय, स्ट्रीम में किसी भी तरह की रुकावट को activityEnd मैसेज से मार्क किया जाता है.

Python

config = {
    "response_modalities": ["AUDIO"],
    "realtime_input_config": {"automatic_activity_detection": {"disabled": True}},
}

async with client.aio.live.connect(model=model, config=config) as session:
    # ...
    await session.send_realtime_input(activity_start=types.ActivityStart())
    await session.send_realtime_input(
        audio=types.Blob(data=audio_bytes, mime_type="audio/pcm;rate=16000")
    )
    await session.send_realtime_input(activity_end=types.ActivityEnd())
    # ...

JavaScript

const config = {
  responseModalities: [Modality.AUDIO],
  realtimeInputConfig: {
    automaticActivityDetection: {
      disabled: true,
    }
  }
};

session.sendRealtimeInput({ activityStart: {} })

session.sendRealtimeInput(
  {
    audio: {
      data: base64Audio,
      mimeType: "audio/pcm;rate=16000"
    }
  }

);

session.sendRealtimeInput({ activityEnd: {} })

वीएडी पैरामीटर और क्वालिटी पर उनके असर के बारे में जानकारी

ऑटोमैटिक वीएडी का इस्तेमाल करते समय, दो मुख्य पैरामीटर यह तय करते हैं कि मॉडल को भेजने से पहले, ऑडियो को स्पीच टर्न में कैसे बांटा जाए:

prefixPaddingMs: यह वह ऑडियो है जिसे आवाज़ का पता चलने पहले शामिल किया जाना है. "लुक-बैक" सुविधा की मदद से, यह पक्का किया जाता है कि मॉडल, बोली की शुरुआत को पूरी तरह से कैप्चर करे. इसमें पहला सिलेबल भी शामिल है, जो वीएडी ट्रिगर होने से पहले शुरू हो सकता है. 0 की वैल्यू की वजह से, शब्दों की शुरुआत में मौजूद अक्षर कट सकते हैं.
silenceDurationMs: यह विकल्प सेट करता है कि सर्वर, किसी व्यक्ति के बोलने के बाद कितने समय तक इंतज़ार करे. इसके बाद, वह व्यक्ति के बोलने की बारी को खत्म कर देगा. इससे यह तय होता है कि सिस्टम, वाक्य के बीच में रुकने (जैसे, सोचने, सांस लेने या क्लॉज़ की सीमाओं) को कितना बर्दाश्त कर सकता है.

ऑडियो की क्वालिटी पर `silenceDurationMs` का असर

silenceDurationMs वैल्यू का सीधा असर, ऑडियो के उन हिस्सों के साइज़ और पूरी जानकारी पर पड़ता है जिन्हें मॉडल प्रोसेस करता है:

सुझाया गया (500 मि॰से॰–800 मि॰से॰): इससे अच्छा बैलेंस मिलता है. मॉडल को कॉन्टेक्स्ट के हिसाब से ऑडियो के पूरे और काम के हिस्से मिलते हैं. साथ ही, लेटेन्सी भी सही रहती है. सर्वर का इंटरनल डिफ़ॉल्ट समय लगभग 800 मि॰से॰ होता है.
बहुत कम (जैसे, 100 मि॰से॰–200 मि॰से॰): सिस्टम, बातचीत के दौरान स्वाभाविक रूप से रुकने पर, बोलने की बारी को खत्म कर देता है. इससे एक ही वाक्य को कई छोटे-छोटे ऑडियो फ़्रैगमेंट में बांट दिया जाता है. मॉडल को ये फ़्रैगमेंट अलग-अलग मिलते हैं. इस वजह से, उसे फ़्रैगमेंट के बीच के कॉन्टेक्स्ट की जानकारी नहीं मिल पाती. साथ ही, ट्रांसक्रिप्शन और जवाब की क्वालिटी भी कम हो जाती है.
बहुत ज़्यादा (जैसे, 2000 मि॰से॰ से ज़्यादा): उपयोगकर्ता के बोलना बंद करने के बाद, सिस्टम को जवाब देने में ज़्यादा समय लगता है. इससे मॉडल के जवाब देने में लगने वाले समय में बढ़ोतरी होती है.

मैन्युअल (क्लाइंट-साइड) वीएडी के लिए सबसे सही तरीके

ऑटोमैटिक वीएडी की सुविधा बंद करने और क्लाइंट-साइड पर आवाज़ पहचानने की सुविधा से activityStart/activityEnd सिग्नल मैनेज करने पर, ध्यान रखें कि सर्वर के ऑडियो बफ़रिंग के बिल्ट-इन मैकेनिज़्म को बायपास कर दिया जाता है. इसका मतलब है कि:

स्पीच से पहले कोई बफ़र नहीं: सर्वर अब बोली शुरू होने से पहले ऑडियो नहीं जोड़ता है. activityStart भेजने से पहले, आपके क्लाइंट को ऑडियो के बारे में ज़रूरी जानकारी देनी चाहिए.
साइलेंस टॉलरेंस की सुविधा उपलब्ध नहीं है: सर्वर, आपके activityEnd सिग्नल पर तुरंत कार्रवाई करता है. इसके लिए, उसे इंतज़ार नहीं करना पड़ता. अगर क्लाइंट-साइड वीएडी, बातचीत खत्म होने की थ्रेशोल्ड वैल्यू को बहुत कम रखता है (जैसे, 200 मि॰से॰ का साइलेंस), तो बातचीत के दौरान स्वाभाविक रूप से रुकने पर, आवाज़ बीच में ही कट सकती है.

मैन्युअल वीएडी के साथ ऑडियो क्वालिटी बनाए रखने के लिए, अपने क्लाइंट के वॉइस ऐक्टिविटी डिटेक्टर में, बातचीत खत्म होने के बाद कम से कम 500 मि॰से॰ का साइलेंस थ्रेशोल्ड इस्तेमाल करें. इस वैल्यू से कम थ्रेशोल्ड की वजह से, अक्सर ऑडियो के छोटे-छोटे हिस्से मिलते हैं. इससे ट्रांसक्रिप्शन और मॉडल के जवाब की क्वालिटी खराब हो जाती है.

टोकन की संख्या

इस्तेमाल किए गए टोकन की कुल संख्या, सर्वर से मिले मैसेज के usageMetadata फ़ील्ड में देखी जा सकती है.

Python

async for message in session.receive():
    # The server will periodically send messages that include UsageMetadata.
    if message.usage_metadata:
        usage = message.usage_metadata
        print(
            f"Used {usage.total_token_count} tokens in total. Response token breakdown:"
        )
        for detail in usage.response_tokens_details:
            match detail:
                case types.ModalityTokenCount(modality=modality, token_count=count):
                    print(f"{modality}: {count}")

JavaScript

const turns = await handleTurn();

for (const turn of turns) {
  if (turn.usageMetadata) {
    console.debug('Used %s tokens in total. Response token breakdown:\n', turn.usageMetadata.totalTokenCount);

    for (const detail of turn.usageMetadata.responseTokensDetails) {
      console.debug('%s\n', detail);
    }
  }
}

मीडिया रिज़ॉल्यूशन

सेशन कॉन्फ़िगरेशन के हिस्से के तौर पर mediaResolution फ़ील्ड सेट करके, इनपुट मीडिया के लिए मीडिया रिज़ॉल्यूशन तय किया जा सकता है:

Python

from google.genai import types

config = {
    "response_modalities": ["AUDIO"],
    "media_resolution": types.MediaResolution.MEDIA_RESOLUTION_LOW,
}

JavaScript

import { GoogleGenAI, Modality, MediaResolution } from '@google/genai';

const config = {
    responseModalities: [Modality.AUDIO],
    mediaResolution: MediaResolution.MEDIA_RESOLUTION_LOW,
};

सीमाएं

अपना प्रोजेक्ट प्लान करते समय, Live API की इन सीमाओं को ध्यान में रखें.

जवाब देने के तरीके

नेटिव ऑडियो मॉडल, सिर्फ़ `AUDIO response modality के साथ काम करते हैं. अगर आपको मॉडल से मिले जवाब को टेक्स्ट के तौर पर चाहिए, तो आउटपुट ऑडियो ट्रांसक्रिप्शन सुविधा का इस्तेमाल करें.

क्लाइंट प्रमाणीकरण

Live API, डिफ़ॉल्ट रूप से सिर्फ़ सर्वर-टू-सर्वर पुष्टि करने की सुविधा देता है. अगर आपको क्लाइंट-टू-सर्वर अप्रोच का इस्तेमाल करके, Live API ऐप्लिकेशन लागू करना है, तो आपको सुरक्षा से जुड़े जोखिमों को कम करने के लिए, कुछ समय के लिए मान्य टोकन का इस्तेमाल करना होगा.

सत्र की अवधि

सिर्फ़ ऑडियो वाले सेशन 15 मिनट तक किए जा सकते हैं. वहीं, ऑडियो और वीडियो, दोनों वाले सेशन सिर्फ़ दो मिनट तक किए जा सकते हैं. हालांकि, सेशन की अवधि के दौरान असीमित एक्सटेंशन के लिए, अलग-अलग सेशन मैनेजमेंट तकनीकें कॉन्फ़िगर की जा सकती हैं.

कॉन्टेक्स्ट विंडो

किसी सेशन के लिए कॉन्टेक्स्ट विंडो की सीमा यह होती है:

नेटिव ऑडियो आउटपुट मॉडल के लिए 1,28,000 टोकन
Live API के अन्य मॉडल के लिए 32 हज़ार टोकन

इस्तेमाल की जा सकने वाली भाषाएं

लाइव एपीआई, इन 97 भाषाओं में काम करता है.

भाषा	BCP-47 कोड	भाषा	BCP-47 कोड
अफ़्रीकान्स	`af`	लातवियन	`lv`
आकान	`ak`	लिथुएनियन	`lt`
अल्बेनियन	`sq`	मैसेडोनियाई	`mk`
अमहैरिक	`am`	मलय	`ms`
अरबी	`ar`	मलयालम	`ml`
आर्मीनियन	`hy`	मोल्टीज़	`mt`
असमिया	`as`	माओरी	`mi`
अज़रबैजानी	`az`	मराठी	`mr`
बॉस्क	`eu`	मंगोलियन	`mn`
बेलारूसी	`be`	नेपाली	`ne`
बांग्ला	`bn`	नॉर्वीजन	`no`
बोस्नियन	`bs`	ओड़िया	`or`
बल्गैरियन	`bg`	ओरोमो	`om`
बर्मीज़	`my`	पश्तो	`ps`
कैटलैन	`ca`	फ़ारसी	`fa`
सेबुआनो	`ceb`	पोलिश	`pl`
चाइनीज़	`zh`	पॉर्चुगीज़	`pt`
क्रोएशियन	`hr`	पंजाबी	`pa`
चेक	`cs`	क्वेचा	`qu`
डेनिश	`da`	रोमेनियन	`ro`
डच	`nl`	रोमैंश	`rm`
अंग्रेज़ी	`en`	रशियन	`ru`
एस्टोनियन	`et`	सर्बियन	`sr`
फ़ैरोईज़	`fo`	सिंधी	`sd`
फ़िलिपीनी	`fil`	सिंहली	`si`
फ़िनिश	`fi`	स्लोवाक	`sk`
फ़्रांसीसी	`fr`	स्लोवेनियन	`sl`
गैलिशियन	`gl`	सोमाली	`so`
जॉर्जियन	`ka`	सदर्न सिसोथो	`st`
जर्मन	`de`	स्पेनिश	`es`
ग्रीक	`el`	स्वाहिली	`sw`
गुजराती	`gu`	स्वीडिश	`sv`
हाउसा	`ha`	ताजिक	`tg`
हीब्रू	`iw`	तमिल	`ta`
हिन्दी	`hi`	तेलुगु	`te`
हंगेरियन	`hu`	थाई	`th`
आइसलैंडिक	`is`	स्वाना	`tn`
इंडोनेशियन	`id`	टर्किश	`tr`
आयरिश	`ga`	तुर्कमेन	`tk`
इटैलियन	`it`	उक्रेनियाई	`uk`
जैपनीज़	`ja`	उर्दू	`ur`
कन्नड़	`kn`	उज़्बेक	`uz`
कज़ाक़	`kk`	वियतनामीज़	`vi`
खमेर	`km`	वेल्श	`cy`
किनयारवांडा	`rw`	वेस्टर्न फ़्रीजन	`fy`
कोरियाई	`ko`	वोलॉफ़	`wo`
कुर्दिश	`ku`	योरुबा	`yo`
किर्गिज़	`ky`	ज़ुलू	`zu`
लाओ	`lo`

आगे क्या करना है

लाइव एपीआई का असरदार तरीके से इस्तेमाल करने के बारे में ज़रूरी जानकारी पाने के लिए, टूल इस्तेमाल करने और सेशन मैनेज करने से जुड़ी गाइड पढ़ें.
Google AI Studio में Live API को आज़माएं.
Live API मॉडल के बारे में ज़्यादा जानने के लिए, मॉडल पेज पर Gemini 2.5 Flash Native Audio देखें.
Live API कुकबुक, Live API Tools कुकबुक, और Live API Get Started स्क्रिप्ट में दिए गए अन्य उदाहरण आज़माएं.

Live API की सुविधाओं के बारे में गाइड

शुरू करने से पहले

मॉडल की तुलना

कनेक्शन सेट अप करना

Python

JavaScript

इंटरैक्शन के तरीके

ऑडियो भेजना

Python

JavaScript

ऑडियो फ़ॉर्मैट

ऑडियो मिलना

Python

JavaScript

टेक्स्ट भेजा जा रहा है

Python

JavaScript

वीडियो भेजा जा रहा है

Python

JavaScript

कॉन्टेंट में धीरे-धीरे किए जाने वाले अपडेट

Python

JavaScript

ऑडियो ट्रांसक्रिप्शन

Python

JavaScript

Python

JavaScript

आवाज़ और भाषा बदलना

Python

JavaScript

नेटिव ऑडियो की क्षमताएं

सूझ-बूझ वाला मॉडल

Python

JavaScript

Python

JavaScript

अफ़ेक्टिव डायलॉग

Python

JavaScript

प्रोऐक्टिव ऑडियो

Python

JavaScript

आवाज़ की गतिविधि का पता लगाने की सुविधा (वीएडी)

Python

JavaScript

ऑटोमैटिक वीएडी

Python

JavaScript

वीएडी को अपने-आप कॉन्फ़िगर होने की सुविधा

Python

JavaScript

अपने-आप वीएडी की सुविधा बंद करना

Python

JavaScript

वीएडी पैरामीटर और क्वालिटी पर उनके असर के बारे में जानकारी

ऑडियो की क्वालिटी पर silenceDurationMs का असर

मैन्युअल (क्लाइंट-साइड) वीएडी के लिए सबसे सही तरीके

टोकन की संख्या

Python

JavaScript

मीडिया रिज़ॉल्यूशन

Python

JavaScript

सीमाएं

जवाब देने के तरीके

क्लाइंट प्रमाणीकरण

सत्र की अवधि

कॉन्टेक्स्ट विंडो

इस्तेमाल की जा सकने वाली भाषाएं

आगे क्या करना है

ऑडियो की क्वालिटी पर `silenceDurationMs` का असर