Gemini Live API overview

Interfejs Live API umożliwia interakcje z Gemini w czasie rzeczywistym z użyciem głosu i wzroku przy niewielkich opóźnieniach. Przetwarza ciągłe strumienie dźwięku, obrazów i tekstu, aby dostarczać natychmiastowe odpowiedzi głosowe przypominające ludzkie wypowiedzi, co zapewnia użytkownikom naturalną rozmowę.

Omówienie interfejsu Live API

Przypadki użycia

Interfejs Live API może być używany do tworzenia agentów głosowych działających w czasie rzeczywistym w różnych branżach, m.in.:

  • E-commerce i handel detaliczny: asystenci zakupów, którzy oferują spersonalizowane rekomendacje, oraz agenci obsługi klienta, którzy rozwiązują problemy klientów.
  • Gry: interaktywne postacie niezależne, pomoc w grze i tłumaczenie treści w czasie rzeczywistym.
  • Interfejsy nowej generacji: funkcje głosowe i wideo w robotyce, inteligentnych okularach i pojazdach.
  • Opieka zdrowotna: asystenci zdrowia, którzy wspierają pacjentów i edukują ich.
  • Usługi finansowe: doradcy AI w zakresie zarządzania majątkiem i inwestycjami.
  • Edukacja: mentorzy i towarzysze nauki oparte na AI, którzy zapewniają spersonalizowane instrukcje i opinie.

Najważniejsze funkcje

Interfejs Live API oferuje kompleksowy zestaw funkcji do tworzenia zaawansowanych agentów głosowych:

  • Obsługa wielu języków: rozmawiaj w 70 obsługiwanych językach.
  • Przerwanie: użytkownicy mogą w dowolnym momencie przerwać działanie modelu, aby uzyskać interaktywne odpowiedzi.
  • Korzystanie z narzędzi: integruje narzędzia takie jak wywoływanie funkcji i wyszukiwarka Google, aby umożliwiać dynamiczne interakcje.
  • Transkrypcje audio: udostępnia transkrypcje tekstowe zarówno danych wejściowych użytkownika, jak i danych wyjściowych modelu.
  • Aktywny dźwięk: pozwala kontrolować, kiedy i w jakich kontekstach model odpowiada.
  • Dialog afektywny: dostosowuje styl i ton odpowiedzi do ekspresji użytkownika.

Specyfikacja techniczna

W tabeli poniżej znajdziesz dane techniczne interfejsu Live API:

Kategoria Szczegóły
Rodzaje danych wejściowych Audio (surowe 16-bitowe audio PCM, 16 kHz, little-endian), obrazy (JPEG <= 1 kl./s), tekst
Rodzaje danych wyjściowych Audio (surowe 16-bitowe audio PCM, 24 kHz, little-endian)
Protokół Połączenie WebSocket z zachowaniem stanu (WSS)

Wybierz metodę implementacji

Podczas integracji z interfejsem Live API musisz wybrać jedną z tych metod implementacji:

  • Serwer-serwer: backend łączy się z interfejsem Live API za pomocą WebSockets. Zwykle klient wysyła dane strumieniowe (audio, wideo, tekst) na serwer, który następnie przekazuje je do interfejsu Live API.
  • Klient–serwer: kod frontendu łączy się bezpośrednio z interfejsem Live API za pomocą WebSockets, aby przesyłać strumieniowo dane z pominięciem backendu.

Rozpocznij

Wybierz przewodnik odpowiedni dla Twojego środowiska programistycznego:

Serwer-serwer

Połącz się z interfejsem Gemini Live API za pomocą pakietu GenAI SDK, aby utworzyć wielomodową aplikację w czasie rzeczywistym z backendem w Pythonie.

Klient-serwer

Połącz się z interfejsem Gemini Live API za pomocą protokołu WebSocket, aby utworzyć multimodalną aplikację w czasie rzeczywistym z interfejsem JavaScript i tokenami tymczasowymi.

Pakiet do tworzenia agentów

Tworzenie agenta i używanie pakietu Agent Development Kit (ADK) Streaming do włączania komunikacji głosowej i wideo.

Integracje z partnerami

Aby usprawnić programowanie aplikacji audio i wideo działających w czasie rzeczywistym, możesz użyć integracji z usługami innych firm, która obsługuje interfejs Gemini Live API przez WebRTC lub WebSockets.