Poznaj możliwości w zakresie rozpoznawania treści dzięki interfejsowi Gemini API

Modele Gemini potrafią przetwarzać obrazy i filmy, co umożliwia wielu deweloperom wdrażanie innowacyjnych rozwiązań, które w przeszłości wymagały modeli w konkretnej domenie. Gemini może m.in.:

  • Dodawanie podpisów i odpowiadanie na pytania dotyczące obrazów
  • Transkrypcja i rozumowanie na podstawie plików PDF, w tym do 2 milionów tokenów
  • opisywać, dzielić na segmenty i wyodrębniać informacje z filmów o długości do 90 minut;
  • Wykrywanie obiektów na obrazie i zwracanie ich współrzędnych ramki ograniczającej

Gemini został zaprojektowany od podstaw jako multimodalny, a my wciąż przesuwamy granice tego, co możliwe.

Co dalej?

Z tego przewodnika dowiesz się, jak przesyłać pliki graficzne i wideo za pomocą interfejsu File API, a potem generować tekst na podstawie obrazów i filmów. Więcej informacji znajdziesz w tych materiałach:

  • Strategie wyświetlania promptów dotyczących plików: interfejs Gemini API obsługuje prompty z tekstem, obrazem, dźwiękiem i danymi wideo, które są też nazywane promptami multimodalnymi.
  • Instrukcje systemowe: instrukcje systemowe pozwalają kierować działaniem modelu na podstawie konkretnych potrzeb i przypadków użycia.
  • Wskazówki dotyczące bezpieczeństwa: modele generatywnej AI czasami generują nieoczekiwane wyniki, np. niedokładne, stronnicze lub obraźliwe. Przetwarzanie końcowe i sprawdzanie przez weryfikatorów są niezbędne do ograniczenia ryzyka szkód wynikających z takich danych wyjściowych.