Modele Gemini potrafią przetwarzać obrazy i filmy, co umożliwia wielu deweloperom wdrażanie innowacyjnych rozwiązań, które w przeszłości wymagały modeli w konkretnej domenie. Gemini może m.in.:
- Dodawanie podpisów i odpowiadanie na pytania dotyczące obrazów
- Transkrypcja i rozumowanie na podstawie plików PDF, w tym do 2 milionów tokenów
- opisywać, dzielić na segmenty i wyodrębniać informacje z filmów o długości do 90 minut;
- Wykrywanie obiektów na obrazie i zwracanie ich współrzędnych ramki ograniczającej
Gemini został zaprojektowany od podstaw jako multimodalny, a my wciąż przesuwamy granice tego, co możliwe.
Co dalej?
Z tego przewodnika dowiesz się, jak przesyłać pliki graficzne i wideo za pomocą interfejsu File API, a potem generować tekst na podstawie obrazów i filmów. Więcej informacji znajdziesz w tych materiałach:
- Strategie wyświetlania promptów dotyczących plików: interfejs Gemini API obsługuje prompty z tekstem, obrazem, dźwiękiem i danymi wideo, które są też nazywane promptami multimodalnymi.
- Instrukcje systemowe: instrukcje systemowe pozwalają kierować działaniem modelu na podstawie konkretnych potrzeb i przypadków użycia.
- Wskazówki dotyczące bezpieczeństwa: modele generatywnej AI czasami generują nieoczekiwane wyniki, np. niedokładne, stronnicze lub obraźliwe. Przetwarzanie końcowe i sprawdzanie przez weryfikatorów są niezbędne do ograniczenia ryzyka szkód wynikających z takich danych wyjściowych.