PaliGemma

PaliGemma 2 i Paligemma to lekkie, otwarte modele wizualno-językowe (VLM) inspirowane modelem PaLI-3 i oparte na otwartych komponentach, takich jak model wizualny SigLIPmodel językowy Gemma. PaliGemma przyjmuje jako dane wejściowe zarówno obrazy, jak i tekst, i może odpowiadać na pytania dotyczące obrazów, podając szczegółowe informacje i kontekst. Oznacza to, że PaliGemma może przeprowadzać dogłębną analizę obrazów i dostarczać przydatnych informacji, takich jak podpisy do obrazów i krótkich filmów, wykrywanie obiektów i odczytywanie tekstu umieszczonego na obrazach.

PaliGemma 2 jest dostępna w rozmiarach parametrów 3B, 10B i 28B, które są oparte odpowiednio na modelach Gemma 2 2B, 9B i 27B. Pierwotne modele PaliGemma są dostępne w rozmiarze 3B. Więcej informacji o modelach Gemma znajdziesz na liście modeli Gemma. Różne warianty modelu PaliGemma obsługują różne rozdzielczości pikseli dla danych wejściowych w postaci obrazów, m.in. 224 x 224, 448 x 448 i 896 x 896 pikseli.

Modele PaliGemma możesz wyświetlać i pobierać z tych witryn:

Istnieją 3 kategorie modeli PaliGemma:

  • PaliGemma PT – uniwersalne wytrenowane modele, które można dostroić do wykonywania różnych zadań.
  • PaliGemma FT – modele zorientowane na badania, które są dostrojone z użyciem konkretnych zbiorów danych do badań.
  • PaliGemma mix – modele dostosowane do różnych zadań, które można od razu wykorzystać w typowych przypadkach użycia.

Najważniejsze korzyści:

  • Obsługuje jednocześnie obrazy i tekst.
  • Możliwość dostosowania do szerokiej gamy zadań związanych z językiem ducha.
  • Zawiera punkt kontrolny dostosowany do różnych zadań, które można od razu wykorzystać w badaniu.

Więcej informacji

Wypróbuj funkcje wykrywania i generowania treści za pomocą PaliGemma w Colab.
Dostosuj model PaliGemma za pomocą danych obrazowych za pomocą JAX w Colab.
Wyświetl więcej kodu, notatniki Colab, informacje i dyskusje dotyczące PaliGemma w Kaggle.