PaliGemma
PaliGemma 2 i Paligemma to lekkie, otwarte modele wizualno-językowe (VLM) inspirowane modelem PaLI-3 i oparte na otwartych komponentach, takich jak model wizualny SigLIP i model językowy Gemma. PaliGemma przyjmuje jako dane wejściowe zarówno obrazy, jak i tekst, i może odpowiadać na pytania dotyczące obrazów, podając szczegółowe informacje i kontekst. Oznacza to, że PaliGemma może przeprowadzać dogłębną analizę obrazów i dostarczać przydatnych informacji, takich jak podpisy do obrazów i krótkich filmów, wykrywanie obiektów i odczytywanie tekstu umieszczonego na obrazach.
PaliGemma 2 jest dostępna w rozmiarach parametrów 3B, 10B i 28B, które są oparte odpowiednio na modelach Gemma 2 2B, 9B i 27B. Pierwotne modele PaliGemma są dostępne w rozmiarze 3B. Więcej informacji o modelach Gemma znajdziesz na liście modeli Gemma. Różne warianty modelu PaliGemma obsługują różne rozdzielczości pikseli dla danych wejściowych w postaci obrazów, m.in. 224 x 224, 448 x 448 i 896 x 896 pikseli.
Modele PaliGemma możesz wyświetlać i pobierać z tych witryn:
- Pobierz z Kaggle.
- Pobierz z Hugging Face.
Istnieją 3 kategorie modeli PaliGemma:
- PaliGemma PT – uniwersalne wytrenowane modele, które można dostroić do wykonywania różnych zadań.
- PaliGemma FT – modele zorientowane na badania, które są dostrojone z użyciem konkretnych zbiorów danych do badań.
- PaliGemma mix – modele dostosowane do różnych zadań, które można od razu wykorzystać w typowych przypadkach użycia.
Najważniejsze korzyści:
-
Możliwości multimodalne
Obsługuje jednocześnie obrazy i tekst. -
Uniwersalny model podstawowy
Możliwość dostosowania do szerokiej gamy zadań związanych z językiem ducha. -
Standardowa eksploracja
Zawiera punkt kontrolny dostosowany do różnych zadań, które można od razu wykorzystać w badaniu.