PaliGemma
PaliGemma 2 dan PaliGemma adalah model bahasa visual (VLM) terbuka yang ringan yang terinspirasi oleh PaLI-3, dan didasarkan pada komponen terbuka seperti model visual SigLIP dan model bahasa Gemma. PaliGemma menggunakan gambar dan teks sebagai input dan dapat menjawab pertanyaan tentang gambar dengan detail dan konteks, yang berarti bahwa PaliGemma dapat melakukan analisis gambar yang lebih mendalam dan memberikan insight yang berguna, seperti teks untuk gambar dan video singkat, deteksi objek, dan membaca teks yang disematkan dalam gambar.
PaliGemma 2 tersedia dalam ukuran parameter 3 miliar, 10 miliar, dan 28 miliar, yang masing-masing didasarkan pada model Gemma 2 2 miliar, 9 miliar, dan 27 miliar. Model PaliGemma asli tersedia dalam ukuran 3B. Untuk mengetahui informasi selengkapnya tentang varian model Gemma, lihat Daftar model Gemma. Varian model PaliGemma mendukung resolusi piksel yang berbeda untuk input gambar, termasuk 224x224, 448x448, dan 896x896 piksel.
Anda dapat melihat dan mendownload model PaliGemma dari situs berikut:
- Download dari Kaggle.
- Download dari Hugging Face.
Ada tiga kategori model PaliGemma:
- PaliGemma PT - Model terlatih tujuan umum yang dapat disesuaikan dengan berbagai tugas.
- PaliGemma FT - Model berorientasi riset yang disesuaikan dengan set data riset tertentu.
- Gabungan PaliGemma - Model yang disesuaikan dengan campuran tugas yang dapat digunakan secara langsung untuk kasus penggunaan umum.
Manfaat utamanya meliputi:
-
Kemampuan multimodal
Menangani input gambar dan teks secara bersamaan. -
Model dasar serbaguna
Dapat disesuaikan pada berbagai tugas bahasa visi. -
Eksplorasi langsung
Dilengkapi dengan checkpoint yang disesuaikan dengan campuran tugas untuk penggunaan riset langsung.