PaliGemma

Gemma 3n dirilis dengan input audio dan dioptimalkan untuk digunakan di perangkat sehari-hari. Pelajari lebih lanjut

PaliGemma 2 dan PaliGemma adalah model bahasa visual (VLM) terbuka yang ringan yang terinspirasi oleh PaLI-3, dan didasarkan pada komponen terbuka seperti model visual SigLIP dan model bahasa Gemma. PaliGemma menggunakan gambar dan teks sebagai input dan dapat menjawab pertanyaan tentang gambar dengan detail dan konteks, yang berarti bahwa PaliGemma dapat melakukan analisis gambar yang lebih mendalam dan memberikan insight yang berguna, seperti teks untuk gambar dan video singkat, deteksi objek, dan membaca teks yang disematkan dalam gambar.

PaliGemma 2 tersedia dalam ukuran parameter 3 miliar, 10 miliar, dan 28 miliar, yang masing-masing didasarkan pada model Gemma 2 2 miliar, 9 miliar, dan 27 miliar. Model PaliGemma asli tersedia dalam ukuran 3B. Untuk mengetahui informasi selengkapnya tentang varian model Gemma, lihat Daftar model Gemma. Varian model PaliGemma mendukung resolusi piksel yang berbeda untuk input gambar, termasuk 224x224, 448x448, dan 896x896 piksel.

Anda dapat melihat dan mendownload model PaliGemma dari situs berikut:

Download dari Kaggle.
Download dari Hugging Face.

Ada tiga kategori model PaliGemma:

PaliGemma PT - Model terlatih tujuan umum yang dapat disesuaikan dengan berbagai tugas.
PaliGemma FT - Model berorientasi riset yang disesuaikan dengan set data riset tertentu.
Gabungan PaliGemma - Model yang disesuaikan dengan campuran tugas yang dapat digunakan secara langsung untuk kasus penggunaan umum.

Manfaat utamanya meliputi:

Kemampuan multimodal

Menangani input gambar dan teks secara bersamaan.
Model dasar serbaguna

Dapat disesuaikan pada berbagai tugas bahasa visi.
Eksplorasi langsung

Dilengkapi dengan checkpoint yang disesuaikan dengan campuran tugas untuk penggunaan riset langsung.

PaliGemma

Kemampuan multimodal

Model dasar serbaguna

Eksplorasi langsung

Pelajari lebih lanjut

Jalankan di Colab

Menyesuaikan di Colab

Lihat di Kaggle