Model Gemini dapat memproses gambar dan video, sehingga memungkinkan banyak kasus penggunaan developer yang secara historis memerlukan model khusus domain. Beberapa kemampuan visi Gemini mencakup kemampuan untuk:
- Memberi teks dan menjawab pertanyaan tentang gambar
- Mentranskripsi dan melakukan penalaran atas PDF, termasuk hingga 2 juta token
- Menjelaskan, menyegmentasikan, dan mengekstrak informasi dari video berdurasi hingga 90 menit
- Mendeteksi objek dalam gambar dan menampilkan koordinat kotak pembatas untuk objek tersebut
Gemini dibuat agar bersifat multimodal sejak awal dan kami terus mendorong batas kemampuan yang ada.
Langkah berikutnya
Panduan ini menunjukkan cara mengupload file gambar dan video menggunakan File API, lalu menghasilkan output teks dari input gambar dan video. Untuk mempelajari lebih lanjut, lihat referensi berikut:
- Strategi perintah file: Gemini API mendukung perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
- Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan tertentu.
- Panduan keamanan: Terkadang model AI generatif menghasilkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pascapemrosesan dan evaluasi manusia sangat penting untuk membatasi risiko bahaya dari output tersebut.