Gemini API ile görüş özelliklerini keşfedin

Gemini modelleri, resimleri ve videoları işleyebilir. Bu sayede, geçmişte alana özgü modeller gerektiren birçok yenilikçi geliştirici kullanım alanı mümkün olur. Gemini'nin görüntüleme özelliklerinden bazıları şunlardır:

  • Resimlerle ilgili soruları yanıtlama ve resimlere altyazı ekleme
  • 2 milyon jetona kadar olan PDF'leri metne dönüştürme ve bunlarla ilgili çıkarım yapma
  • 90 dakikaya kadar uzunluktaki videoları tanımlama, segmentlere ayırma ve videolardan bilgi ayıklama
  • Bir resimdeki nesneleri algılayıp bu nesnelerin sınırlayıcı kutu koordinatlarını döndürme

Gemini sıfırdan çok modlu olacak şekilde tasarlandı ve yapabileceklerimizin sınırlarını zorlamaya devam ediyoruz.

Sırada ne var?

Bu kılavuzda, File API'yi kullanarak resim ve video dosyalarının nasıl yükleneceği ve ardından resim ve video girişlerinden metin çıkışlarının nasıl oluşturulacağı gösterilmektedir. Daha fazla bilgi edinmek için aşağıdaki kaynakları inceleyin:

  • Dosya istemi stratejileri: Gemini API, çoklu formatlı istem olarak da bilinen metin, resim, ses ve video verileriyle istemleri destekler.
  • Sistem talimatları: Sistem talimatları, modelin davranışını belirli ihtiyaçlarınıza ve kullanım alanlarınıza göre yönlendirmenize olanak tanır.
  • Güvenlik kılavuzu: Üretken yapay zeka modelleri bazen yanlış, önyargılı veya rahatsız edici gibi beklenmedik çıkışlar üretebilir. Bu tür çıkışlardan kaynaklanan zarar riskini sınırlamak için işlem sonrası ve gerçek kişiler tarafından değerlendirme yapılması önemlidir.