Gemini API, uzun dokümanlar (1.000 sayfaya kadar) dahil olmak üzere PDF girişini destekler. Gemini modelleri, PDF'leri yerel görüntüleme ile işler ve bu nedenle dokümanlar içindeki hem metin hem de resim içeriklerini anlayabilir. Gemini modelleri, yerel PDF görüntüleme desteğiyle şunları yapabilir:
- Dokümanlar içindeki diyagramları, grafikleri ve tabloları analiz etme
- Bilgileri yapılandırılmış çıkış biçimlerine ayıklayın
- Dokümanlardaki görsel ve metin içerikleriyle ilgili soruları yanıtlama
- Belgeleri özetleme
- Alttaki uygulamalarda kullanılmak üzere doküman içeriğini (ör. HTML'ye) düzen ve biçimlendirmeyi koruyarak metne dönüştürme
Bu eğitimde, PDF belgelerini işlemek için Gemini API'nin kullanılabileceği bazı yöntemler gösterilmektedir.
Teknik ayrıntılar
Gemini en fazla 1.000 belge sayfasını destekler. Doküman sayfaları aşağıdaki metin veri MIME türlerinden birinde olmalıdır:
- PDF -
application/pdf
- JavaScript -
application/x-javascript
,text/javascript
- Python:
application/x-python
,text/x-python
- TXT -
text/plain
- HTML -
text/html
- CSS -
text/css
- İndirim -
text/md
- CSV -
text/csv
- XML -
text/xml
- RTF -
text/rtf
Her belge sayfası 258 jetona eşittir.
Bir belgedeki piksel sayısıyla ilgili olarak modelin bağlam penceresinden başka belirli bir sınırlama yoktur. Daha büyük sayfalar, orijinal en boy oranlarını koruyarak maksimum 3072x3072 çözünürlükte küçültülür. Daha küçük sayfalar ise 768x768 piksele kadar büyütülür. Daha düşük boyutlardaki sayfalar için bant genişliği dışında bir maliyet azaltımı veya daha yüksek çözünürlükteki sayfalar için performans iyileştirmesi yoktur.
En iyi sonuçlar için:
- Sayfaları yüklemeden önce doğru yönde döndürün.
- Bulanık sayfalardan kaçının.
- Tek sayfa kullanıyorsanız metin istemini sayfanın sonuna yerleştirin.
Sırada ne var?
Daha fazla bilgi edinmek için aşağıdaki kaynakları inceleyin:
- Dosya istemi stratejileri: Gemini API, çoklu formatlı istem olarak da bilinen metin, resim, ses ve video verileriyle istemleri destekler.
- Sistem talimatları: Sistem talimatları, modelin davranışını belirli ihtiyaçlarınıza ve kullanım alanlarınıza göre yönlendirmenize olanak tanır.