I modelli Gemini sono in grado di elaborare immagini e video, consentendo molti casi d'uso per sviluppatori di frontiera che in passato avrebbero richiesto modelli specifici per il dominio. Alcune delle funzionalità di visione di Gemini includono la possibilità di:
- Aggiungere didascalie e rispondere a domande sulle immagini
- Trascrivere e ragionare sui PDF, inclusi fino a 2 milioni di token
- Descrivere, segmentare ed estrarre informazioni da video con una durata massima di 90 minuti
- Rileva gli oggetti in un'immagine e restituisci le coordinate dei relativi riquadri di delimitazione
Gemini è stato progettato da zero per essere multimodale e continuiamo a spingere i confini di ciò che è possibile.
Passaggi successivi
Questa guida mostra come caricare file di immagini e video utilizzando l'API File e poi generare output di testo da input di immagini e video. Per saperne di più, consulta le seguenti risorse:
- Strategie di prompt dei file: l'API Gemini supporta i prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali.
- Istruzioni di sistema: le istruzioni di sistema ti consentono di indirizzare il comportamento del modello in base alle tue esigenze e ai tuoi casi d'uso specifici.
- Indicazioni per la sicurezza: a volte i modelli di IA generativa producono output inaspettati, ad esempio imprecisi, biassati o offensivi. Il post-trattamento e la valutazione umana sono essenziali per limitare il rischio di danni derivanti da questi output.