Les modèles Gemini sont capables de traiter des images et des vidéos, ce qui permet de répondre à de nombreux cas d'utilisation de pointe qui auraient auparavant nécessité des modèles spécifiques au domaine. Voici quelques-unes des fonctionnalités de vision de Gemini:
- Ajouter des légendes et répondre à des questions sur des images
- Transcrire et raisonner sur des PDF, y compris jusqu'à deux millions de jetons
- Décrire, segmenter et extraire des informations à partir de vidéos de 90 minutes maximum
- Détecter des objets dans une image et renvoyer leurs coordonnées de cadre de délimitation
Gemini a été conçu dès le départ pour être multimodal, et nous continuons de repousser les limites du possible.
Étape suivante
Ce guide explique comment importer des fichiers image et vidéo à l'aide de l'API File, puis générer des sorties textuelles à partir d'entrées image et vidéo. Pour en savoir plus, consultez les ressources suivantes:
- Stratégies d'invite de fichier: l'API Gemini prend en charge les invites avec des données textuelles, des images, des données audio et des données vidéo, également appelées invites multimodales.
- Instructions système: les instructions système vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.
- Conseils de sécurité: Les modèles d'IA générative produisent parfois des résultats inattendus, comme des résultats inexacts, biaisés ou choquants. Le post-traitement et l'évaluation humaine sont essentiels pour limiter le risque de préjudices liés à ces sorties.