Explora las capacidades de visión con la API de Gemini

Los modelos de Gemini pueden procesar imágenes y videos, lo que permite muchos casos de uso pioneros para desarrolladores que, históricamente, habrían requerido modelos específicos de dominio. Estas son algunas de las capacidades de visión de Gemini:

  • Agrega leyendas y responde preguntas sobre imágenes
  • Transcribe y razona sobre archivos PDF, incluidos hasta 2 millones de tokens
  • Describir, segmentar y extraer información de videos de hasta 90 minutos de duración
  • Detecta objetos en una imagen y muestra las coordenadas del cuadro delimitador

Gemini se creó para ser multimodal desde cero y seguimos ampliando los límites de lo posible.

¿Qué sigue?

En esta guía, se muestra cómo subir archivos de imagen y video con la API de File y, luego, generar resultados de texto a partir de entradas de imagen y video. Para obtener más información, consulta los siguientes recursos:

  • Estrategias de indicaciones de archivos: La API de Gemini admite indicaciones con datos de texto, imagen, audio y video, también conocidos como indicaciones multimodales.
  • Instrucciones del sistema: Las instrucciones del sistema te permiten dirigir el comportamiento del modelo según tus necesidades y casos de uso específicos.
  • Orientación de seguridad: A veces, los modelos de IA generativa producen resultados inesperados, como resultados imprecisos, sesgados o ofensivos. El procesamiento posterior y la evaluación humana son esenciales para limitar el riesgo de daños que pueden causar estos resultados.