Explore as capacidades visuais com a API Gemini

Os modelos Gemini são capazes de processar imagens e vídeos, permitindo muitos casos de uso de desenvolvedores de fronteira que historicamente exigiriam modelos específicos de domínio. Alguns dos recursos de visão do Gemini incluem:

  • Adicionar legendas e responder a perguntas sobre imagens
  • Transcreva e extraia informações de PDFs, incluindo até 2 milhões de tokens
  • Descrever, segmentar e extrair informações de vídeos com até 90 minutos de duração
  • Detectar objetos em uma imagem e retornar as coordenadas da caixa delimitadora

O Gemini foi criado para ser multimodais desde o início, e continuamos avançando os limites do que é possível.

A seguir

Este guia mostra como fazer upload de arquivos de imagem e vídeo usando a API File e como gerar saídas de texto de entradas de imagem e vídeo. Para saber mais, confira estes recursos:

  • Estratégias de solicitação de arquivos: a API Gemini oferece suporte a solicitações com dados de texto, imagem, áudio e vídeo, também conhecidas como solicitações multimodais.
  • Instruções do sistema: as instruções do sistema permitem orientar o comportamento do modelo com base nas suas necessidades e casos de uso específicos.
  • Orientações de segurança: às vezes, os modelos de IA generativa produzem resultados inesperados, como respostas imprecisas, parciais ou ofensivas. O pós-processamento e a avaliação humana são essenciais para limitar o risco de danos causados por essas saídas.