2.0 Flash
Nosso modelo multimodal mais recente, com recursos de última geração e recursos aprimorados
- Inserir áudio, imagens, vídeo e texto e receber respostas em texto
- Gerar código, extrair dados, analisar arquivos, gerar gráficos e muito mais
- Baixa latência, desempenho aprimorado e recursos desenvolvidos para oferecer experiências de agentes
2.0 Flash-Lite
Um modelo Gemini 2.0 Flash otimizado para eficiência de custo e baixa latência
- Inserir áudio, imagens, vídeo e texto e receber respostas em texto
- Supera o Flash 1.5 na maioria dos comparativos de mercado
- Uma janela de contexto com 1 milhão de tokens e entrada multimodal, como o Flash 2.0
Variantes de modelo
A API Gemini oferece diferentes modelos otimizados para casos de uso específicos. Confira uma breve descrição das variantes disponíveis do Gemini:
Variante de modelo | Entrada(s) | Saída | Otimizado para |
---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash |
Áudio, imagens, vídeos e texto | Texto, imagens (em breve) e áudio (em breve) | Recursos de última geração, velocidade e geração multimodal para uma variedade de tarefas |
Pré-lançamento do Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite-preview-02-05 |
Áudio, imagens, vídeos e texto | Texto | Um modelo Gemini 2.0 Flash otimizado para eficiência de custo e baixa latência |
Gemini 1.5 Flash
gemini-1.5-flash |
Áudio, imagens, vídeos e texto | Texto | Desempenho rápido e versátil em várias tarefas |
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b |
Áudio, imagens, vídeos e texto | Texto | Tarefas de alto volume e baixa inteligência |
Gemini 1.5 Pro
gemini-1.5-pro |
Áudio, imagens, vídeos e texto | Texto | Tarefas de raciocínio complexas que exigem mais inteligência |
Incorporação de texto
text-embedding-004 |
Texto | Embeddings de textos | Como medir a relação entre strings de texto |
Você pode conferir os limites de taxa de cada modelo na página de limites de taxa.
Gemini 2.0 Flash
O Gemini 2.0 Flash oferece recursos de última geração e recursos aprimorados, incluindo velocidade superior, uso de ferramentas nativas, geração multimodal e uma janela de contexto de 1 milhão de tokens.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-2.0-flash |
tipos de dados com suporte |
Entradas (link em inglês) Áudio, imagens, vídeo e texto Saída Áudio (em breve), imagens (em breve) e texto |
[*] | Limites de token
Limite de tokens de entrada 1.048.576 Limite de token de saída 8.192 |
(em inglês) |
Saídas estruturadas Compatível Armazenamento em cache Em breve Ajuste incompatível Chamadas de função Compatível Execução do código Compatível Pesquisa Compatível Geração de imagens Em breve Uso de ferramentas nativas Compatível Geração de áudio Em breve API Multimodal Live Em breve |
Versões |
|
Atualização mais recente | Fevereiro de 2025 |
Limite de conhecimento | Agosto de 2024 |
Prévia do Gemini 2.0 Flash-Lite
Um modelo Gemini 2.0 Flash otimizado para eficiência de custo e baixa latência.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-2.0-flash-lite-preview-02-05 |
tipos de dados com suporte |
Entradas (link em inglês) Áudio, imagens, vídeo e texto Saída Texto |
[*] | Limites de token
Limite de tokens de entrada 1.048.576 Limite de token de saída 8.192 |
(em inglês) |
Saídas estruturadas Compatível Armazenamento em cache incompatível Ajuste incompatível Chamadas de função incompatível Execução do código incompatível Pesquisa incompatível Geração de imagens incompatível Uso de ferramentas nativas incompatível Geração de áudio incompatível API Multimodal Live incompatível |
Versões |
|
Atualização mais recente | Fevereiro de 2025 |
Limite de conhecimento | Agosto de 2024 |
Gemini 1.5 Flash
O Gemini 1.5 Flash é um modelo multimodal rápido e versátil para escalonamento em diversas tarefas.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.5-flash |
tipos de dados com suporte |
Entradas (link em inglês) Áudio, imagens, vídeo e texto Saída Texto |
[*] | Limites de token
Limite de tokens de entrada 1.048.576 Limite de token de saída 8.192 |
Especificações de áudio/visual |
Número máximo de imagens por comando 3.600 Duração máxima do vídeo 1 hora Duração máxima do áudio Aproximadamente 9,5 horas |
(em inglês) |
Instruções do sistema Compatível Modo JSON Compatível Esquema JSON Compatível Configurações de segurança ajustáveis Compatível Armazenamento em cache Compatível Ajuste Compatível Chamadas de função Compatível Execução do código Compatível Streaming bidirecional incompatível |
Versões |
|
Atualização mais recente | Setembro de 2024 |
Gemini 1.5 Flash-8B
O Gemini 1.5 Flash-8B é um modelo pequeno projetado para tarefas de baixa inteligência.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.5-flash-8b |
tipos de dados com suporte |
Entradas (link em inglês) Áudio, imagens, vídeo e texto Saída Texto |
[*] | Limites de token
Limite de tokens de entrada 1.048.576 Limite de token de saída 8.192 |
Especificações de áudio/visual |
Número máximo de imagens por comando 3.600 Duração máxima do vídeo 1 hora Duração máxima do áudio Aproximadamente 9,5 horas |
(em inglês) |
Instruções do sistema Compatível Modo JSON Compatível Esquema JSON Compatível Configurações de segurança ajustáveis Compatível Armazenamento em cache Compatível Ajuste Compatível Chamadas de função Compatível Execução do código Compatível Streaming bidirecional incompatível |
Versões |
|
Atualização mais recente | Outubro de 2024 |
Gemini 1.5 Pro
O Gemini 1.5 Pro é um modelo multimodal de tamanho médio otimizado para uma ampla variedade de tarefas de raciocínio. O 1.5 Pro pode processar grandes quantidades de dados de uma vez, incluindo duas horas de vídeo, 19 horas de áudio, bases de código com 60.000 linhas de código ou 2.000 páginas de texto.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.5-pro |
tipos de dados com suporte |
Entradas (link em inglês) Áudio, imagens, vídeo e texto Saída Texto |
[*] | Limites de token
Limite de tokens de entrada 2.097.152 Limite de token de saída 8.192 |
Especificações de áudio/visual |
Número máximo de imagens por comando 7.200 Duração máxima do vídeo 2 horas Duração máxima do áudio Aproximadamente 19 horas |
(em inglês) |
Instruções do sistema Compatível Modo JSON Compatível Esquema JSON Compatível Configurações de segurança ajustáveis Compatível Armazenamento em cache Compatível Ajuste incompatível Chamadas de função Compatível Execução do código Compatível Streaming bidirecional incompatível |
Versões |
|
Atualização mais recente | Setembro de 2024 |
Incorporação de texto e embedding
Incorporação de texto
As incorporações de texto são usadas para medir a relação entre strings e são amplamente utilizadas em muitos aplicativos de IA.
O text-embedding-004
alcança um desempenho de recuperação mais forte e supera os modelos atuais
com dimensões semelhantes, nos comparativos de referência de incorporação de MTEB padrão.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo |
API Gemini
|
tipos de dados com suporte |
Entrada Texto Saída Embeddings de textos |
[*] | Limites de token
Limite de tokens de entrada 2.048 Tamanho da dimensão de saída 768 |
[**] | Limites de taxa1.500 solicitações por minuto |
Configurações de segurança ajustáveis | incompatível |
Atualização mais recente | Abril de 2024 |
Incorporação
Você pode usar o modelo de embedding para gerar embeddings de texto para textos de entrada.
O modelo de embedding é otimizado para criar embeddings com 768 dimensões para textos de até 2.048 tokens.
Detalhes do modelo de embedding
Propriedade | Descrição |
---|---|
Código do modelo |
models/embedding-001
|
tipos de dados com suporte |
Entrada Texto Saída Embeddings de textos |
[*] | Limites de token
Limite de tokens de entrada 2.048 Tamanho da dimensão de saída 768 |
[**] | Limites de taxa1.500 solicitações por minuto |
Configurações de segurança ajustáveis | incompatível |
Atualização mais recente | Dezembro de 2023 |
AQA
É possível usar o modelo AQA para realizar tarefas relacionadas a respostas a perguntas atribuídas (AQA, na sigla em inglês) em um documento, corpus ou conjunto de passagens. O modelo AQA retorna respostas a perguntas com base nas fontes fornecidas, além de estimar a probabilidade de resposta.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/aqa |
tipos de dados com suporte |
Entrada Texto Saída Texto |
Idioma com suporte | Inglês |
[*] | Limites de token
Limite de tokens de entrada 7.168 Limite de token de saída 1.024 |
[**] | Limites de taxa1.500 solicitações por minuto |
Configurações de segurança ajustáveis | Compatível |
Atualização mais recente | Dezembro de 2023 |
Consulte os exemplos para conhecer os recursos dessas variações de modelo.
[*] Um token equivale a cerca de quatro caracteres para modelos do Gemini. 100 tokens equivalem a cerca de 60 a 80 palavras em inglês.
Padrões de nome de versão do modelo
Os modelos do Gemini estão disponíveis nas versões de pré-lançamento ou estáveis. No seu código, use um dos formatos de nome de modelo a seguir para especificar qual modelo e versão você quer usar.
Mais recente:aponta para a versão mais recente do modelo para uma geração e variação especificadas. O modelo subjacente é atualizado regularmente e pode ser uma versão de pré-lançamento. Apenas apps de teste exploratório e protótipos devem usar esse alias.
Para especificar a versão mais recente, use o seguinte padrão:
<model>-<generation>-<variation>-latest
. Por exemplo,gemini-1.0-pro-latest
.Mais recente estável:aponta para a versão estável mais recente lançada para a geração e variação de modelo especificadas.
Para especificar a versão estável mais recente, use o seguinte padrão:
<model>-<generation>-<variation>
. Por exemplo,gemini-1.0-pro
.Estável:aponta para um modelo estável específico. Os modelos estáveis não mudam. A maioria dos apps de produção precisa usar um modelo estável específico.
Para especificar uma versão estável, use o seguinte padrão:
<model>-<generation>-<variation>-<version>
. Por exemplo,gemini-1.0-pro-001
.Experimental:aponta para um modelo experimental disponível na prévia, conforme definido nos Termos, o que significa que ele não é para uso em produção. Lançamos modelos experimentais para coletar feedback, disponibilizar nossas atualizações mais recentes aos desenvolvedores rapidamente e destacar o ritmo de inovação do Google. O que aprendemos com os lançamentos experimentais nos ajuda a definir como disponibilizar modelos a um público maior. Um modelo experimental pode ser trocado por outro sem aviso prévio. Não garantimos que um modelo experimental se torne um modelo estável no futuro.
Para especificar uma versão experimental, use o seguinte padrão:
<model>-<generation>-<variation>-<version>
. Por exemplo,gemini-exp-1121
.
Idiomas disponíveis
Os modelos do Gemini são treinados para funcionar com os seguintes idiomas:
- Árabe (
ar
) - Bengalês (
bn
) - Búlgaro (
bg
) - Chinês (simplificado e tradicional) (
zh
) - Croata (
hr
) - República Tcheca (
cs
) - Coreano (
da
) - Holandês (
nl
) - Inglês (
en
) - Estoniano (
et
) - Finlandês (
fi
) - Francês (
fr
) - Alemão (
de
) - Grego (
el
) - Hebraico (
iw
) - Hindi (
hi
) - Húngaro (
hu
) - Indonésio (
id
) - Italiano (
it
) - Japonês (
ja
) - Coreano (
ko
) - Letão (
lv
) - Lituano (
lt
) - Norueguês (
no
) - Polonês (
pl
) - Português (
pt
) - Romeno (
ro
) - Russo (
ru
) - Sérvio (
sr
) - Eslovaco (
sk
) - Esloveno (
sl
) - Espanhol (
es
) - Suaíli (
sw
) - Sueco (
sv
) - Tailandês (
th
) - Turco (
tr
) - Ucraniano (
uk
) - Vietnamita (
vi
)