Compartilhar

29 de agosto de 2025

InstaLILY: um mecanismo de pesquisa empresarial com tecnologia do Gemini

Amit Shah

CEO e cofundador da Instalily.ai.

Matt Ridenour

Head de Accelerator & Startup Ecosystem USA, Google

Imagem principal da demonstração do AgentOps

Os agentes de IA empresariais que automatizam fluxos de trabalho complexos, como vendas B2B ou manutenção industrial, exigem modelos treinados em grandes quantidades de dados de alta qualidade e específicos do domínio. Para muitas empresas, a criação desses dados é um gargalo principal, já que a rotulagem manual é lenta e cara, e os modelos genéricos podem não ter a nuance necessária.

A InstaLILY AI, uma plataforma empresarial para agentes de IA autônomos e verticais, ajuda as empresas a automatizar e executar fluxos de trabalho complexos em vendas, serviços e operações. Para um dos clientes, a PartsTown, eles precisavam criar um mecanismo de pesquisa em tempo real para que os agentes de IA encontrassem instantaneamente técnicos de serviços de campo com peças de reposição específicas de um catálogo de mais de cinco milhões de itens. Isso exigiu uma maneira escalonável de gerar milhões de rótulos de alta qualidade para treinamento de modelos.

Para resolver isso, a IA do InstaLILY desenvolveu um pipeline de geração de dados sintéticos de várias etapas. O pipeline usa uma arquitetura professor-aluno, com o Gemini 2.5 Pro atuando como o modelo "professor" para gerar dados de treinamento padrão-ouro e um modelo Gemma refinado como o "aluno" para permitir uma implantação de produção escalonável e de baixo custo.

O desafio de criar dados de treinamento especializados em escala

O núcleo do mecanismo de pesquisa de peças é um modelo de relevância que conecta a consulta de um técnico de serviço (por exemplo, "compressor para uma geladeira Northland") até o número de peça exato. O treinamento desse modelo exigiu um conjunto de dados enorme de pares de partes de consultas.

A IA do InstaLILY enfrentou vários desafios com métodos tradicionais:

  • Escalonabilidade:não era viável rotular manualmente milhões de linhas de ordens de serviço.
  • Custo e qualidade:usar outros modelos de fronteira para rotulagem era três vezes mais caro e resultou em taxas de concordância 15% menores em comparação com a solução final.
  • Performance:uma pesquisa dinâmica com tecnologia de LLM seria muito lenta. Os testes iniciais mostraram uma latência de dois minutos e a incapacidade de processar as mais de 500 consultas por segundo (QPS) necessárias na produção.


Eles precisavam de um sistema que pudesse gerar dados de alta qualidade de maneira econômica, resultando em um modelo final rápido e preciso.

Um pipeline de três estágios com o Gemini e a Gemma

A InstaLILY AI projetou um pipeline de três estágios que usa o raciocínio avançado do Gemini 2.5 Pro para criar rótulos de alta qualidade e depois destila esse conhecimento em modelos menores e mais eficientes para produção.

O pipeline funciona da seguinte maneira:

  • Geração de dados sintéticos (modelo professor): o Gemini 2.5 Pro gera rótulos padrão ouro para pares de partes de consulta. Para alcançar alta precisão, a IA do InstaLILY usa o raciocínio de cadeia de pensamento de várias perspectivas (Multi-CoT), pedindo ao modelo para analisar partes de vários ângulos, incluindo marca, categoria, especificações e lógica de negócios complexa para compatibilidade. Essa abordagem alcançou 94% de concordância com especialistas humanos em um conjunto de testes cego.
  • Treinamento do modelo estudante:os rótulos de alta qualidade do Gemini 2.5 Pro são usados para ajustar o Gemma-7B. A IA do InstaLILY usou várias técnicas para otimizar o modelo de estudante, incluindo a otimização de preferência direta (DPO, na sigla em inglês), que reduziu os falsos positivos em 40%. Eles também criaram um conjunto de três variantes ajustadas da Gemma que votam em cada amostra, aumentando a precisão do rótulo para 96%.
  • Serviço de produção:o conhecimento dos modelos Gemma é destilado em um modelo BERT leve (110 milhões de parâmetros) para o ambiente de produção final. Esse modelo menor mantém uma acurácia de pontuação F1 de 89% ao atender solicitações a 600 QPS.


"Sem a rotulagem de cadeia de pensamento do LLM para inicializar nosso modelo refinado, teríamos que rotular manualmente uma enorme quantidade de dados", disse a equipe de IA do InstaLILY. "O Gemini acelerou significativamente a preparação de dados e nos permitiu realocar centenas de horas de engenharia para tarefas de maior impacto, como ajuste fino e orquestração."

Redução de 99,8% na latência e de 98,3% nos custos

A arquitetura professor-aluno trouxe melhorias significativas em velocidade, custo e precisão.

O sistema final alcançou:

  • Redução na latência da consulta:de 2 minutos para 0,2 segundo (uma melhoria de 99,8%).
  • Redução do custo de veiculação:de US $0,12 para US $0,002 por mil consultas (uma redução de 98,3%).
  • Alta acurácia:pontuação F1 de aproximadamente 90% em um conjunto de dados de validação independente.


O processo de desenvolvimento também foi acelerado. A equipe criou um protótipo em 48 horas e um pipeline pronto para produção em quatro semanas. Eles estimam que esse processo teria levado de três a quatro meses sem o ecossistema Gemini e Gemma.

"Fazer parte do Google Accelerator abriu toda essa abordagem", disse Amit Shah, fundador e CEO da InstaLILY. "O suporte técnico prático, o acesso antecipado ao Gemini e ao Gemma e os créditos generosos do Cloud nos ajudaram a passar do protótipo para a produção em semanas, não em meses."

Desenvolvimento futuro com aprendizado multimodal e contínuo

A InstaLILY AI planeja ampliar os recursos dos agentes de IA incorporando os recursos multimodais do Gemini. Isso permite que os técnicos façam upload de uma foto de uma unidade quebrada para ajudar no diagnóstico. Eles também estão desenvolvendo um serviço de aprendizado ativo contínuo que sinaliza consultas ativas de baixa confiança, as encaminha para o Gemini para anotação e treina novamente os modelos de produção semanalmente.

O sucesso do mecanismo de pesquisa da IA InstaLILY para os agentes de IA demonstra como uma arquitetura professor-aluno, que combina o poder de raciocínio do Gemini 2.5 Pro com a eficiência dos modelos Gemma ajustados, pode resolver desafios complexos de geração de dados e permitir aplicativos de IA escalonáveis e de alta performance.

Para começar a criar com os modelos do Gemini e da Gemma, leia nossa documentação da API.