Condividi

29 AGOSTO 2025

InstaLILY: un motore di ricerca aziendale basato su agenti e su Gemini

Amit Shah

CEO e cofondatore, Instalily.ai

Matt Ridenour

Head of Accelerator & Startup Ecosystem USA, Google

Immagine hero della vetrina AgentOps

Gli agenti AI aziendali che automatizzano workflow complessi, come le vendite B2B o la manutenzione industriale, richiedono modelli addestrati su grandi quantità di dati di alta qualità specifici per il dominio. Per molte aziende, la creazione di questi dati è un collo di bottiglia principale, in quanto l'etichettatura manuale è lenta e costosa e i modelli generici possono mancare della sfumatura necessaria.

InstaLILY AI, una piattaforma aziendale per agenti AI autonomi e verticali, aiuta le aziende ad automatizzare ed eseguire workflow complessi in vendite, assistenza e operazioni. Per uno dei suoi clienti, PartsTown, aveva bisogno di creare un motore di ricerca in tempo reale per gli agenti AI in modo da abbinare immediatamente i tecnici dell'assistenza sul campo a parti di ricambio specifiche di un catalogo di oltre 5 milioni di articoli. Ciò ha richiesto un modo scalabile per generare milioni di etichette di alta qualità per l'addestramento del modello.

Per risolvere questo problema, InstaLILY AI ha sviluppato una pipeline di generazione di dati sintetici in più fasi. La pipeline utilizza un'architettura insegnante-studente, con Gemini 2.5 Pro che funge da modello "insegnante" per generare dati di addestramento standard e un modello Gemma ottimizzato che funge da "studente" per consentire un deployment di produzione scalabile ed economico.

La sfida di creare dati di addestramento specializzati su larga scala

Il cuore del motore di ricerca dei ricambi è un modello di pertinenza che collega la query di un tecnico dell'assistenza (ad es. "compressore per un frigorifero Northland") al codice prodotto esatto. L'addestramento di questo modello ha richiesto un enorme set di dati di coppie di parti di query.

L'AI di InstaLILY ha dovuto affrontare diverse sfide con i metodi tradizionali:

  • Scalabilità:l'etichettatura manuale di milioni di righe di ordini di lavoro non era fattibile.
  • Costo e qualità: l'utilizzo di altri modelli all'avanguardia per l'etichettatura è risultato tre volte più costoso e ha comportato tassi di concordanza inferiori del 15% rispetto alla soluzione finale.
  • Rendimento:una ricerca live basata su LLM sarebbe troppo lenta, con test iniziali che mostrano una latenza di due minuti e l'impossibilità di gestire le oltre 500 query al secondo (QPS) richieste in produzione.


Avevano bisogno di un sistema in grado di generare dati di alta qualità in modo conveniente, portando a un modello finale rapido e preciso.

Una pipeline in tre fasi con Gemini e Gemma

InstaLILY AI ha progettato una pipeline in tre fasi che utilizza il ragionamento avanzato di Gemini 2.5 Pro per creare etichette di alta qualità e poi distilla queste conoscenze in modelli più piccoli ed efficienti per la produzione.

La pipeline funziona nel seguente modo:

  • Generazione di dati sintetici (modello insegnante): Gemini 2.5 Pro genera etichette standard di riferimento per le coppie di parti di query. Per ottenere un'elevata precisione, l'AI di InstaLILY utilizza il ragionamento Multi-CoT (Multi-Chain-of-Thought), spingendo il modello ad analizzare le parti da più angolazioni, tra cui brand, categoria, specifiche e logica aziendale complessa per la compatibilità. Questo approccio ha raggiunto un accordo del 94% con gli esperti umani in un set di test cieco.
  • Addestramento del modello studente: le etichette di alta qualità di Gemini 2.5 Pro vengono utilizzate per ottimizzare Gemma-7B. InstaLILY AI ha utilizzato diverse tecniche per ottimizzare il modello dello studente, tra cui l'ottimizzazione delle preferenze dirette (DPO), che ha ridotto i falsi positivi del 40%. Hanno anche creato un insieme di tre varianti di Gemma ottimizzate che votano per ogni campione, aumentando la precisione delle etichette al 96%.
  • Servizio di produzione:le conoscenze dei modelli Gemma vengono distillate in un modello BERT leggero (110 milioni di parametri) per l'ambiente di produzione finale. Questo modello più piccolo mantiene un'accuratezza del punteggio F1 dell'89% durante la gestione delle richieste a 600 QPS.


"Senza l'etichettatura della catena di pensiero degli LLM per il bootstrap del nostro modello distillato, dovremmo taggare manualmente un'enorme quantità di dati", ha dichiarato il team di InstaLILY AI. "Gemini ha accelerato in modo significativo la preparazione dei dati e ci ha permesso di riassegnare centinaia di ore di ingegneria ad attività a maggiore leva finanziaria come il perfezionamento e l'orchestrazione".

Riduzione della latenza del 99,8% e dei costi del 98,3%

L'architettura insegnante-studente ha apportato miglioramenti significativi in termini di velocità, costi e precisione.

Il sistema finale ha raggiunto:

  • Riduzione della latenza delle query:da 2 minuti a 0,2 secondi (un miglioramento del 99,8%).
  • Riduzione dei costi di pubblicazione:da 0,12 $a 0,002 $per 1000 query (una riduzione del 98,3%).
  • Precisione elevata:punteggio F1 di circa il 90% su un set di dati di test cieco.


Anche il processo di sviluppo è stato accelerato. Il team ha creato un prototipo in 48 ore e una pipeline pronta per la produzione in quattro settimane, un processo che stimano avrebbe richiesto tre o quattro mesi senza l'ecosistema Gemini e Gemma.

"La partecipazione al Google Accelerator ha sbloccato questo intero approccio", ha dichiarato Amit Shah, fondatore e CEO di InstaLILY. "L'assistenza tecnica pratica, l'accesso in anteprima a Gemini e Gemma e i generosi crediti Cloud ci hanno aiutato a passare dal prototipo alla produzione in settimane, non in mesi".

Sviluppo futuro con l'apprendimento multimodale e continuo

InstaLILY AI prevede di espandere le funzionalità dei suoi agenti AI incorporando le funzionalità multimodali di Gemini. In questo modo, i tecnici possono caricare una foto di un'unità rotta per facilitare la diagnosi. Stanno inoltre sviluppando un servizio di apprendimento attivo continuo che contrassegna le query live a bassa confidenza, le indirizza a Gemini per l'annotazione e riaddestra i modelli di produzione settimanalmente.

Il successo del motore di ricerca di InstaLILY AI per i suoi agenti AI dimostra come un'architettura insegnante-studente, che combina la potenza di ragionamento di Gemini 2.5 Pro con l'efficienza dei modelli Gemma ottimizzati, possa risolvere complesse sfide di generazione di dati e consentire applicazioni di AI scalabili e ad alte prestazioni.

Per iniziare a creare con i modelli Gemini e Gemma, leggi la nostra documentazione dell'API.