共有

2025 年 8 月 29 日

InstaLILY: Gemini を活用したエージェント型のエンタープライズ検索エンジン

Amit Shah

Instalily.ai CEO 兼共同創業者

Matt Ridenour

Google、米国 Accelerator およびスタートアップ エコシステム担当責任者

AgentOps のショーケースのヒーロー

B2B 販売や産業メンテナンスなどの複雑なワークフローを自動化するエンタープライズ AI エージェントには、高品質のドメイン固有のデータでトレーニングされたモデルが大量に必要です。多くの企業にとって、このデータの作成は大きなボトルネックとなっています。手動でのラベル付けは時間がかかり、費用もかさみます。また、汎用モデルでは必要なニュアンスが欠けている可能性があります。

自律型で垂直型の AI エージェント向けのエンタープライズ プラットフォームである InstaLILY AI は、企業が営業、サービス、運用の複雑なワークフローを自動化して実行するのに役立ちます。PartsTown というクライアントのために、同社は AI エージェント用のリアルタイム検索エンジンを構築する必要がありました。このエンジンは、500 万点を超えるカタログの中から、フィールド サービス技術者と特定の交換部品を瞬時にマッチングさせるものです。そのため、モデルのトレーニング用に数百万個の高品質なラベルを生成できるスケーラブルな方法が必要でした。

この問題を解決するために、InstaLILY AI はマルチステージの合成データ生成パイプラインを開発しました。このパイプラインは、教師と生徒のアーキテクチャを使用します。Gemini 2.5 Pro が「教師」モデルとして機能してゴールド スタンダードのトレーニング データを生成し、ファインチューニングされた Gemma モデルが「生徒」として機能して、スケーラブルで低コストのプロダクション環境へのデプロイを可能にします。

大規模な専門的なトレーニング データを作成する際の課題

部品検索エンジンの核となるのは、サービス技術者のクエリ(「「Northland 冷蔵庫のコンプレッサー」など)を正確な部品番号に変換します。このモデルのトレーニングには、クエリと部分のペアの巨大なデータセットが必要でした。

InstaLILY AI は、従来の方法でいくつかの課題に直面していました。

  • スケーラビリティ: 数百万件の作業指示書の行を手動でラベル付けすることは現実的ではありませんでした。
  • 費用と品質: ラベリングに他のフロンティア モデルを使用すると、最終的なソリューションと比較して費用が 3 倍になり、一致率が 15% 低くなりました。
  • パフォーマンス: ライブ LLM を利用した検索は遅すぎます。初期テストでは 2 分のレイテンシが確認されており、本番環境で必要な 500 を超える秒間クエリ数(QPS)を処理できません。


同社は、費用対効果の高い方法で高品質のデータを生成し、迅速かつ正確な最終モデルを構築できるシステムを必要としていました。

Gemini と Gemma を使用した 3 段階のパイプライン

InstaLILY AI は、Gemini 2.5 Pro の高度な推論を使用して高品質のラベルを作成し、その知識をより小さく効率的なモデルに抽出して本番環境で使用する 3 段階のパイプラインを設計しました。

パイプラインは次のように動作します。

  • 合成データ生成(教師モデル): Gemini 2.5 Pro は、クエリとパートのペアのゴールド スタンダード ラベルを生成します。高い精度を実現するために、InstaLILY AI は多視点連鎖思考(Multi-CoT)推論を使用し、モデルにブランド、カテゴリ、仕様、互換性の複雑なビジネス ロジックなど、複数の角度からパーツを分析するよう促します。このアプローチでは、ブラインド テストセットで人間の専門家と 94% の一致率を達成しました。
  • 生徒モデルのトレーニング: Gemini 2.5 Pro の高品質なラベルを使用して、Gemma-7B をファイン チューニングします。InstaLILY AI は、Direct Preference Optimization(DPO)など、生徒モデルを最適化するためのいくつかの手法を使用しました。これにより、誤検出が 40% 削減されました。また、各サンプルで投票する 3 つのファインチューニングされた Gemma バリアントのアンサンブルを作成し、ラベルの精度を 96% に高めました。
  • 本番環境でのサービング: Gemma モデルの知識は、最終的な本番環境用に軽量の BERT モデル(1 億 1,000 万個のパラメータ)に抽出されます。この小規模なモデルは、600 QPS でリクエストを処理しながら、89% の F1 スコア精度を維持します。


「LLM の連鎖思考ラベリングで抽出モデルをブートストラップしなければ、膨大な量のデータに手動でタグ付けすることになっていたでしょう」と、InstaLILY AI チームは述べています。「Gemini によってデータ準備が大幅に高速化され、数百時間ものエンジニアリング時間をファインチューニングやオーケストレーションなどのより重要なタスクに再割り当てできるようになりました。」

レイテンシを 99.8%、費用を 98.3% 削減

教師と生徒のアーキテクチャにより、速度、費用、精度が大幅に向上しました。

最終的なシステムは次のとおりです。

  • クエリ レイテンシの短縮: 2 分から 0.2 秒(99.8% の改善)。
  • サービング費用削減: 1,000 件のクエリあたり $0.12 から $0.002 に削減(98.3% の削減)。
  • 高精度: ブラインド ホールドアウト データセットで約 90% の F1 スコア。


開発プロセスも加速しました。チームは 48 時間でプロトタイプを構築し、4 週間で本番環境対応のパイプラインを構築しました。Gemini と Gemma のエコシステムがなければ、3 ~ 4 か月かかっていたと推定しています。

InstaLILY の創業者兼 CEO である Amit Shah 氏は、「Google Accelerator に参加したことで、このアプローチ全体が実現しました」と述べています。「実践的な技術サポート、Gemini と Gemma への早期アクセス、豊富な Cloud クレジットのおかげで、数か月ではなく数週間でプロトタイプから本番環境に移行できました。」

マルチモーダルと継続的学習による今後の開発

InstaLILY AI は、Gemini のマルチモーダル機能を組み込むことで、AI エージェントの機能を拡張する予定です。これにより、技術者は故障したユニットの写真をアップロードして、診断に役立てることができます。また、信頼度の低いライブクエリにフラグを設定し、アノテーションのために Gemini に転送し、本番環境モデルを毎週再トレーニングする継続的アクティブ ラーニング サービスも開発しています。

AI エージェント向けの InstaLILY AI の検索エンジンの成功は、Gemini 2.5 Pro の推論能力とファインチューニングされた Gemma モデルの効率性を組み合わせた教師と生徒のアーキテクチャが、複雑なデータ生成の課題を解決し、高性能でスケーラブルな AI アプリケーションを実現できることを示しています。

Gemini モデルと Gemma モデルでの構築を開始するには、API ドキュメントをご覧ください。