2024 年 11 月 7 日
Gemini モデルの長いコンテキストで AI コーディング アシスタントを強化する

長いコンテキスト ウィンドウの適用における最もエキサイティングなフロンティアの 1 つは、コードの生成と理解です。大規模なコードベースでは、複雑な関係と依存関係を深く理解する必要がありますが、これは従来の AI モデルでは把握しづらいものです。大きなコンテキスト ウィンドウでコードの量を増やすことで、コード生成と理解の精度と有用性を新しいレベルに引き上げることができます。
Google は、Gemini 1.5 Pro や Flash などの LLM をサポートする Cody AI コーディング アシスタントの作成元である Sourcegraph と提携し、実際のコーディング シナリオにおける長いコンテキスト ウィンドウの可能性を探りました。Sourcegraph は、コード検索とインテリジェンスを AI コード生成に統合することに重点を置いており、Palo Alto Networks や Leidos など、大規模で複雑なコードベースを持つ企業に Cody を成功裏にデプロイしています。このため、この調査のパートナーとして理想的でした。
Sourcegraph のアプローチと結果
Sourcegraph は、100 万トークンのコンテキスト ウィンドウ(Google の Gemini 1.5 Flash を使用)で Cody のパフォーマンスを本番環境バージョンと比較しました。この直接比較により、拡張コンテキストのメリットを特定できました。大規模なコードベースを扱うデベロッパーにとって重要なタスクである、技術的な質問への回答に重点を置きました。深いコード理解を必要とする難問のデータセットを使用しました。
その結果は驚くべきものでした。Sourcegraph の主要なベンチマークの 3 つ(Essential Recall、Essential Conciseness、Helpfulness)で、長いコンテキストを使用すると大幅な改善が見られました。
重要な回答: 回答内の重要な事実の割合が大幅に増加しました。
重要な要約: 回答の長さで正規化された重要な事実の割合も改善され、より簡潔で関連性の高い回答が示されています。
有用性: 回答の長さで正規化した全体的な有用性スコアが大幅に向上し、よりユーザー フレンドリーなエクスペリエンスが提供されていることが示されました。

さらに、長いコンテキスト モデルを使用すると、全体的なハルシネーション レート(事実に反する情報の生成)が大幅に低下しました。ハルシネーション率は 18.97% から 10.48% に低下し、精度と信頼性が大幅に向上しました。

トレードオフと今後の方向性
長いコンテキストには大きなメリットがありますが、トレードオフもあります。最初のトークンまでの時間は、コンテキストの長さに比例して増加します。この問題を軽減するため、Sourcegraph はプリフェッチ メカニズムと、モデル実行状態のキャッシュに階層化されたコンテキスト モデル アーキテクチャを実装しました。Gemini 1.5 Flash と Pro の長いコンテキスト モデルでは、1 MB のコンテキストで最初のトークンまでの時間が 30 ~ 40 秒から約 5 秒に短縮されました。これにより、リアルタイム コード生成とテクニカル サポートが大幅に改善されました。
このコラボレーションは、コードの理解と生成に革命をもたらす長いコンテキスト モデルの変革的な可能性を示しています。Google は、Sourcegraph などの企業と提携し、大規模なコンテキスト ウィンドウを備えた、より革新的なアプリケーションとパラダイムを実現していきます。
Sourcegraph の詳細な評価方法、ベンチマーク、分析(例を含む)について詳しくは、詳細なブログ投稿をご覧ください。