Google AI Edge Portal のご紹介: エッジ AI を大規模にベンチマークします。限定公開プレビュー中にアクセスをリクエストするには、登録してください。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Android 向け LLM 推論ガイド

LLM 推論 API を使用すると、Android アプリケーションで大規模言語モデル（LLM）を完全にオンデバイスで実行できます。これにより、テキストの生成、自然言語形式での情報の取得、ドキュメントの要約など、さまざまなタスクを実行できます。このタスクは、複数のテキスト間大規模言語モデルを組み込みでサポートしているため、最新のオンデバイス生成 AI モデルを Android アプリに適用できます。

LLM 推論 API を Android アプリケーションにすばやく追加するには、クイックスタートに沿って操作します。LLM 推論 API を実行する Android アプリケーションの基本的な例については、サンプルアプリケーションをご覧ください。LLM Inference API の仕組みについて詳しくは、構成オプション、モデル変換、LoRA チューニングの各セクションをご覧ください。

このタスクの動作については、MediaPipe Studio デモをご覧ください。このタスクの機能、モデル、構成オプションの詳細については、概要をご覧ください。

クイックスタート

LLM Inference API を Android アプリケーションに追加する手順は次のとおりです。LLM 推論 API は、Google Pixel 8 や Samsung S23 以降などのハイエンド Android デバイス向けに最適化されており、デバイスエミュレータは確実にサポートされません。

依存関係を追加する

LLM Inference API は com.google.mediapipe:tasks-genai ライブラリを使用します。Android アプリの build.gradle ファイルに次の依存関係を追加します。

dependencies {
    implementation 'com.google.mediapipe:tasks-genai:0.10.27'
}

モデルのダウンロード

Hugging Face から 4 ビット量子化形式で Gemma-3 1B をダウンロードします。使用可能なモデルの詳細については、モデルのドキュメントをご覧ください。

output_path フォルダの内容を Android デバイスにプッシュします。

$ adb shell rm -r /data/local/tmp/llm/ # Remove any previously loaded models
$ adb shell mkdir -p /data/local/tmp/llm/
$ adb push output_path /data/local/tmp/llm/model_version.task

Task を初期化する

基本的な構成オプションを使用してタスクを初期化します。

// Set the configuration options for the LLM Inference task
val taskOptions = LlmInferenceOptions.builder()
        .setModelPath("/data/local/tmp/llm/model_version.task")
        .setMaxTopK(64)
        .build()

// Create an instance of the LLM Inference task
val llmInference = LlmInference.createFromOptions(context, taskOptions)

タスクを実行する

generateResponse() メソッドを使用してテキストレスポンスを生成します。これにより、1 つの生成されたレスポンスが生成されます。

val result = llmInference.generateResponse(inputPrompt)
logger.atInfo().log("result: $result")

レスポンスをストリーミングするには、generateResponseAsync() メソッドを使用します。

val options = LlmInference.LlmInferenceOptions.builder()
  ...
  .setResultListener { partialResult, done ->
    logger.atInfo().log("partial result: $partialResult")
  }
  .build()

llmInference.generateResponseAsync(inputPrompt)

サンプルアプリケーション

LLM 推論 API の動作を確認し、包括的なオンデバイス生成 AI 機能を試すには、Google AI Edge Gallery アプリをご覧ください。

Google AI Edge Gallery は、デベロッパー向けのインタラクティブなプレイグラウンドとして機能するオープンソースの Android アプリケーションです。このドキュメントでは、次の内容について説明します。

LLM Inference API をさまざまなタスクに使用する実践的な例（以下を含む）。
- 画像について質問: 画像をアップロードして、その画像について質問できます。説明を受けることも、問題の解決や被写体の特定もできます。
- プロンプトのラボ: 要約、書き換え、コード生成に加え、自由形式のプロンプトを使用して、シングルターンの LLM ユースケースを確認できます。
- AI チャット: マルチターンの会話ができます。
Hugging Face LiteRT コミュニティと Google の公式リリース（Gemma 3N など）から、さまざまな LiteRT 最適化モデルを見つけてダウンロードし、テストする機能。
さまざまなモデルのリアルタイムのオンデバイスパフォーマンスベンチマーク（最初のトークンまでの時間、デコード速度など）。
独自のカスタム .litertlm モデルまたは .task モデルをインポートしてテストする方法。

このアプリは、LLM 推論 API の実用的な実装と、オンデバイスの生成 AI の可能性を理解するためのリソースです。ソースコードを確認し、 Google AI Edge Gallery GitHub リポジトリからアプリをダウンロードします。

構成オプション

次の構成オプションを使用して、Android アプリを設定します。

オプション名	説明	値の範囲	デフォルト値
`modelPath`	プロジェクトディレクトリ内のモデルが保存されているパス。	経路	なし
`maxTokens`	モデルが処理するトークン（入力トークン + 出力トークン）の最大数。	整数	512
`topK`	モデルが生成の各ステップで考慮するトークンの数。予測を最も確率の高い上位 k 個のトークンに制限します。	整数	40
`temperature`	生成時に導入されるランダム性の量。温度が高いほど、生成されるテキストの創造性が高くなります。一方、温度が低いほど、予測可能な生成が行われます。	浮動小数点数	0.8
`randomSeed`	テキスト生成中に使用されるランダムシード。	整数	0
`loraPath`	デバイスのローカルにある LoRA モデルの絶対パス。注: これは GPU モデルとのみ互換性があります。	経路	なし
`resultListener`	結果を非同期で受け取るように結果リスナーを設定します。非同期生成メソッドを使用している場合にのみ適用されます。	なし	なし
`errorListener`	オプションのエラーリスナーを設定します。	なし	なし

マルチモーダルプロンプト

LLM Inference API Android API は、テキスト、画像、音声の入力を受け付けるモデルによるマルチモーダルプロンプトをサポートしています。マルチモーダルを有効にすると、ユーザーはプロンプトに画像とテキスト、音声とテキストの組み合わせを含めることができます。LLM はテキストレスポンスを返します。

まず、MediaPipe と互換性のある Gemma 3n のバリアントを使用します。

Gemma-3n E2B: Gemma-3n ファミリーの有効な 2B モデル。
Gemma-3n E4B: Gemma-3n ファミリーの有効な 4B モデル。

詳細については、Gemma-3n のドキュメントをご覧ください。

次の手順に沿って、LLM 推論 API の画像入力または音声入力を有効にします。

画像入力

プロンプト内で画像を提供するには、入力画像またはフレームを com.google.mediapipe.framework.image.MPImage オブジェクトに変換してから、LLM 推論 API に渡します。

import com.google.mediapipe.framework.image.BitmapImageBuilder
import com.google.mediapipe.framework.image.MPImage

// Convert the input Bitmap object to an MPImage object to run inference
val mpImage = BitmapImageBuilder(image).build()

LLM 推論 API のビジョンサポートを有効にするには、グラフオプション内で EnableVisionModality 構成オプションを true に設定します。

LlmInferenceSession.LlmInferenceSessionOptions sessionOptions =
  LlmInferenceSession.LlmInferenceSessionOptions.builder()
    ...
    .setGraphOptions(GraphOptions.builder().setEnableVisionModality(true).build())
    .build();

セッションあたりの画像の最大数を 10 に設定します。

LlmInferenceOptions options = LlmInferenceOptions.builder()
  ...
  .setMaxNumImages(10)
  .build();

以下に、ビジョン入力とテキスト入力を処理するように設定された LLM 推論 API の実装例を示します。

MPImage image = getImageFromAsset(BURGER_IMAGE);

LlmInferenceSession.LlmInferenceSessionOptions sessionOptions =
  LlmInferenceSession.LlmInferenceSessionOptions.builder()
    .setTopK(10)
    .setTemperature(0.4f)
    .setGraphOptions(GraphOptions.builder().setEnableVisionModality(true).build())
    .build();

try (LlmInference llmInference =
    LlmInference.createFromOptions(ApplicationProvider.getApplicationContext(), options);
  LlmInferenceSession session =
    LlmInferenceSession.createFromOptions(llmInference, sessionOptions)) {
  session.addQueryChunk("Describe the objects in the image.");
  session.addImage(image);
  String result = session.generateResponse();
}

音声入力

LlmInferenceOptions で音声サポートを有効にする

val inferenceOptions = LlmInference.LlmInferenceOptions.builder()
  ...
  .setAudioModelOptions(AudioModelOptions.builder().build())
  .build()

sessionOptions で音声サポートを有効にする

    val sessionOptions =  LlmInferenceSessionOptions.builder()
      ...
      .setGraphOptions(GraphOptions.builder().setEnableAudioModality(true).build())
      .build()

推論中に音声データを送信します。注: 音声は .wav 形式のモノラルチャンネルである必要があります


val audioData: ByteArray = ...
inferenceEngine.llmInferenceSession.addAudio(audioData)

以下は、音声入力とテキスト入力を処理するように設定された LLM 推論 API の実装例です。

val audioData: ByteArray = ...
val inferenceOptions = LlmInference.LlmInferenceOptions.builder()
  ...
  .setAudioModelOptions(AudioModelOptions.builder().build())
  .build()
val sessionOptions =  LlmInferenceSessionOptions.builder()
  ...
  .setGraphOptions(GraphOptions.builder().setEnableAudioModality(true).build())
  .build()

LlmInference.createFromOptions(context, inferenceOptions).use { llmInference ->
  LlmInferenceSession.createFromOptions(llmInference, sessionOptions).use { session ->
    session.addQueryChunk("Transcribe the following speech segment:")
    session.addAudio(audioData)
    val result = session.generateResponse()
  }
}

LoRA のカスタマイズ

LLM Inference API は、PEFT（パラメータエフィシエントファインチューニング）ライブラリを使用して LoRA（Low-Rank Adaptation）チューニングをサポートしています。LoRA チューニングは、費用対効果の高いトレーニングプロセスを通じて LLM の動作をカスタマイズします。モデル全体を再トレーニングするのではなく、新しいトレーニングデータに基づいてトレーニング可能な重みの小さなセットを作成します。

LLM 推論 API は、Gemma-2 2B、Gemma 2B、Phi-2 モデルのアテンションレイヤに LoRA 重みを追加することをサポートしています。モデルを safetensors 形式でダウンロードします。

LoRA 重みを作成するには、ベースモデルが safetensors 形式である必要があります。LoRA トレーニングの後、モデルを FlatBuffers 形式に変換して MediaPipe で実行できます。

LoRA 重みを準備する

PEFT の LoRA メソッドガイドを使用して、独自のデータセットでファインチューニングされた LoRA モデルをトレーニングします。

LLM 推論 API はアテンションレイヤでの LoRA のみをサポートしているため、LoraConfig でアテンションレイヤのみを指定します。

# For Gemma
from peft import LoraConfig
config = LoraConfig(
    r=LORA_RANK,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
)

# For Phi-2
config = LoraConfig(
    r=LORA_RANK,
    target_modules=["q_proj", "v_proj", "k_proj", "dense"],
)

準備したデータセットでトレーニングを行い、モデルを保存すると、ファインチューニングされた LoRA モデルの重みが adapter_model.safetensors で使用できるようになります。safetensors ファイルは、モデル変換中に使用される LoRA チェックポイントです。

モデル変換

MediaPipe Python パッケージを使用して、モデルの重みを Flatbuffer 形式に変換します。ConversionConfig には、ベースモデルオプションと追加の LoRA オプションを指定します。

import mediapipe as mp
from mediapipe.tasks.python.genai import converter

config = converter.ConversionConfig(
  # Other params related to base model
  ...
  # Must use gpu backend for LoRA conversion
  backend='gpu',
  # LoRA related params
  lora_ckpt=LORA_CKPT,
  lora_rank=LORA_RANK,
  lora_output_tflite_file=LORA_OUTPUT_FILE,
)

converter.convert_checkpoint(config)

コンバータは、ベースモデル用と LoRA モデル用の 2 つの Flatbuffer ファイルを生成します。

LoRA モデルの推論

Android は、初期化中に静的 LoRA をサポートします。LoRA モデルを読み込むには、LoRA モデルのパスとベース LLM を指定します。

// Set the configuration options for the LLM Inference task
val options = LlmInferenceOptions.builder()
        .setModelPath(BASE_MODEL_PATH)
        .setMaxTokens(1000)
        .setTopK(40)
        .setTemperature(0.8)
        .setRandomSeed(101)
        .setLoraPath(LORA_MODEL_PATH)
        .build()

// Create an instance of the LLM Inference task
llmInference = LlmInference.createFromOptions(context, options)

LoRA で LLM 推論を実行するには、ベースモデルと同じ generateResponse() または generateResponseAsync() メソッドを使用します。