テキスト生成

Gemini API は、テキスト、画像、動画、音声を入力として指定すると、テキスト出力を生成できます。

このガイドでは、generateContent メソッドと streamGenerateContent メソッドを使用してテキストを生成する方法について説明します。Gemini のビジョン機能と音声機能の使用方法については、Vision音声のガイドをご覧ください。

テキストのみの入力からテキストを生成する

Gemini API を使用してテキストを生成する最も簡単な方法は、次の例に示すように、モデルにテキストのみの入力を 1 つ提供することです。

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");

const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

const prompt = "Explain how AI works";

const result = await model.generateContent(prompt);
console.log(result.response.text());

この場合、プロンプト(「AI の仕組みを説明してください」)には、出力の例、システムの手順、フォーマット情報は含まれません。これはゼロショット アプローチです。ユースケースによっては、ワンショットまたは少数ショット プロンプトを使用すると、ユーザーの期待に沿った出力が生成される場合があります。場合によっては、モデルがタスクを理解したり、特定のガイドラインに従ったりできるように、システム指示を指定することもできます。

テキストと画像の入力からテキストを生成する

Gemini API は、テキストとメディア ファイルを組み合わせたマルチモーダル入力をサポートしています。次の例は、テキストと画像の入力からテキストを生成する方法を示しています。

import { GoogleGenerativeAI } from "@google/generative-ai";
import * as fs from 'node:fs';

const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

function fileToGenerativePart(path, mimeType) {
  return {
    inlineData: {
      data: Buffer.from(fs.readFileSync(path)).toString("base64"),
      mimeType,
    },
  };
}

const prompt = "Describe how this product might be manufactured.";
const imagePart = fileToGenerativePart("/path/to/image.png", "image/png");

const result = await model.generateContent([prompt, imagePart]);
console.log(result.response.text());

テキスト ストリームを生成する

デフォルトでは、モデルはテキスト生成プロセス全体が完了した後にレスポンスを返します。結果全体を待たずに、ストリーミングを使用して部分的な結果を処理することで、インタラクションを高速化できます。

次の例は、streamGenerateContent メソッドを使用してストリーミングを実装し、テキストのみの入力プロンプトからテキストを生成する方法を示しています。

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

const prompt = "Explain how AI works";

const result = await model.generateContentStream(prompt);

for await (const chunk of result.stream) {
  const chunkText = chunk.text();
  process.stdout.write(chunkText);
}

チャット会話を作成する

Gemini SDK を使用すると、複数のラウンドの質問と回答を収集できます。これにより、ユーザーは回答に段階的に近づいたり、複数の問題についてサポートを受けたりできます。この SDK 機能は、会話履歴を追跡するためのインターフェースを提供しますが、バックグラウンドでは同じ generateContent メソッドを使用してレスポンスを作成します。

次のコード例は、基本的なチャットの実装を示しています。

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
const chat = model.startChat({
  history: [
    {
      role: "user",
      parts: [{ text: "Hello" }],
    },
    {
      role: "model",
      parts: [{ text: "Great to meet you. What would you like to know?" }],
    },
  ],
});

let result = await chat.sendMessage("I have 2 dogs in my house.");
console.log(result.response.text());
let result2 = await chat.sendMessage("How many paws are in my house?");
console.log(result2.response.text());

次の例に示すように、チャットとストリーミングを併用することもできます。

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

const chat = model.startChat({
  history: [
    {
      role: "user",
      parts: [{ text: "Hello" }],
    },
    {
      role: "model",
      parts: [{ text: "Great to meet you. What would you like to know?" }],
    },
  ],
});

let result = await chat.sendMessageStream("I have 2 dogs in my house.");
for await (const chunk of result.stream) {
  const chunkText = chunk.text();
  process.stdout.write(chunkText);
}
let result2 = await chat.sendMessageStream("How many paws are in my house?");
for await (const chunk of result2.stream) {
  const chunkText = chunk.text();
  process.stdout.write(chunkText);
}

テキスト生成を構成する

モデルに送信するすべてのプロンプトには、モデルがレスポンスを生成する方法を制御するパラメータが含まれています。これらのパラメータは GenerationConfig を使用して構成できます。パラメータを構成しない場合、モデルはデフォルトのオプションを使用します。このオプションはモデルによって異なる場合があります。

次の例は、使用可能ないくつかのオプションを構成する方法を示しています。

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");

const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

const result = await model.generateContent({
    contents: [
        {
          role: 'user',
          parts: [
            {
              text: "Explain how AI works",
            }
          ],
        }
    ],
    generationConfig: {
      maxOutputTokens: 1000,
      temperature: 0.1,
    }
});

console.log(result.response.text());

システム指示を追加する

システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。

モデルにシステム指示を指定すると、タスクを理解するための追加のコンテキストがモデルに提供され、よりカスタマイズされたレスポンスが生成されます。また、モデルとユーザーのインタラクション全体で特定のガイドラインに準拠することができます。エンドユーザーが提供するプロンプトとは別に、システム指示を設定することで、プロダクト レベルの動作を指定することもできます。

システム指示は、モデルを初期化するときに設定できます。

// Set the system instruction during model initialization
const model = genAI.getGenerativeModel({
  model: "gemini-1.5-flash",
  systemInstruction: "You are a cat. Your name is Neko.",
});

その後、通常どおりモデルにリクエストを送信できます。

次のステップ

Gemini API の基本を理解したので、次のことを試すことができます。

  • 画像認識: Gemini のネイティブな画像認識を使用して画像と動画を処理する方法を学びます。
  • 音声の理解: Gemini のネイティブ音声理解を使用して音声ファイルを処理する方法を学びます。