Gemini 2.0 Flash が本番環境に対応しました。
詳細
Gemini API でビジョン機能を試す
Gemini モデルは画像と動画を処理できるため、従来はドメイン固有のモデルを必要としていたフロンティア デベロッパーの多くのユースケースを実現できます。Gemini のビジョン機能には、次のものがあります。
- 画像にキャプションを付け、画像に関する質問に回答する
- 最大 200 万トークンを含む PDF を音声文字変換して推論する
- 最大 90 分間の動画の説明、セグメンテーション、情報の抽出
- 画像内のオブジェクトを検出して、境界ボックスの座標を返す
Gemini はマルチモーダル向けにゼロから構築されており、Google は可能性の限界を押し広げ続けています。
次のステップ
このガイドでは、File API を使用して画像ファイルと動画ファイルをアップロードし、画像と動画の入力からテキスト出力を生成する方法について説明します。詳細については、次のリソースをご覧ください。
- ファイル プロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプト)をサポートしています。
- システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。
- 安全性に関するガイダンス: 生成 AI モデルは、不正確な出力、偏見のある出力、不適切な出力など、予期しない出力を生成することがあります。このような出力による被害のリスクを軽減するには、後処理と人間による評価が不可欠です。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-02-05 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["必要な情報がない","missingTheInformationINeed","thumb-down"],["複雑すぎる / 手順が多すぎる","tooComplicatedTooManySteps","thumb-down"],["最新ではない","outOfDate","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["サンプル / コードに問題がある","samplesCodeIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-02-05 UTC。"],[],[]]