探索 Gemini API 的视觉功能

Gemini 模型能够处理图片和视频,从而支持许多先进的开发者用例,而这些用例在过去需要使用特定领域的模型。Gemini 的部分视觉功能包括:

  • 为图片添加文字说明并回答有关图片的问题
  • 转写和推理 PDF 文件(最多包含 200 万个令牌)
  • 对时长不超过 90 分钟的视频进行描述、细分和信息提取
  • 检测图片中的对象并返回其边界框坐标

Gemini 从一开始就是作为多模态模型来构建的,我们会不断突破可能的边界。

后续步骤

本指南介绍了如何使用 File API 上传图片和视频文件,然后根据图片和视频输入生成文本输出。如需了解详情,请参阅以下资源:

  • 文件提示策略:Gemini API 支持使用文本、图片、音频和视频数据进行提示,也称为多模态提示。
  • 系统指令:借助系统指令,您可以根据自己的特定需求和使用情形来控制模型的行为。
  • 安全指南:生成式 AI 模型有时会生成意外的输出,例如不准确、有偏见或令人反感的输出。后处理和人工评估对于限制此类输出造成伤害的风险至关重要。