Vision-Funktionen mit der Gemini API entdecken

Gemini-Modelle können Bilder und Videos verarbeiten und ermöglichen so viele neue Anwendungsfälle für Entwickler, für die bisher domänenspezifische Modelle erforderlich waren. Zu den Funktionen von Gemini gehören:

  • Bilder mit Bildunterschriften versehen und Fragen zu Bildern beantworten
  • PDFs transkribieren und mit bis zu 2 Millionen Tokens begründen
  • Videos mit einer Länge von bis zu 90 Minuten beschreiben, segmentieren und Informationen daraus extrahieren
  • Objekte in einem Bild erkennen und Begrenzungsrahmenkoordinaten für sie zurückgeben

Gemini wurde von Grund auf als multimodales System entwickelt und wir erweitern kontinuierlich die Grenzen des Möglichen.

Nächste Schritte

In diesem Leitfaden wird gezeigt, wie Sie Bild- und Videodateien mit der File API hochladen und dann Textausgaben aus Bild- und Videoinputs generieren. Weitere Informationen finden Sie in den folgenden Ressourcen:

  • Strategien für Prompts aus Dateien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
  • Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells entsprechend Ihren spezifischen Anforderungen und Anwendungsfällen steuern.
  • Sicherheitshinweise: Manchmal liefern generative KI-Modelle unerwartete Ergebnisse, z. B. fehlerhafte, voreingenommene oder anstößige Ergebnisse. Eine Nachbearbeitung und eine menschliche Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.