Модели Gemini способны обрабатывать изображения и видео, что позволяет использовать их во многих передовых разработчиках, для которых исторически требовались модели, специфичные для предметной области. Некоторые из возможностей зрения Близнецов включают в себя способность:
- Подписывайтесь и отвечайте на вопросы об изображениях
- Транскрибируйте и анализируйте PDF-файлы, включая до 2 миллионов токенов
- Описывать, сегментировать и извлекать информацию из видеороликов продолжительностью до 90 минут.
- Обнаруживайте объекты на изображении и возвращайте для них координаты ограничивающей рамки.
Gemini с самого начала создавался как мультимодальный, и мы продолжаем расширять границы возможного.
Что дальше
В этом руководстве показано, как загружать изображения и видеофайлы с помощью API файла, а затем генерировать текстовые выходы с изображения и видео входов. Чтобы узнать больше, см. Следующие ресурсы:
- Стратегии подсказки файлов : API Gemini поддерживает подсказку с помощью текста, изображений, аудио и видеодантеров, также известных как мультимодальная подсказка.
- Системные инструкции : Системные инструкции позволяют вам управлять поведением модели на основе ваших конкретных потребностей и вариантов использования.
- Руководство по безопасности : иногда генеративные модели ИИ производят неожиданные результаты, такие как неточные результаты, смещенные или оскорбительные. Пост-обработка и оценка человека необходимы для ограничения риска вреда от таких результатов.