ПалиДжемма

PaliGemma 2 и PaliGemma — это облегченные модели открытого языка видения (VLM), вдохновленные PaLI-3 и основанные на открытых компонентах, таких как модель видения SigLIP и языковая модель Gemma . PaliGemma принимает как изображения, так и текст в качестве входных данных и может отвечать на вопросы об изображениях с подробностями и контекстом. Это означает, что PaliGemma может выполнять более глубокий анализ изображений и предоставлять полезную информацию, например, добавлять субтитры к изображениям и коротким видеороликам, обнаруживать объекты и читать текст, встроенный в изображения.

PaliGemma 2 доступен с размерами параметров 3B, 10B и 28B, которые основаны на моделях Gemma 2 2B, 9B и 27B соответственно. Оригинальные модели PaliGemma доступны в размере 3B. Дополнительную информацию о вариантах моделей Gemma см. в списке моделей Gemma . Варианты модели PaliGemma поддерживают различные разрешения пикселей для входных изображений, включая 224 x 224, 448 x 448 и 896 x 896 пикселей.

Вы можете просмотреть и скачать модели PaliGemma со следующих сайтов:

Существует три категории моделей PaliGemma:

  • PaliGemma PT — предварительно обученные модели общего назначения, которые можно точно настроить для решения различных задач.
  • PaliGemma FT — модели, ориентированные на исследования, которые точно настроены на конкретные наборы исследовательских данных.
  • Смесь PaliGemma — модели, настроенные на сочетание задач, которые можно использовать «из коробки» для общих случаев использования.

Ключевые преимущества включают в себя:

  • Одновременно обрабатывает как изображения, так и ввод текста.
  • Может быть точно настроен для решения широкого спектра задач, связанных с визуальным языком.
  • Поставляется с контрольно-пропускным пунктом, настроенным на различные задачи для немедленного исследовательского использования.

Подробнее

Попробуйте возможности обнаружения и создания контента с помощью PaliGemma в Colab.
Точная настройка модели PaliGemma с данными изображения с помощью JAX в Colab.
Просмотрите больше кода, блокноты Colab, информацию и обсуждения о PaliGemma на Kaggle.